ラベル Alert の投稿を表示しています。 すべての投稿を表示
ラベル Alert の投稿を表示しています。 すべての投稿を表示

2018年12月24日月曜日

Nutanixの様々な自動通知機能を紹介

この記事はNutanix Advent Calendar(1枚目) 2018/12/24の記事です

Nutanixには、障害通知などを通知する機能を標準で搭載しています。
また、リモートサポートを迅速に行う機能も搭載されています。
今まで各機能紹介や名称は、時折簡単に紹介をしておりましたが、今一歩深くご紹介をしたことがありませんでしたので、今回はこれら機能について紹介いたします。

まず、Nutanixには2つの通知機能があります。

Pulse

パルスと読みます。Nutanix Pulseは、診断システム(NCC)のデータをNutanixサポートチームに提供します。Pulseは、システムのパフォーマンスに影響を与えることないように設計されており、自動的にこの情報を収集します。(オフにすることもできます)
Pulseは、Nutanixクラスタの正常性と状態を監視するために必要な基本的なシステムレベルの情報のみを共有します。IPアドレスや各種アカウント情報は、送信されません。
送られた情報をもとに、サポートが対応するため、サポート連絡時にAOSのバージョンやハイパーバイザーのバージョンなどを毎回ヒアリングされることなく、そのままサポート業務に入ることができるため、迅速なサポートを受けるためにも一役を買っています。

Pulseの設定画面
(Pulse自信をオフにすることも可能ですし、送信する情報を制限することも可能)



Alert

アラートはNutanixにイベントの種類、問題イベントの説明(たとえば、電源切断)を識別するいくつかの変数を含むアラートイベントの基本情報を送信します。アラートには、クラスターID、NOS / AOSのバージョン、およびコントローラーVMのIPアドレスも送信されます。
なお、AlertをNutanixサポートに送信する設定をした際、重要なエラーに関してはNutanixから自動的にCase(サポートインシデント)が発行され、サポートから連絡が来る仕組みになっております。

Alertの設定画面
(アラート情報をNutanixサポートには送らず、自社のみにメールで通知させることも可能)



ドキュメントによっては、Pulseが障害情報を通知するものと記載されているものがありますが、実際には、Pulseは統計・環境情報しか送信されず、実際の障害等が発生した際の通知は、Alertの設定をしておかなければなりません。

また、Nutanixの障害時に迅速な対応をするために、Nutanixサポートが遠隔操作をするための機能があります。

RemoteSupport

Nutanixのサポートが直接CVMにアクセスできるようにするための機能です。
通常は無効になっており、ユーザー側で有効にしない限り自動的に有効になることはない。なお、有効にした場合、有効期限時間を設定する必要があり、その期限を過ぎると自動的にRemoteSupport機能はオフとなります。

RemoteSupportにおいては、日本ではWebEXを利用したメンテナンスを行う方法が多くこのRemoteSupport機能は利用されている話をあまり聞きませんが、機能としては実装済みであり、日本国内であってももちろん利用可能です。
また、セキュリティに配慮し、ユーザー側でオンにしないと有効にならず、自動的にオフになるというところは、ユーザーのセキュリティ意識に配慮された設計と考えられます。

では、これらの通信環境について見ていきましょう。
まず、PulseもAlertも原則CVMがインターネットに接続されている必要があります。

では、各機能におけるNutanixへの通信を見ていきます。

この図を見るとわかる通り、まずCVMがインターネットに接続されていることが前提となります。インターネットに接続できない場合は、AlertとPulse機能は、SMTPサーバーを指定することにより、サポート情報を送付することができます。

SMTPサーバーの設定
(SMTPの通信モードはPlainのほかにSTARTTLSとSSLに対応)


ここで1つ注意事項があります。
insightsは、HTTPSの通信のため、UTMやFirewallからは、443/TCPの解放だけで構いませんが、nsc01とnsc02の通信は、80/TCPと記載がありますが、これはHTTP通信ではなく、SSH通信となります。
そのため、UTMやFirewallで、80/TCPや8443/TCPを開放することが必要ですが、WebフィルターやIPS機能などが有効になっていると、SSH通信をブロックされる可能性があります。そのため、UTM装置がインターネット接続の間に設置されている場合は、このnsc01とnsc02の通信に関しては、WebフィルターやIPS機能をオフにしておくことが重要です。

接続される先はわずか3サイトだけで完了しますので、Firewall等のゲートウェイ装置の設定変更箇所はわずかではありますが、Nutanix設置後は忘れずに、PulseやAlertの設定と通信確立ができているかを確認しましょう。

PulseやAlertの詳細は以下の情報が参考になるかと思います。
(Support Portalにアクセスできる環境が必要です)

Nutanix Support Services: Pulse and Alerts
https://portal.nutanix.com/kb/2595

Information collected by Pulse.
https://portal.nutanix.com/kb/2232

Which Alerts Automatically Generate a Support Case with Nutanix Support?
https://portal.nutanix.com/kb/1959


クリスマスまであと1日、明日も私が担当です...。


2018年9月23日日曜日

PrismCentalの使いどころ(その7) アラートの便利な設定方法

※今回紹介の機能は、PrismStarterでもPrismProでも利用可能です。

前回までアラートの設定を見てきました。
かんたんにアラートの設定ができることが理解できたかと思いますが、今回は、Explore(探索)機能からアラートを追加する方法をご紹介します。

PrismCentralのExplorer画面から、仮想マシンを選択し任意の仮想マシンの詳細を開きます。

画面上部の「評価指標」をクリックします。

ここで表示される縦の項目は、アラートの評価鵜目として利用できます。
CPUやメモリ、IO周りなど運用監視で必要なものがあらかじめ登録されており、その項目をクリックすると、現状の状態がグラフで表視されます。

ここで、監視対象にしたいものを具ラグ右上にある「Set Alert」をクリックします。

するとアラートの登録画面が表示されます。

アラートの画面で登録されているかを確認しましょう。
上部のアラート メニューから「Configure」で「アラートポリシー」を確認してみましょう。

ただしくアラートが登録されていることがわかります。

なお、この指標として表示されるのは、
  • 仮想マシン
  • クラスタ
  • ホスト
のみ利用が可能です。

これを使えば、アラートの定義を作る手間を大きく省くことができます。








2018年9月22日土曜日

PrismCentalの使いどころ(その6) 監視の基本アラートの設定方法

※今回紹介の機能は、PrismStarterでもPrismProでも利用可能です。

監視において、何らかの危険予兆を見つけたらあらかじめアラート情報を通知してくれる機能は、運用監視において基本ですね。
Nutanixにおいても同様にアラートをメールで送信する機能があります。

アラートはまずEmail送信の設定がなされていないと話が先に進みませんので、あらかじめSMTPサーバーの設定をしておきましょう。

アラートは、あらかじめ設定されているものもありますので、まずは、ConfigureのAlert Policyでアラートの設定を見てみましょう。



作成されたシステム(たぶんシステムで作成されたという意味だと思います)という怪しい日本語をクリックするとあらかじめデフォルトで設定されたアラートを確認することができます。

では、実際に自分でアラートを作成してみたいと思います。
まずは、新規のアラートポリシーをクリックします。

監視のエンティティタイプは
「クラスタ」「ホスト」「仮想マシン」の3つになります。

指標は監視項目です。エンティティに合わせて様々なものが選択できます。
影響のタイプは、パフォーマンスやキャパシティなどを選択できます。

アラートを自動解決するのチェックボックスは、発生したアラートが48時間以内に解決した場合、そのアラートを自動で解決済として設定する機能です。
挙動異常の項目はPrismProライセンスを保有している場合、設定が可能な項目です。これは普段の挙動から逸脱した範囲を設定し、それを異常と判断します。
たとえば、いつもCPU負荷率が70%の仮想マシンがある日25%までCPU負荷が下がると、おそらく仮想マシン内でプロセスか何かが落ちたと思われます、すなわちこれは、通常ではない異常になるわけです。

PrismStarterの場合はその下の静的しきい値の設定のみが行えます。
警告までの値と、クリティカルと判断される場合の値の範囲をそれぞれ入れていきます。
なお、クリティカルの範囲は警告の範囲を含むように設定する必要があります。

アラート発生の条件となり状況の維持時間は、アラートの条件に合致してそれが一定の時間内に解決される場合、アラートとして記録しないようにするための待機時間です。

最後にポリシー名を確認し、保存を行います。


この条件に適合する事項が起きれば、自動的にアラートのメールがPrismCentralから送られてきます。


残念ながらメールの内容は英語ですが、普段のオペレーションにおいては必要な内容しか記載されていませんので、英語であっても問題な内容だと思います。

なお、メールの件名および、メール本文の下にカスタムで任意の文字を入れることが可能です。(設定はE-Mail Configurationで行います)そこでは日本語の表示も行うことができます。


アラートは監視の中で最も利用する機会があるものだと思います。
適切な閾値の設定を行い、障害を未然に予知する設定を入れておきましょう。
カスタムなポリシーを作らずとも、デフォルトポリシーのままでアラートメールを受信する設定を入れるだけでも十分に監視の役割を果たすと考えられます。