チェックポイントの監視

概要

Flinkのwebインタフェースはジョブのチェックポイントを監視するためのタブを提供します。これらの状態はジョブが完了した後でも利用可能です。チェックポイントについての情報を表示する4つの異なるタブがあります: 概要、履歴、サマリ、および設定。以下の章はそれらの全てを順番にカバーするでしょう。

監視

Overview タブ

概要タブは以下の統計をリスト化します。これらの統計はJobManagerの喪失を切り抜けず、JobManagerが故障した場合はリセットされます。

  • チェックポイントのカウント
    • Triggered: ジョブが開始されてから起動されたチェックポイントの総数。
    • In Progress: 進行中のチェックポイントの現在の数
    • Completed: ジョブが開始されてから完了した成功のチェックポイントの総数
    • Failed: ジョブが開始されてから失敗したチェックポイントの総数。
    • Restored: ジョブが開始されてからの回復オペレーションの数これはサブミットされてからジョブが再開された回数も伝えます。セーブポイントを持つ初期のサブミットも回復としてカウントし、もしJobManagerが操作中に紛失した場合はカウントも再セットされることに注意してください。
  • 最新の完了したチェックポイント: 最新の完了が成功したチェックポイント。More details をクリックすると、サブタスクのレベルまで詳細な統計が与えられます。
  • 最新の失敗したチェックポイント: 最新の失敗したチェックポイント。More details をクリックすると、サブタスクのレベルまで詳細な統計が与えられます。
  • 最新のセーブポイント: 外部パスを持つ最も最近に引き起こされたセーブポイント。More details をクリックすると、サブタスクのレベルまで詳細な統計が与えられます。
  • 最新の回復: 回復操作には2つの種類があります。
    • チェックポイントからの回復: 通常の定期的なチェックポイントからの回復。
    • セーブポイントからの回復: セーブポイントからの回復。

History タブ

チェックポイントの履歴は現在進行中のものを含むもっと最近に引き起こされたチェックポイントについての統計を保持します。

チェックポイントの監視: 履歴
  • ID: 引き起こされたチェックポイントのID。IDはそれぞれのチェックポイントについて増加され1から始まります。
  • Status: チェックポイントの現在の状態です。進行中 (), 完了 () あるいは 失敗 ()のいずれかです。引き起こされたチェックポイントがセーブポイントの場合、 シンボルを見るでしょう。
  • 起動時間: チェックポイントがジョブマネージャで引き起こされた時間。
  • 最新の通知: ジョブマネージャーで受信されたサブタスクの最新の通知が来た時間 (あるいはまだ通知を受け取っていない場合は n/a)。
  • エンド トゥ エンドの持続時間: 起動のタイムスタンプから最新の通知までの持続時間 (あるいはまだ通知を受け取っていない場合は n/a)。完了のチェックポイントについてのこのエンド トゥ エンドの持続時間はチェックポイントを通知する最後のサブタスクによって決定されます。この時間は通常1つのサブタスクが実際に状態をチェックポイントするのに必要なものよりも大きいです。
  • 状態のサイズ: 通知されたサブタスク全体の状態のサイズ。
  • 整列の間のバッファ: 通知されたサブタスク全体の整列の間にバッファされたバイト数。もしストリームの整列がチェックポイントの間に起こる場合のみ > 0 です。もしチェックポイントのモードがAT_LEAST_ONCE の場合、少なくとも1回のモードはストリームの整列を必要としないためこれは常に0です。

履歴サイズの設定

以下の設定キーによって履歴のために記憶される最新のチェックポイントの数を設定することができます。デフォルトは 10です。

# Number of recent checkpoints that are remembered
jobmanager.web.checkpoints.history: 15

Summary タブ

summary は、エンド トゥ エンドの持続期間、状態のサイズ および整列中にバッファされたバイト数について全ての完了したチェックポイントの単純な min/average/maximum 統計を計算します (それらが意味することの詳細についてはHistoryを見てください)。

チェックポイントの監視: Summary

これらの統計はJobManagerの喪失を切り抜けず、JobManagerが故障した場合はリセットされます。

Configuration タブ

ストリーム設定の設定リスト:

  • チェックポイントのモード: 確実に1回 あるいは 少なくとも1回のどちらか。
  • 間隔: 設定されたチェックポイントの間隔。この間隔でチェックポイントを引き起こします。
  • タイムアウト: ジョブマネージャーによって取り消された後のタイムアウトで、新しいチェックポイントが起動されます。
  • チェックポイント間の最小の休止: チェックポイント間で必要推される最小の休止。チェックポイントが完了した後で、次のものを起動数前に少なくともこの時間待ちます。潜在的に通常の間隔を遅らせます。
  • 最大の並行チェックポイント: 同時に進めることができるチェックポイントの最大数。
  • 永続的にチェックポイントを持続: 有効または無効。If enabled, furthermore lists the cleanup config for externalized checkpoints (delete or retain on cancellation).

チェックポイントの詳細

チェックのポイントのためのMore detailsリンクをクリックすると、全てのオペレータについての Minumum/Average/Maximum サマリと、1つのサブタスクごとの詳細な数を取得します。

チェックポイントの監視: 詳細

オペレータごとのサマリ

チェックポイントの監視: 詳細のサマリ

全てのサブタスクの統計

チェックポイントの監視: サブタスク

上に戻る

TOP
inserted by FC2 system