システムが時間とともにどう振る舞うかを追跡し、注意を払うべきトレースを浮かび上がらせます。モニタリングは、生データの流れを「システムがどう進化しているか」の継続的な理解に変えます。評価手法は時系列での品質の可視化を助け、アプリケーション内の注目すべき出来事に目を向けさせます。暗黙的・明示的なユーザーフィードバック、コストやレイテンシーの異常値などが、注目すべきトレースの抽出に役立ちます。 → 詳しく読む

2. 開発フェーズで体系的に改善する

第二の部分は、観測した内容を信頼できる改善につなげる作業です。既に動いている部分を劣化させずに進めるのが鍵です。アプリケーションがまだ本番に出ていない段階でも、データセット・実験・評価は本番投入前にシステムへの信頼を得るための優れた出発点になります。

オフライン

データセット構築

データセット

モニタリングで浮かび上がった実際のシナリオや、開発段階で設計した想定シナリオを、再現可能なテストケースに変換します。手作業で選んだ少数の例に対してテストするのではなく、実際の使われ方を反映したセットを構築します。データセットには本番由来の例だけでなく、システムが直面する範囲を定義する仮想例も含めることができます。 → 詳しく読む

実験

変数を体系的に変更し (プロンプト、モデル、リトリーバル戦略など)、それぞれの変更を安定したベースラインや他の実験構成と比較します。そうすれば、推測ではなく実際に何が改善したかが分かります。 → 詳しく読む

評価

手動レビュー、コードベースのチェック、LLM-as-a-Judge を用いて、結果がリリースに値するかを判断します。評価とは、比較を意思決定に変えるプロセスです。 → 詳しく読む

変更をリリースしたら、サイクルが再び始まります。更新されたシステムは新しいトレース、新しいモニタリングシグナル、そして新しい改善機会を生み出します。

最初から完璧なループを回す必要はない

多くのチームは、5 つのステップすべてを最初から備えているわけではありません。それで構いません。

ループの価値は段階的に積み上がります。ステップを 1 つ追加するごとに、より良いシグナル、より体系的なカバレッジ、リリースするものへのより高い信頼が得られます。ゴールはすべてを一度に実装することではなく、現在の自分の位置を理解し、ループを閉じるための次の一歩を踏み出すことです。多くのチームはトレーシングか、初期のデータセット構築から始めています。

トレーシングから始める

自然な出発点の 1 つはトレーシングです。見えないものはモニタリングできず、計測できないものは改善できません。トレーシングはすべての基盤です。たとえば、何ヶ月か稼働しているアプリケーションがある状況を想定してみてください。評価と改善の前提として、システムが実際にどう動いているかをステップ単位で理解したい段階です。そんなときトレーシングを追加することは、知見を得るための優れた出発点になります。

→ トレーシングから始める

データセット構築から始める

一部のチームは、システムが対応すべきスコープを定めるために、データセット構築から始めることを好みます。これは再現可能なケースを早期に整える優れた方法ですが、初期実行にトレーシングを加えると、システムの振る舞いをより深く理解できるという利点があります。たとえば、しばらく開発を続けてきたシステムについて、本番投入前に品質への確信を得たい場面を想定してみてください。規制環境下で高い品質基準を要求する顧客がいる場合もあるでしょう。データセットの構築、実験、結果の体系的な評価は、必要な信頼と確信を築くのに役立ちます。

→ データセット構築から始める

Was this page helpful?

On this page