AI評価ツールで実現するGleanアシスタントのエンタープライズ対応

0
読了時間

Megha Jhunjhunwala

エンジニアリング

Riddhima Narravula

エンジニアリング

AI評価ツールで実現するGleanアシスタントのエンタープライズ対応
Glean Icon - Circular - White
GleanによるAIサマリー
  • Glean AI Evaluatorは、大規模言語モデル(LLM)を活用してGleanアシスタントのパフォーマンスを自動的に測定し、顧客データを開示することなくプライバシーを確保しながら意思決定能力を向上させます。
  • このシステムは、AIアシスタントの検索機能と生成機能の両方を評価し、コンテキストの関連性や再現率、回答の適合性、完全性、そして根拠の明確さといった指標に重点を置いています。
  • AI Evaluatorは74%の人間同意率を達成し、人間の判断と非常に近い結果を示すことで、Gleanアシスタントの品質監視と改善プロセスを大幅に向上させています。

Gleanアシスタントは、大規模言語モデル(LLM)をエンタープライズサーチと組み合わせるRetrieval Augmented Generation(RAG)と呼ばれる手法を通じて、ナレッジワーカーが迅速に答えを見つけることを可能にします。このシステムの大きな課題は、各企業のデータのプライバシーを維持しながら、大規模にその品質を評価することです。

Gleanでは、AI Evaluatorと呼ばれるシステムを開発しました。これは、顧客のデプロイ環境内でGleanアシスタントのパフォーマンスをLLMを使って自動的に測定するもので、データが開示されることはありません。AI Evaluatorは、Gleanアシスタントの改善提案に関する意思決定を可能にし、時間をかけてその進捗を測定することができます。

生成AIシステムの評価における課題

AIアシスタントの品質を評価し監視することは、大きな課題です。Gleanの検索エンジンでは、従来のクリックベースの指標を使用して品質を評価していますが、検索結果から自動的に回答を生成し、ユーザーとの追加のやり取りを必要としないAIアシスタントには、この方法は適用できません。ユーザーフィードバックも、アップボートやダウンボートを提供するユーザーが一部に限られるため、非常に限られた情報しか得られません。さらに、このフィードバックはユーザーの利用期間に応じて行動が変化するため、バイアスが生じる可能性もあります。

これまで、Gleanのエンジニアはシステムの変更を手動で評価していましたが、このプロセスは時間がかかるだけでなく、Glean独自のデータやお客様から報告された一貫性のない回答に限定されていました。しかし、大規模言語モデル(LLM)は、AIアシスタントの応答を評価・監視するプロセスを自動化する有望な解決策を提供します。このコンセプトは現在、業界と学術の両分野で注目されています。ただし、効果的なLLMベースの評価システムを構築するには、以下のようないくつかの課題に取り組む必要があります。

  1. バイアス: LLMはさまざまなバイアスを示す可能性があります。例えば、位置バイアス(位置によって回答を好む傾向)、冗長バイアス(長い回答を好む傾向)、自己優越バイアス(自分の回答を優先する傾向)などです。
  2. 評価の一貫性の欠如:  LLMは非決定的であるため、評価が一貫せず、信頼性に欠ける場合があります。
  3. 人間の評価およびエンドユーザーのエクスペリエンスとの整合性: LLMによる評価が人間の判断やユーザー満足度と一致するようにすることが重要です。

これらの課題を軽減するために、現在の研究では効果的なLLMベースの評価システムを構築するための以下のベストプラクティスが提案されています。

  1. 単一回答評価: 可能な限り、位置バイアスを避けるためにペア比較ではなく単一回答の評価を使用します。
  2. 数値評価よりカテゴリ評価: 数値評価ではなくカテゴリ評価を採用することで解釈が容易になり、プロンプトの変化によるばらつきが減少します。数値ラベルが必要な場合は、0~3などの低精度な範囲を採用し、0~100のような高精度な範囲を避けます。
  3. プロンプトエンジニアリング技術: チェーン・オブ・ソート推論やインコンテキスト学習例など、広く受け入れられているプロンプトエンジニアリング技術を活用し、人間の評価と一致させ、LLMの審査役としての品質を向上させます。
  4. モデルアンサンブル: モデルのパネルを用いてLLMを評価し、自己優越バイアスを防ぎます。

これらのベストプラクティスに従うことで、エンタープライズ向けAIアシスタントの性能を効果的に監視し、改善する、堅牢で信頼性の高いLLMベースの評価システムを構築しました。今後は、自己優越バイアスを軽減するために、モデルのアンサンブル(いわば「LLM陪審員」)を活用する手法などのさらなる技術の探求を進めていきます。

Gleanの評価アプローチ

Gleanアシスタントは、以下の2つの主要なコンポーネントで構成されています。

  • 検索段階では、クエリプランナーを使用して発行するクエリのセットを決定し、それをGleanエンタープライズサーチエンジンで実行します。このプロセスでは、権限を考慮した形で関連性の高い可能性があるドキュメントのランキングを取得します。
  • 生成段階では、取得したドキュメントの中からユーザーの質問に実際に関連するものをLLMに推論させ、それに基づいて回答を生成します。

Gleanアシスタントの性能を最高品質に保つため、Gleanは検索と生成の両方の要素を個別に評価するシステムを設計しました。このシステムは、RAGAS(Retrieval Augmented Generation Assessment)フレームワークに近いアプローチに基づいています。

検索コンポーネントの評価

検索コンポーネントの評価では、取得されたドキュメントがユーザーのクエリに関連しているかを判断することに重点を置いています。評価システムでは従来の検索指標を活用し、以下の点に注目しています。

  1. コンテキスト関連率: 取得されたドキュメントのうちクエリに関連するものの割合を測定する指標です。取得されたコンテキストの関連性を評価することで、最も適切な情報を特定し提示する検索システムの有効性を測ることができます。
  2. コンテキスト再現率: 標準的なドキュメント(最も権威があり包括的な情報源)がクエリに対して正しく取得される割合を評価する指標です。ただし、コンテキスト再現率の自動評価は、特にエンタープライズ環境において、基準となる回答を取得することがスケーラブルでない場合があるため、難しくなる場合もあります。

そこで、コンテキスト再現率の自動評価が難しいという課題に対処するために、エンジニアがシステムのコンテキスト再現率を繰り返し改善できるような、ターゲット評価セットを開発しました。以下は、これらの評価セットをどのように収集したかの例です。

  • 満足のいかないユーザーが最終的に検索に頼り、クエリを調整して求めている情報を見つけ出すアシスタントセッション
  • コーパス内のドキュメントから生成したオフラインの質問と回答ペアに類似するクエリが含まれるアシスタントセッション

これらのアプローチにより、正しいコンテキストを含むドキュメントを特定し、それが最初に検索で取得されなかった理由を分析し改善するためのプロセスを進めることができます。

図: コンテキスト検索

生成コンポーネントの評価

生成コンポーネントの評価では、ユーザーに提示される最終的な生成回答の品質を測定することに重点を置いています。このプロセスでは、生成された回答の以下の重要な側面を評価します。

  1. 回答の関連性: 生成された回答がユーザーのクエリに適切に関連しているかを評価します。関連性のある回答は、質問の重要な要素に直接対応し、ユーザーの意図に沿った情報を提供する必要があります。この指標は、関連性があるかないかを二分類で評価します。
  2. 回答の完全性: 生成された回答がクエリのすべての側面に完全に対応しているかを評価します。完全な回答は、すべての関連する詳細をカバーし、重要な情報の欠落や未回答の部分がない状態を指します。ここでは、「完全」、「不完全」、「回答なし」の3つの選択肢を定義して、回答の完全性のレベルを表します。
  3. 根拠の明確さ: 生成された回答が取得したコンテキストから得られる事実や証拠に基づいているかを評価します。根拠のある回答は、信頼できる情報源に支えられ、裏付けのない主張や憶測を含まないものであるべきです。ただし、場合によってはLLMがハルシネーションを起こし、根拠のない情報を含む回答を生成してしまうことがあります。

関連性と完全性の評価では、LLMに定義された選択肢の中から1つを選ぶよう促し、数ショットの例を提示して異なる回答タイプの具体例を示します。また、LLMがラベルを選ぶ前に推論を行うよう指示(チェーン・オブ・ソート)し、指示に従いやすくなるよう工夫しています。

根拠の明確さの評価では、まず生成された回答に含まれるすべての主張を抽出するようLLMに求めます。その後、各主張に対して「推論可能」「一般的」「根拠なし」のいずれかを選択します。「推論可能」はコンテキストから推測できる主張を指し、「一般的」は特に裏付けが不要な表現、「根拠なし」は誤りや矛盾を含む主張を意味します。根拠のスコアは、全主張に対する根拠のある主張の割合で算出されます。

これらの評価指標を検索コンポーネントと生成コンポーネントの両方に適用することで、Gleanアシスタントの全体的な有効性を包括的に把握し、さらなる改善が必要な領域を特定することができます。

図: 回答の関連性
図: 回答の完全性
図: 根拠の明確さ

実験結果

LLMベースの評価システムの基準を確立するため、クエリとアシスタントの回答を含む内部データセットを収集しました。このデータセットに対し、複数のチームメンバーが前述の評価スキーマに基づいてすべてのクエリを評価しました。その結果、評価者間の一致率を計算したところ、クエリ全体の79%でチームが同じラベルを選択することが確認されました。この評価者間の一致率は、自動評価システムで理論的に達成可能な上限とみなせます。

Gleanの現行のシステムにおいて、AI Evaluatorが付けたラベルと人間の評価が一致する割合は74%に達しました。これは非常に高い一致率であり、システムがすでに人間の判断と非常に近い結果を出していることを示しています。この結果は評価システムにとって有望な方向性を示しており、より強力な言語モデルや追加の研究によって、このギャップをさらに縮小できると考えています。

私たちはまた、AI Evaluatorの予測とAIアシスタント製品におけるユーザー維持率との相関の分析も行いました。ユーザー維持率は、次の平日内にユーザーが再度アシスタントセッションを利用する確率として定義しました。その結果、ユーザーの操作シグナルのみを使用した場合と比較して、AI Evaluatorのシグナルを特徴量としてモデルに組み込むことで、予測精度が18.8%向上しました。特に、「回答なし」や「低い根拠スコア」がユーザー離脱の強い予測因子であることが明らかになりました。

さいごに

アシスタントの品質を積極的に監視するという主な目的にとどまらず、LLMベースの評価システムはさまざまな価値を提供しています。このシステムは、アシスタントが得意とするクエリのタイプを特定し、改善が必要な領域を明確化するのに役立ちます。開発の面では、Gleanのエンジニアが指標の変化を追跡することで実験速度を向上させ、よりターゲットを絞った評価セットを活用して効率的に改善を進められるようになりました。たとえば、完全性が低かったクエリを基に「難易度の高い」評価セットを作成し、システムの初期段階で発生した問題を特定しています。これにより、エンジニアは重点的に取り組むべき課題を明確にし、アシスタント全体の品質向上を図ることが可能です。

Gleanは今後もAI Evaluatorシステムの改良と革新を進め、アシスタントの性能をさらに向上させることで、現代のエンタープライズが直面する多様なニーズに応え続けます。最先端のLLMアプリケーションの開発に興味のある方は、ぜひGleanの採用情報をご確認ください!

Related articles

No items found.

Work AI for All.

デモを申し込む
Background GraphicBackground Graphic