- ベクトル検索は、大規模言語モデル(LLM)から生成された埋め込みを活用し、概念間の意味的な関係を理解することで、より正確な検索結果を提供します。
- Gleanは、各企業の独自の言い回しに合わせて埋め込みをファインチューニングして検索性能を向上させるとともに、時間とともに進化するカスタマイズモデルを作り上げます。
- Gleanのハイブリッド検索システムは、ベクトル検索、従来のキーワード検索、高度なパーソナライズを組み合わせることで、エンタープライズサーチ機能を強化します。
大規模言語モデル(LLM)と生成AIの進化により、より洗練された検索エクスペリエンスが可能になりました。今では、人々はChatGPTのようなAIチャットボットに質問をするだけで、長い検索結果を何時間も調べる必要なく、数秒で答えを得ることができます。しかし、現在の形態では、LLMの出力は正確で信頼できる知識に基づいておらず、不完全である場合や、偏った情報に基づく回答が生成されることもあります。この課題に対処するための解決策の一つが、LLMに信頼できる情報を提供する検索システムの統合です。
LLMの進化は検索分野にも大きな影響を与えています。ベクトル検索は、LLMから生成された埋め込みを活用することで、検索システムにこれまでにない知能をもたらしてきました。本ブログでは、市場におけるテキスト埋め込み技術を比較し、Gleanがどのように企業向けの埋め込みモデルを進化させているのかをご紹介します。具体的には、各企業特有の表現を反映して埋め込みを微調整し、それを従来の情報検索手法や高度なパーソナライズと組み合わせることで、エンタープライズサーチの可能性を飛躍的に向上させるハイブリッドシステムを構築しています。
ベクトル検索の概要
埋め込み(Embedding)とは、テキストの意味情報を数値で表現したもので、コンピューターが概念間の関係を理解しやすくするための技術です。従来のキーワードマッチングによる情報検索とは異なり、ベクトル検索はこれらの埋め込みを活用し、特定の状況でより正確な結果を提供します。
エンタープライズサーチにおける埋め込みの性能を評価するため、Gleanは2つの主要なLLMプロバイダーが提供する最高のテキスト埋め込みと、3つのトップパフォーマンスを誇るオープンソースモデルを用いた実験を行いました。この実験では、エンタープライズサーチ用の評価セットを使用して、異なるテキスト埋め込みモデルの性能を検証しました。埋め込みの有効性を測定するために、NDCG@10とR@100という2つの重要な指標を使用しました。NDCG@10は、検索結果の上位10件の品質を評価し、関連性とランキングの両方を考慮する指標です。一方、R@100は、検索システムが関連する結果を取得する能力を評価し、上位100件の検索結果の中で関連情報を含む割合として示されます。
実験の結果、今回のエンタープライズサーチタスクにおいては、E5-large、Instructor-XL、MPNetといったオープンソースの埋め込みが、OpenAI(text-embedding-ada-002)やCohere(large)といった商用APIプロバイダーの埋め込みを依然として上回る性能を示しました。このことは、少なくとも今回の具体的なユースケースにおいては、エンタープライズサーチには商用APIプロバイダーよりもオープンソースの埋め込みの方が優れた選択肢であることを示しています。しかし、AIは急速に進化しており、今後この分野がどのように発展していくのか注目されるところです。
{{richtext-banner-component}}
社内用語に合わせてベクトル検索を最適化
Gleanは企業ごとにコミュニケーションの方法が大きく異なることを理解しています。例えば、企業には特有の略語、プロジェクトコード名、または技術的な概念などが存在し、これらがそれぞれの職場や業界(医療、法律、銀行など)に特有の言語を形成しています。こうした用語や表現は、汎用的なテキスト埋め込みでは認識されないことがあり、その結果、エンタープライズサーチで期待される結果が得られない場合があります。
そこで私たちは、クライアント独自の表現に合わせて埋め込みをファインチューニングする方法を開発しました。このアプローチにより、企業ごとにカスタマイズされた大規模言語モデルを提供し、どの業界や業種でも高いパフォーマンスを発揮できるようにしています。つまり、業界ごとのトレーニングデータセットを構築する必要はありません。実験の結果、このドメイン内のファインチューニングがベクトル検索の性能を大幅に向上させ、商用APIプロバイダーやトップクラスのオープンソースモデルを上回ることが証明されました。これは、外部の研究でも指摘されているように、ドメイン外データに対する高密度ベクトル検索手法の課題を補完する結果となっています。
この方法は初期の検索性能を向上させるだけでなく、当社の調査では、お客様が長く利用するほど、その言語モデルがさらに優れたものになることが示されています。モデルの継続的な適応とファインチューニングによりユーザーエクスペリエンスはますます向上し、より正確な検索結果を提供できるようになります。
エンタープライズサーチとナレッジ発見におけるベクトル検索の重要性
ベクトル検索は、機械による意味理解の基盤となる技術ですが、それだけではエンタープライズサーチやナレッジ発見において質の高い結果を提供する問題を解決するには十分ではありません。Gleanは、ベクトル検索に加え、従来のキーワード検索や高度なパーソナライズを組み合わせた多次元アプローチを採用し、強力なハイブリッド検索システムを構築しています。
仕組みを体験してみませんか?今すぐデモに申し込み、革新的なエンタープライズサーチを体験してください。