Your RAGs powered by Google Search technology

 

概要

Part1

  • Vertex AI Searchを使ったRAGの構築方法についてのブログ
  • RAGでは類似性検索がよく使われるがそれでは質問に対する答えを検索できない。「question is not the answer」
  • Googleは2015年にSemantic Searchの仕組みを作成し、RankBrainといったシステムを開発した
    • Vertex AI SearchにもこのRankBrainと同じNeural Matching Processが使われている
    • 質問と答えの間のGapを自作モデルで埋める必要がない
    • RankBrain、Neural Matching、ScaNN (ベクトル検索手法)、TPIなどのGoogleが資産として蓄積してきた検索テクノロジーがVertex AI Searchに継承されることで、我々もGoogle品質の検索をすぐ使える。
  • TextだけでなくMulti Modal、検索だけでなく推薦も行うことができる
    • Custom embeddingsビジネス要件に合わせてクエリと回答の関係を拡張できる (自動的に訓練はできなさそう)
    • Multimodal embeddings :テキストだけでなく画像やビデオの埋め込みを取得できる
      • 以下のようにOCR的な使い方もできる
    • Two Tower Model: Tensorflow Recommenderを使ってTwo-towerモデルを訓練することもできる
  • Semantic Searchは万能ではないので、キーワード検索も重要。
    • Vertex AI Searchはクエリごとにキーワード検索とセマンティック検索の両方を同時に実行するハイブリッド検索エンジンを提供
  • 更にデフォルトでクエリの書き換えや拡張を行ってくれる。
    • 単語のステミングとスペル修正
    • 関連する単語や類義語を追加する
    • 重要でない単語を削除する
    • ナレッジグラフを使用して重要なエンティティに注釈を付ける (
    •  

Part 2

 
  • Extraction and generation
    • 抽出したDocumentから関連性の高いコンテンツを複数の方法で抽出できる
  • Google-quality document processing
    • デフォルトでいい感じにParseからタイトルや段落・表などを識別した上でChunkに分けてくれる
  • ナレッジグラフを用いたクエリとDocumentのアノテーション
    • ナレッジ グラフは、エンティティ間のグラフ関係を使用して情報を検索
    • Vertex AI SearchではGoogle検索のナレッジグラフからクエリに含まれている単語に対して自動的にアノテーションを追加する
  • 分散した企業データの収集
    • Google DriveやSalesforce、Confluenceなどに情報が散らばっている場合どうする?
    • 以下のように異なるデータソースに対して単一のクエリをそれぞれ発行してMergeすることができる
      • 公開サイトでもURLまたはURLパターンを指定するだけで、Vertex AI Searchが自動的にWebサイトのデータストアを即座に作成してくれる
    • さまざまなプロダクトとのConnectorもサポートされている
      • Available as Private Preview:
      • Jira
      • Salesforce
      • Confluence
      • Features under development:
      • Google Drive
      • Microsoft SharePoint and OneDrive
      • Slack
      • Box
      • DropBox
      • ServiceNow
      •