Your RAGs powered by Google Search technology

概要
- Part2はこちら
Part1
- Vertex AI Searchを使ったRAGの構築方法についてのブログ
- RAGでは類似性検索がよく使われるがそれでは質問に対する答えを検索できない。「question is not the answer」
- Googleは2015年にSemantic Searchの仕組みを作成し、RankBrainといったシステムを開発した
- Vertex AI SearchにもこのRankBrainと同じNeural Matching Processが使われている
- 質問と答えの間のGapを自作モデルで埋める必要がない
- RankBrain、Neural Matching、ScaNN (ベクトル検索手法)、TPIなどのGoogleが資産として蓄積してきた検索テクノロジーがVertex AI Searchに継承されることで、我々もGoogle品質の検索をすぐ使える。
- TextだけでなくMulti Modal、検索だけでなく推薦も行うことができる
- Custom embeddings :ビジネス要件に合わせてクエリと回答の関係を拡張できる (自動的に訓練はできなさそう)
- Multimodal embeddings :テキストだけでなく画像やビデオの埋め込みを取得できる
- Two Tower Model: Tensorflow Recommenderを使ってTwo-towerモデルを訓練することもできる
以下のようにOCR的な使い方もできる

- Semantic Searchは万能ではないので、キーワード検索も重要。
- Vertex AI Searchはクエリごとにキーワード検索とセマンティック検索の両方を同時に実行するハイブリッド検索エンジンを提供

- 更にデフォルトでクエリの書き換えや拡張を行ってくれる。
- 単語のステミングとスペル修正
- 関連する単語や類義語を追加する
- 重要でない単語を削除する
- ナレッジグラフを使用して重要なエンティティに注釈を付ける (
Part 2
- ScaNNを使って候補を抽出してきた後にRerankingを行う。
- Google検索では数10個のアルゴリズムを比べている。
- Vertex AI SearchでもEmbeddingベースとキーワードベースの二つを組み合わせた高度なランキングシステム
- 更に、独自のデータでTuningすることができる。(これ便利)
- Filtering and Boosting
- Vertex AI Searchでは高度なフィルタを作れる
- Extraction and generation
- 抽出したDocumentから関連性の高いコンテンツを複数の方法で抽出できる

- Summarization and multi-turn search
- Vertex AI Searchには検索結果のSummaryを生成する機能やフォローアップの質問を行う機能がデフォルトである。
- Google-quality document processing
- デフォルトでいい感じにParseからタイトルや段落・表などを識別した上でChunkに分けてくれる

- ナレッジグラフを用いたクエリとDocumentのアノテーション
- ナレッジ グラフは、エンティティ間のグラフ関係を使用して情報を検索
- Vertex AI SearchではGoogle検索のナレッジグラフからクエリに含まれている単語に対して自動的にアノテーションを追加する

- 分散した企業データの収集
- Google DriveやSalesforce、Confluenceなどに情報が散らばっている場合どうする?
- 以下のように異なるデータソースに対して単一のクエリをそれぞれ発行してMergeすることができる
- 公開サイトでもURLまたはURLパターンを指定するだけで、Vertex AI Searchが自動的にWebサイトのデータストアを即座に作成してくれる
- さまざまなプロダクトとのConnectorもサポートされている
- Jira
- Salesforce
- Confluence
- Google Drive
- Microsoft SharePoint and OneDrive
- Slack
- Box
- DropBox
- ServiceNow

Available as Private Preview:
Features under development: