2024-07-18 機械学習勉強会

2024/7/11 16:472024/8/1 15:58

今週のTOPIC [slide] MNTSQの契約書解析をLLMに置き換える話 [blog] Navigating the LLM Landscape: Uber’s Innovation with GenAI Gateway [blog] 2023-24年のKaggleコンペから学ぶ、NLPコンペの精度の上げ方 [論文] A Human Subject Study of Named Entity Recognition (NER) in Conversational Music Recommendation Queries [論文] WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [github] google/mesop Iterated Learning Improves Compositionality in Large Vision-Language Models 概要

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[slide] MNTSQの契約書解析をLLMに置き換える話

MNTSQさんの契約書解析をLLMに置き換える (やってみた)話

契約書からJSONで構造抽出を行うAI-OCRと似たような話。

いくつかのPromptテクニックが紹介されていた

PydanticでJSONスキーマを生成して、出力JSONの検査を行う

でJSONスキーマを生成可能

で出力JSONを検査

自己参照データモデルで階層ツリー構造を抽出

深さのわからない階層に対して再帰的に抽出できる

第1条1(1)のようなどこまで階層があるか不明なものに有効

JSONをunpretty-printしてトークン節約

改行や空白を削除して43%コスト削減

promptに unpretty-printed JSONで出力してください、と書いてる

@Tomoaki Kitaoka

[blog] Navigating the LLM Landscape: Uber’s Innovation with GenAI Gateway

概要

Uberでは60以上のユースケースでLLMを活用する余地があると発見しているが、製品にLLMを統合する過程で、異なるチームが採用する統合戦略のばらつきにより、非効率や重複作業が発生rするなどいくつかの課題が浮上した。
これらの課題に対処し、LLMに対する需要の高まりに対応するために、UberのMichelangeloチームは「GenAIゲートウェイ」というソリューションを開発
GenAIゲートウェイは、Uber内のすべてのLLMユースケースに対する統一プラットフォームとして機能し、OpenAIやVertex AIなどのさまざまなベンダーからのモデル、およびUberがホストするモデルへのシームレスなアクセスを、一貫して効率的なインターフェースを通じて提供する

デザイン

呼び出しインターフェースは以下の通りで、OpenAIライクなテイストになっている

アーキテクチャとして、GenAI Gatewayはサードパーティベンダーのクライアントを包み込む層として機能するGoサービスであり、UberのLLM向けに特化したインハウスのサービングスタックと組み合わせて使用される

PIIリダクターによるセキュリティ担保と課題

概要

Uberの顧客情報が外部に漏れるのを防ぐために、GenAI Gatewayはリクエスト内の機密情報を匿名化し、サードパーティベンダーに転送する前にPIIリダクターを組み込んでいる。これは外部のLLMからの応答を受け取る際には、リダクトされたエンティティをアンリダクションプロセスを通じて復元するというもの。このリダクション/アンリダクションプロセスの目標は、機密データの露出リスクを最小限に抑えることが可能。
各タイプのPIIは、固有のプレースホルダーに置き換えられる。たとえば、名前は「ANONYMIZED_NAME_」、電話番号は「ANONYMIZED_PHONE_NUMBER_」に変換される。また区別を保つためにこれらのプレースホルダーには連番が付けられ、各出現ごとに一意の識別子が作成される。データセット内の最初の名前は「ANONYMIZED_NAME_0」とラベル付けされ、2番目は「ANONYMIZED_NAME_1」となる。

PIIリダクターの課題

レイテンシの増加

PIIリダクションとアンリダクションは複雑なプロセスであり、入力データのスキャン、特定、置換、元のデータの復元に時間がかかる。このため、全体的なレスポンス時間が増加する。また、各リクエストごとにリダクションとアンリダクションのプロセスが行われるため、処理時間が累積的に増加する。
これらの課題に対処するために、CPU最適化モデルに移行し、レイテンシを80%以上削減した。また、処理速度と効率をさらに向上させるため、GPU技術を活用する高度なモデルの評価も進めている。

品質への影響

プレースホルダーに置き換えることで、元のコンテキストが失われる可能性があり、LLMが生成する応答の品質が影響を受ける場合がある。たとえば、「Who is George Washington?」というクエリは「Who is ANONYMIZED_NAME_0」に変換され、LLMの応答の関連性が低下する可能性がある。
さらに、LLMキャッシングとRAGの課題が生じる。キャッシングでは、同じ質問に対するキャッシュされた応答が匿名化により区別できなくなり、キャッシュの精度に問題が生じてしまう。

その他の課題

GPT-4Vなどモデルのインターフェイスが抜本的に変わる場合に追従する必要がある

ユースケース: 顧客サポートエージェントのためのチャット要約

大規模言語モデル（LLM）を活用し、顧客サポートエージェントの作業を効率化する。主な焦点は、ユーザーの問題を迅速に要約し、解決策を提案することで、ユーザーの問い合わせに対する対応時間を大幅に短縮すること。具体的には以下。

チャットボットからエージェントへの移行を強化し、エージェントが以前の対話の要約を迅速に理解し、迅速に解決するのを支援する。
エージェントに重要な背景情報とユーザーの感情を提供し、共感的かつ文脈に即したサポートを可能にする。
連絡先のやり取りの自動要約を実装し、手動要約の時間を80％削減し、運用効率を向上させる。

インパクト

生成された要約の97％が顧客の問題解決に役立つことが確認されている。
エージェントは読書および文書作成の時間を大幅に節約し、全体的な生産性が向上していおり、エージェントはユーザーへの返信を以前よりも6秒早く行うことができるようになっている。
現在、週に約2000万件の要約を生成しており、将来的にはより多くの地域および連絡タイプに拡大する計画である。

アーキテクチャ

UberのCustomer Obsession組織内では、CO Inference Gatewayを最初に使用して、様々な機械学習タスクベースのAPI契約を他のサービスに内部的に公開し、異なる機械学習モデルホストを抽象化していた。
その後要約タスクのために、このサービスを拡張し、テキスト、チャット、および埋め込み生成のための新しい生成タスクを追加し、OpenAIおよびGoogle Vertex AIモデルの両方に接続できるようになり、柔軟性と適応性が向上した。

しかし、PIIリダクション、コスト配分、およびUber内で任意の外部言語モデル（LLM）に接続するための中央集権的なサービスの必要性といった課題に直面し、外部モデルを直接呼び出すのではなく、GenAI Gatewayを活用するという戦略的な決定を下した

prompt

学び

高度なLLMアプリケーションの領域に深入りするにつれて、急速に変化する技術、ユーザープライバシー、効率性のバランスを巧みに管理することの重要性がますます明確になってきた。この領域は絶えず変化しており、継続的な改善へのコミットメントがこれまで以上に重要である。

@Yuta Kamikawa

[blog] 2023-24年のKaggleコンペから学ぶ、NLPコンペの精度の上げ方

23-24年のNLP系のkaggleコンペにおけるTipsをまとめたブログ

以下、いくつかピックアップ

DeBERTa-v3が強い

LLMによるデータ生成 + ラベリング（CommonLit2 1st, DAIGT 1st, LLM Sci Exam 5th, PIIDD 1st)でデータを増やす

改行（）をトークンに追加, などの文字に置換（PIIDD 3rd, AES2 1st）

DeBERTa-v2以降はデフォルトで改行を無視

知識蒸留（PIIDD 1st）

学習モデルAで予測したものを教師とし、学習モデルBにおける学習に利用したとのこと

ルールベースによる後処理は大事で精度が大きく変わる

@Shun Ito

[論文] A Human Subject Study of Named Entity Recognition (NER) in Conversational Music Recommendation Queries

EACL2023

音楽ドメインの固有表現抽出

文章からアーティスト名・曲名をラベリング。音楽推薦に利用する。
難しい点: 曲名に一般的な単語が使われたり、表記揺れ、新しいアーティスト・曲が常に出てくる

人間アノテーションと言語モデルの性能差を検証

データ

他の人に音楽のオススメを質問している文章をredditから抽出（例: table 1）
固有のサービス名（youtubeなど）や挨拶的なフレーズ（hey guysなど）を前処理で除去

アノテーション

文章に対して、アーティスト or 曲名をラベリング
ガイドラインを作成し、試験データセットのアノテーションを踏まえて修正後に本番アノテーションを実施。
アノテーション時はネット検索禁止。
ラベル付けされたエンティティが新規かどうかを判断できるように、事前に知っていたアーティスト名 / 推測したアーティスト名のように、アノテーション時に知っていたかどうかを区別できるラベルにしている

言語モデルのファインチューニング

得られたアノテーションをもとに著者がネットの情報や音楽ストリーミングサービスを使いつつ正解ラベルを作成
作成したデータを使ってBERT, RoBERTa, MPNetをファインチューニング

実験

言語モデル (BERT) はrecallが高く、人間はprecisionが高い（言語モデルは事前学習で見たそれっぽい表現を多めに拾ってくる？）

特に新しく出てきた（事前学習・学習データに含まれない）エンティティは正確にラベル付けするのが難しい

コメント

（請求書だとレイアウト情報はあるが）特殊な会社名のアノテーション・推論は難しいことがあるかも

@qluto (Ryosuke Fukazawa)

[論文] WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation

WANLIという新しいNLIデータセットを作成する手法を提案しています。

この手法は、言語モデル(GPT-3)による生成と人間による評価を組み合わせたものです。

既存のデータセット(MultiNLI)から難しい推論パターンを示す例を自動的に選び、それを基にGPT-3で新しい例を生成します。

生成された例は自動フィルタリングされた後、クラウドワーカーによってラベル付けや修正が行われます。

WANLIで学習したモデルは、MultiNLIで学習したモデルよりも、8つの異なるNLI評価セットで優れた性能を示しました。

この手法は、人間の知能を引き出す効果的な方法として、例を直接書くよりも生成された内容を評価・修正する方が良いことを示唆しています。

データセット作成プロセス自体をAIの課題と捉え、言語モデルを活用する新しい可能性を提示しています。

@Yosuke Yoshida

[github] google/mesop

googleがOSSで公開したWeb UI フレームワーク

Streamlitっぽい感じで、簡単にプロトタイプを作るのに使える

デモとかチュートリアル

https://google.github.io/mesop/

Iterated Learning Improves Compositionality in Large Vision-Language Models

Chenhao Zheng, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna;

CVPR 2024

概要

人間の視覚と自然言語には構成性（Compositionality）という共通した特徴が存在する。

一方で、近年の state-of-the-art な大規模なVision and Language Model（VLM）でさえも構成性をうまく捉えることができていない。

たとえば、「a girl in white facing a man in black（白人の少女が黒人の男性と向き合っている）」画像と「a girl in black facing a man in white（黒人の少女が白人の男性と向き合っている）」画像を区別するのが困難である。
さらに先行研究によると、より大きいモデルサイズや学習データによってVLMがスケールしたとしても構成性を捉えることは難しいという。

本研究では、構成性を促す反復訓練アルゴリズム（iterated training algorithm）を提案している。

人間は次の世代に言語を伝える必要があるために、学習しやすい言語が残されていく、結果として構成性が獲得されていくという認知科学の領域における仮説に注目したものである。
vision-language の対照学習をLewisシグナリングゲーム（the Lewis Signaling Game）に見立て、学習中に特定の要素の重みを繰り返しリセットすることで、人間が言語を次の世代に伝えていく様子を表現する。
この反復により構成性を持つ言語の特徴である学習のしやすさの獲得を目指す。

CC3MとCC12Mで学習した提案手法はSugarCrepeにおいて従来のCLIPをそれぞれ4.7%, 4.0%上回った。

以下のスライドが素晴らしすぎたのでこちらを利用して説明します！