2024-10-29 機械学習勉強会

2024/10/29 1:182024/11/5 16:40

今週のTOPIC [blog] gradient accumulation stepsのバグを理解する [論文]Bootstrapping Conditional Retrieval for User-to-Item Recommendations [repo] avante.nvim [論文] DocGraphLM: Documental Graph Language Model for Information Extraction [blog] Welcome, Gradio 5 [blog] よくわかるcontextの使い方メインTOPIC Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku How it works?評価課題実装demo 感想 Developing a computer use model Why computer use?The research process Making computer use safe The future of computer use Highlight AI 概要できること・強み

今週のTOPIC

@Naoto Shimakoshi

[blog] gradient accumulation stepsのバグを理解する

元記事はこちら：https://unsloth.ai/blog/gradient

transformersやunslothでGradient Accumulationの挙動にバグがあったため、それを修正したとの報告。

ちなみにunslothは軽量なLLM fine tuningライブラリ

gradient accumulationすると損失が大きくなってしまっていた

仮説としては以下の二つ

累積ステップで数値エラーが発生

損失計算にバグがある

1については、わずかな累積エラー

2については、実際にバグが存在

クロスエントロピーは以下のように計算されており、Paddingなどを無視した数になっている。

これをとすると以下のように書ける。

要するに以下のように書けるが、これに対して平均を取っても、分母分子でキャンセルされる。

よって最終的にはpaddingを無視したトークン列の長さの平均とロスの平均の比になる。

これを勾配累積するので、購買回数だけ、損失が大きくなってしまう。(それはそう)

じゃあ、各バッチを計算するときにで割ればいいとなるのだが、バッチごとに長さが違う(が違う)と、破綻してしまう

実際に、正規化部分を消して勾配累積とフルバッチで損失遷移を確認すると完全に一致したため、ここのNormalize部分に問題がありそうなことがわかった

これに対しての対策の式は書かれていないが、恐らく有効なトークン数も累積しておいて正規化するような形で修正を加えてるのではないかと考えられる。
実際に、Hugging Faceの修正はそうなっている

まあ小難しく書いているが、1/2 + 1/3 = 1/5 じゃないよという単純な話な気がする。

@Yuya Matsumura

[論文]Bootstrapping Conditional Retrieval for User-to-Item Recommendations

RecSys2024 Industry Talk by Pinterest（論文は短いです）

レコメンドにおけるフィルタリングの課題に向き合う。

普通に学習して推論した結果を特定のルールでフィルタリングするというのが一般的だが、フィルタリングを考慮した学習にはなっていない。
特定のフィルタリングごとに学習しようとしても学習データが少ない。
そもそも、フィルタリングされてしまったが実は良いアイテムを逃してしまう。

two-towerモデルにおいて、itemの特徴からフィルタリング条件を表すcondition embeddingを作成(Condition Extraction Module)

two-towerとは独立した item-to-topic featureを利用

condition embedding をUser Towerに入力して学習、推論する(Conditional User Tower)

学習方法は通常のtwo-towerと同様

性能マシマシ。フィルタリングしなくても高い性能。コストも低い。

ZOZOさんのRecSys参加ブログを読んで興味を持ちました！

https://techblog.zozo.com/entry/recsys24

@Yuta Kamikawa

[repo] avante.nvim

NeovimをCursorのようなAI IDEに進化させるプラグイン

v0.0.1のリリースが2024/9/3

既にstarが6.5k
リリースが最近のためか一部エラーが出たりするが普通に使えた

AI IDEとしての最低限の機能は一通り使える

開いているファイル(カレントバッファ)に対してチャットによるコード生成
オートサジェスション
カスタムプロンプト
ワークスペース(コードベース)でのチャットによるコード生成

使えるモデル

Claude

Claude-3.5-Sonnet (公式のおすすめ)
Claude-3-Opus
Claude-3-Haiku

OpenAI

gpt-4o
gpt-4o-mini

Google

gemini-1.5-flash
gemini-1.5-pro

Azure

gpt-4o

Cohere

CommandR+

Copilot

gpt-4o
gpt-4o-mini

LocalLLM

Ollamaなど

avante.nvimでできないこと

avante.nvimは開いているファイルの拡張子を元にワークスペース内のファイルを検索するので、pythonファイルを開いているときにtypescriptのファイルの情報について回答することができない

Github copilot for businessが使える場合、追加の課金がなくともCursorライクなエディタとして利用できる(gpt-4o)

個人的にはgithub copilot chatでo1 previewがそろそろ使えるようになるらしいので楽しみ

@Shun Ito

[論文] DocGraphLM: Documental Graph Language Model for Information Extraction

SIGIR2023

文書からの情報抽出・質問応答

レイアウト情報をグラフで表現し、グラフニューラルネットを用いる

各ノードから360度を8つの45度のセクターに分け、各セクター内で最も近いノードを隣接ノードとして設定
GNNでグラフ再構築を解くことで学習

距離予測：2つのノード間の（対数変換した）ユークリッド距離を回帰タスク

方向予測：8つの方向のいずれかを分類するタスク

言語モデルで得た表現と組み合わせてトークン単位の表現に変換し、後続タスクHeadと接続する

具体的な集約方法は書いていなかった

実験

@qluto (Ryosuke Fukazawa)

[blog] Welcome, Gradio 5

Streamlit と双璧をなす？Gradio のメジャーバージョンアップが少し前にあったので共有。

今回のバージョンアップは production-ready machine learning web applications を狙ったものだそうです

高速化とパフォーマンスの向上

サーバーサイドレンダリング（SSR）の導入により、アプリが瞬時にロードされ、スピナー表示が不要になった。

デザインの刷新とテーマの追加

各種UIコンポーネントがモダンデザインにアップデートされ、新しいテーマが導入。

リアルタイムアプリへの対応

WebRTCやストリーミング対応により、リアルタイム音声や動画処理が可能になった。

AI Playgroundの導入

AIを活用してGradioアプリを生成・編集でき、ブラウザ上でプレビューできる。

セキュリティ強化

サードパーティによるセキュリティ監査を実施し、より安全なアプリケーション構築を実現。

今後に向けては、複数ページにわたるアプリが作れるようになったり、PWAのサポートがされたりなどと、素早くアプリケーションを立ち上げるときの選択肢もより積極的に拡充されていきそうです。

@Yosuke Yoshida

[blog] よくわかるcontextの使い方

Goの標準パッケージのcontextについてまとまっている記事

Contextの主な役割

処理の締め切りを伝達
キャンセル信号の伝播
リクエストスコープ値の伝達

メインTOPIC

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

A refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use.

https://www.anthropic.com/news/3-5-models-and-computer-use

Anthropic社は「Claude 3.5 Sonnet」と新モデル「Claude 3.5 Haiku」を発表。

Claude 3.5 Sonnet

従来のモデルよりも全体的に性能が向上し、特に優れているとされていたコーディング分野でさらに大きな性能向上が見られた

Claude 3.5 Haiku

Claude 3.5 Haikuは、これまでの最も大きいモデルであったClaude 3 Opusに匹敵する性能を、これれまでのHaikuモデルとほぼ同等の速度とコストで実現。

新機能として「computer use」をパブリックベータで公開

Claude | Computer use for automating operations

With the upgraded Claude 3.5 Sonnet, we’re introducing a new capability in beta: computer use. Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. At this stage, it is still experimental—at times cumbersome and error-prone. We're releasing computer use early for feedback from developers, and expect the capability to improve rapidly over time. In this demo, Claude searches through different tabs, gathers the requested information, and fills out a form—a task that could be scaled across many domains. Claude is generating all the computer actions shown here. This demonstration was recorded in a controlled environment, with some supporting infrastructure simplified to highlight the core capabilities. Read more about Claude and computer use: https://www.anthropic.com/news/3-5-models-and-computer-use

https://youtu.be/ODaHJzOyVCQ

Claudeによって個別のタスクを効率化するツールを作成のではなく、一般的なコンピュータスキルを身につけさせることで、人間が使う標準的なツールやソフトウェアを幅広く活用し、繰り返しのプロセスの自動化、ソフトウェアの構築・テスト、研究などのオープンエンドなタスクに展開していくことを目指している。

How it works?

Claudeがコンピュータのインターフェースを認識し操作できるAPIを構築。

開発者はこのAPIを統合することで、自然言語による指示（例:「コンピュータとオンラインデータを使ってこのフォームに入力する」）をコンピュータ操作に変換できるようになり、スプレッドシートの確認、ブラウザの操作、関連ページへの移動、データのフォーム入力など一連の作業を実行可能にする。

評価

コンピュータ操作のスキルを評価する「OSWorld」では、Claude 3.5 Sonnetがスクリーンショットのみのカテゴリーで14.9%のスコアを記録し、次点のAIシステムの7.8%を大きく上回った。

さらに多くのステップを許可した場合には、Claudeのスコアは22.0%に達した。

課題

人間にとって簡単なスクロールやドラッグ、ズームといった操作はまだClaudeで実現するには難易度が高い

また、スパムや詐欺などを区別できず意図しない操作をしてしまうリスクもある

実装demo

Claude | Computer use for coding

With the upgraded Claude 3.5 Sonnet, we’re introducing a new capability in beta: computer use. Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. While groundbreaking, computer use is still experimental—at times cumbersome and error-prone. We're releasing computer use early for feedback from developers. In this demo, Claude creates a themed website—generating code, launching a server, and fixing its own mistakes. Claude is generating all the computer actions shown here. This demonstration was recorded in a controlled environment, with some supporting infrastructure simplified to highlight the core capabilities. Read more about Claude and computer use: https://www.anthropic.com/news/3-5-models-and-computer-use

https://www.youtube.com/watch?v=vH2f7cjXjKI

自律的にtry and errorを繰り返していてすごい

Claude | Computer use for orchestrating tasks

With the upgraded Claude 3.5 Sonnet, we’re introducing a new capability in beta: computer use. Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. While groundbreaking, computer use is still experimental—at times cumbersome and error-prone. We're releasing computer use early for feedback from developers. In this demo, Claude orchestrates a multi-step task by searching the web, using native applications, and creating a plan with the resulting information. Claude is generating all the computer actions shown here. This demonstration was recorded in a controlled environment, with some supporting infrastructure simplified to highlight the core capabilities. Read more about Claude and computer use: https://www.anthropic.com/news/3-5-models-and-computer-use

https://www.youtube.com/watch?v=jqx18KgIzAE

リサーチする→計画を立てる→カレンダーに予定を入れるまで全て自律的に実行しててすごい

感想

カーソルの動きやクリックの操作権限PC上でできることほぼ全てができてしまうので強力である一方、悪意のあるプロンプトが渡された時のリスクが測りしてれないので、分類器による判定以上のガードレール的なものの整備が必要不可欠。

パッと思いつく例だと、slackやmail、SNSで不適切な発言をしまくるような悪意のあるプロンプトが渡されたりしたらやばそう。

Developing a computer use model

A discussion of how Anthropic's researchers developed Claude's new computer use skill, along with some relevant safety considerations

https://www.anthropic.com/news/developing-computer-use

Why computer use?

コンピュータ上での作業が主流である現代において、AIが人と同じ方法で直接ソフトウェアを操作できるようになれば、これまでのAIでは実現できなかった幅広い用途に適用できる。

これまでAIは論理的な推論や画像の理解といった重要な進歩を遂げましたが、次のフロンティアは「computer use」であり、今後は特別なツールに頼ることなくユーザーの指示に応じてあらゆるソフトウェアを使いこなすことができる能力が求められるようになる。

The research process

これまでのツールの使用やマルチモーダルの技術に関する研究が、今回のcomputer useの基盤となっている。computer useには画面画像の視覚認識や操作方法の推論が求められるため、Claudeには画面上の情報を理解し、作業を遂行するための訓練が行われた。

具体的には、Claudeがスクリーンショットを見ながらピクセル数を数え、カーソルを正しい位置に移動してクリックできるようにするなどのトレーニングなどを実施。

Claudeはシンプルなソフトウェアでの訓練（電卓やテキストエディタの操作）だけで予想以上に汎化し、事前にstep-by-stepで考えた上で操作方法を決定したり、複雑な操作を自動的に自己修正やリトライをしながら試行錯誤を重ねるといった挙動が見られた。

OSWorldという評価基準でClaudeは14.9%を達成。これは人間の性能(70-75%)にはまだ程遠いが、次点のモデルの7.7%を大きく上回っている。

Making computer use safe

AIの進化とともに新たな安全リスクも生じるため、コンピュータ操作スキルの提供にあたり、スパムや誤情報、詐欺といった既存のリスクに対応するための対策を講じている。

例えば、AIがどのようにcomputer useを使用しているかを監視し、潜在的な害が生じていないかを識別する分類器の開発を行った。特に最近は米国の選挙が控えているため、選挙プロセスへの信頼を損なう可能性がある操作を警戒し、選挙関連の活動にClaudeが関与しようとした際に監視するシステムを導入している。