2024-06-13 機械学習勉強会

2024/6/13 9:472024/10/29 15:54

今週のTOPIC [slide] 独立成分分析を用いた埋め込み表現の視覚的な理解 [blog]Doing RAG? Vector search is *not* enough [blog] 大公開！バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』[やってみた] mmdetectionを使ってdocument layout analysis！！[記事] Introducing Apple’s On-Device and Server Foundation Models [blog] A Visual Guide to Evolution Strategies Evolutionary Optimization of Model Merging Recipes 概要モチベーション関連研究モデルマージの概要言語モデルのマージ手法ニューラルアーキテクチャ検索 (NAS) との比較手法パラメータ空間 (PS) でのマージデータフロー空間 (DFS) でのマージ両方の空間でのマージ実験日本語数学LLM 日本語VLM

今週のTOPIC

@Naoto Shimakoshi

[slide] 独立成分分析を用いた埋め込み表現の視覚的な理解

独立成分分析 (ICA)の方がPCAなどより解釈性が高いという話。

スパース性かつ解釈可能性が高い

次元を減らしても加法構成性が崩れていない (非ゼロ成分が10個でも意味の演算の精度が落ちづらい)

異なる言語の単語埋め込みは回転で重なるという研究がある。

ICAだと異なる言語の埋め込みでも形と意味が共通のものになる。(PCAだとめちゃくちゃ)

モデルやドメインにもよらず解釈可能性が高い

なぜうまくいくのか？

ICAはPCA + 直交変換
直交変換することで「尖った形状」を見つけられ、「尖った形状」が解釈可能

ICAが取り除けない高次相関

ICAの仮定として独立成分が線形に分離できるというものがあるが、これが強い仮定で高次相関が生じてしまう。

例) 3人の合成音声を3つに線形分離できる

高次相関が強いと、意味の関連性が高い

@Yuya Matsumura

**[blog]Doing RAG? Vector search is not enough**

RAGにおいてベクトル検索のみでは不十分だよねという記事。

（それはそう、というかなんでみんなベクトル検索という難しいところからやるんや。）
それはそうというのをMSさんとかが発信してくれることには価値がありますね。

ベクトル検索に全文検索とrerankを組み合わせたハイブリッド検索を推奨

Azure AI Searchを利用したハイブリッド検索の実装を説明。

@Tomoaki Kitaoka

[blog] 大公開！バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』

ZOZO社のバッチアプリケーションを開発するためのガイドライン

大事なことがまとまっている

バッチ処理の品質はデータの品質に大きく関わるので大事にしたい

一部抜粋

依存関係があるバッチにはワークフローエンジンを利用する（RECOMMENDED）
処理ごとにコンピュートリソース(CPU/メモリ/ストレージ)を選択できる(RECOMMENDED)
処理ワーカーが自動スケールされる(RECOMMENDED)
リトライはツール・ライブラリに任せる(RECOMMENDED)
処理を冪等にする(MUST)
現在日時に依存する処理を入れない(NOT RECOMMENDED)
ひとつひとつの処理を小さくする(RECOMMENDED)
ワーカーを増やせば処理性能が線形に伸びるように実装する(RECOMMENDED)
早い段階でValidationを行う(RECOMMENDED)
処理失敗時に通知する(MUST)
処理時間のSLAを設ける(MUST)
バッチ処理が適切に動作を開始しているかを監視する(MUST)
月1回など実行頻度の少ないバッチは極力避け、原則デイリー実行にする(RECOMMENDED)

@Yuta Kamikawa

[やってみた] mmdetectionを使ってdocument layout analysis！！

document layout analysisはobject detectionやinstance segmentationでdocumentから項目抽出するタスク。

これをmmdetectionでやってみる。

データセット

document layout analysisのデータセットである‣を用いた
他のデータセットに比べ、請求書などのさまざまな書類が含まれており、汎用的なdocment layout analysisのモデルの学習を行うことができる
COCOフォーマット

COCOフォーマットでの書類のアノテーションガイド

学習

‣の学習スクリプトを使って、公式チュートリアルに倣って学習
configファイルを学習スクリプトに渡すだけで学習を回すことができる

自前データセットで学習する場合は、mmdetectionリポジトリのyoloxのconfigファイルを修正して使う()

学習スクリプト

推論

@qluto (Ryosuke Fukazawa)

[記事] Introducing Apple’s On-Device and Server Foundation Models

WWDCにて発表された内容のうち、LLM周りの話に踏み込んだ発信。

日本語翻訳&ハイライトをまとめた記事はこれがちょうど良さそう → ‣

Appleの「Apple Intelligence」は、iOS 18、iPadOS 18、macOS Sequoiaに統合された個人用インテリジェンスシステムです。3Bパラメータのオンデバイスモデルと、Apple Siliconサーバー上で動作するサーバーモデルが含まれ、日常タスクの効率化に特化しています。ユーザーの活動に合わせて適応し、テキストの作成や通知の要約、画像生成などを行います。さらに、Xcode向けのコーディングモデルや、メッセージアプリでの表現を支援する拡散モデルも提供されます。

Appleの「Foundation Models」では、オンデバイスとプライベートクラウドでの高速かつ効率的な最適化が行われています。両モデルは、メモリと推論コストを削減するために、グループ化クエリ注意機構と共有ボキャブラリ埋め込みテーブルを使用しています。オンデバイスモデルは49K、サーバーモデルは100Kの語彙サイズです。低ビットパレット化やLoRAアダプターを用いた新フレームワークで、圧縮モデルと同等の精度を実現。iPhone 15 Proでは、約0.6ミリ秒の初期トークンレイテンシーと30トークン/秒の生成率を達成しています。

Appleの「Foundation Models」は、ユーザーの日常タスクに合わせて動的に特化します。アダプターと呼ばれる小さなニューラルネットワークモジュールを使い、注意行列や完全連結層を微調整。これにより、基礎モデルの一般知識を維持しつつ、特定のタスクに適応。アダプターパラメータは16ビットで表現され、オンデバイスモデルでは数十メガバイトのメモリを使用。アダプターは動的に読み込まれ、メモリ効率を保ちながら迅速な適応が可能です。

@Yosuke Yoshida

[blog] A Visual Guide to Evolution Strategies

Simple Evolution Strategy

平均と固定された標準偏差を持つ正規分布から一連の解をサンプリング

適応度の結果が評価された後、は集団の中で最良の解に設定され、次の世代の解をこの新しい平均の周りでサンプリングする

下記のビジュアライゼーションでは、緑の点が各世代の分布の平均を示し、青い点がサンプリングされた解、赤い点がこれまでにアルゴリズムが見つけた最良の解を示しています

この単純なアルゴリズムは、一般的に単純な問題にのみ効果的です。その貪欲な性質により、最良の解以外はすべて捨ててしまい、より複雑な問題では局所的な最適解に陥りやすくなります。次の世代を、現在の世代の最良の解だけでなく、より多様なアイデアを表す確率分布からサンプリングすることが有益です

Simple Genetic Algorithm

現在の世代の上位10%の解だけを保持し、残りの個体はすべて死滅させます。

次の世代では、新しい解をサンプリングするために、前の世代の生存者からランダムに2つの解を選び、そのパラメータを再結合して新しい解を形成します。

このクロスオーバー再結合プロセスでは、コイントスを使用して各パラメータをどちらの親から取るかを決定します。我々の2次元の単純な関数の場合、新しい解は50%の確率でどちらかの親からまたはを継承し、新しい解には固定された標準偏差のgaussian noiseも与えられます

緑の点は前の世代のエリート個体を表し、青の点は候補解のセットを形成する子孫を示し、赤の点は最良の解を示しています。

遺伝的アルゴリズムは、次世代を再生するために多様な候補解のセットを追跡することで多様性を助けます。しかし、実際にはエリート生存個体のほとんどの解が時間とともに局所的最適解に収束する傾向があります。GAのより高度なバリエーションとして、CoSyNe、ESP、NEATなどがあり、これらは集団内の類似した解を異なる種にクラスター化し、時間とともにより良い多様性を維持することを目的としています。

Covariance-Matrix Adaptation Evolution Strategy (CMA-ES)

シンプルなESとシンプルなGAの両方の欠点は、標準偏差ノイズパラメータが固定されていることです。探索範囲を広げて標準偏差を増やしたい時もあれば、良い最適解に近いと確信して微調整したい時もあります

CMA-ESは、各世代の結果を取り、次世代の探索空間を適応的に増減することができるアルゴリズムです

各候補解の適応度スコアを計算 (g世代)

g世代の集団の上位25％を紫色で隔離

g世代の平均(緑の点)と上位25%の集団を用いてg+1世代の共分散行列を計算

g+1世代の平均(g世代の上位25%)と共分散行列を用いて新しい候補解のセットをサンプリング

Evolutionary Optimization of Model Merging Recipes

Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha

Sakana AI

https://arxiv.org/abs/2403.13187

概要

基盤モデルを自動的に作成するための新しいパラダイムである進化型モデルマージを紹介

既存のOSSモデルを進化的アルゴリズムを用いて組み合わせることで、大規模なトレーニングデータや計算資源を必要とせずに、ユーザーが指定した能力を持つ新しいモデルを生成

パラメータ空間とデータフロー空間の両方でモデルマージを最適化できることを示し、従来の手法では達成が困難なクロスドメインマージを実現

日本語LLM + 英語の数学LLM = 日本語の数学LLM
日本語LLM + 英語VLM = 日本語VLM

これらのモデルは、さまざまなベンチマークでSOTAを達成し、進化型モデルマージの有効性と汎用性の高さを示した

モチベーション

モデルマージは、複数のLLMを組み合わせて単一のモデルにすることで、追加のトレーニングを必要とせずに新しいモデルを開発できる、費用対効果の高いアプローチとして注目されている

しかし、現状では、どのモデルをどのように組み合わせるかは、モデル作成者の直感や専門知識に大きく依存している

進化的アルゴリズムを用いることで、人間の直感では見つけるのが難しい、より効果的なモデルのマージ方法を自動的に発見すること、英語以外の言語や数学、視覚など、異なる分野のモデルを組み合わせることで、従来の人間による設計では実現が難しかった能力を持つモデルを生成する

手法

パラメータ空間 (PS) でのマージ

PSマージは、複数の基盤モデルの重みを同じニューラルネットワークアーキテクチャを持つ単一のエンティティに統合

DAREを使用してTIES-Mergingを強化し、より細かいレイヤ (入力/出力埋め込み層またはtransformerブロック) 単位でのマージを可能にする

入力と出力の埋め込みを含む各レイヤでのスパース化と重み付けといったマージパラメータを、CMA-ES などの進化的アルゴリズムを使用して、タスク固有のメトリクスによって最適化

データフロー空間 (DFS) でのマージ

PSマージとは異なり、DFSマージでは、トークンがNN内をどのように通過するかという推論経路を最適化する

個のモデル、予算 (推論パスの総数)が与えられた場合、この手法は、特定のタスクに対してすべてのトークンがたどるべきパスを表すレイヤのシーケンスを探索する

全モデルのレイヤの総数をとすると、探索空間のサイズはと膨大になる (+1はpass-through layer)

探索空間を抑えるために、すべてのレイヤを順番に配置し（つまり、番目のモデルのすべての層の後に番目のモデルの層が続く）、それを回繰り返し、各レイヤを含めるか含めないかを最適化 (探索空間はに縮小)

DFSマージでは、推論パスのみが最適化され、パラメータはそのまま残されるので、レイヤが入力を受け取る際に、元のモデルとは異なる分布となり、予期しない出力が生成される可能性がある

この問題を軽減するために、層からへ移動する入力をで適切にスケーリングすることが有効であることを発見
ここではインジケータ配列 (各レイヤを含める or 含めない)とともに進化的アルゴリズムによって最適化される行列で、のサイズはレイヤの数が増えると二次的に増加してしまう

探索空間を抑えるためのアプローチとしてNNを用いてをパラメータ化
レイヤとステップに応じたスケーリングの重みを出力するFFNを最適化する。が進化パラメータであり、が増加してもサイズは不変

両方の空間でのマージ

PSマージとDFSマージは、それぞれ独立しており、これらの方法を組み合わせることで、マージされたモデルの性能をさらに向上させることが可能

順番としては、まず複数のモデルに対してPSマージを行い、このPSマージされたモデルと他のソースモデルを合わせたコレクションに対してDFSマージを適用する

実験

日本語数学LLM

日本語で数学の問題を解くことができるモデルを開発するために、日本語LLMと数学LLMを含むソースモデルセットに対して進化的モデルマージを適用

ソースモデル

shisa-gamma-7b-v1 (日本語LLM)

WizardMath-7B-V1.1

Abel-7B-002

データセット

テスト

MGSMデータセット (GSM8kデータセットの一部を多言語に翻訳)

最終評価

250サンプルからなるMGSMの日本語テストセット

進化的検索 (トレーニング)

MGSMテストセットに含まれないGSM8kテストセットの残りの1069サンプルを日本語に翻訳

評価

日本語の数学問題に対する日本語の回答を生成する能力を評価

回答が正しいと見なされる条件

最終的な数値が正しいこと
推論のテキストが日本語で書かれていること

出力の言語を判定するためにfasttext を利用

出力に現れる最後の数値を回答として扱う

異なるフォーマットで訓練された複数のモデルを統合するため、出力フォーマットを修正するのが困難だった

生成にはgreedy samplingを使用し、Zero-shot pass@1 accuracy で評価

最適化

TIES-MergingとDAREのパラメータを最適化
CMA-ESを用いて1000回試行し、1069のトレーニングサンプル全体の精度に対して、最良の試行を最終モデルとして選択

トレーニングデータの最後の200例を検証セットとして保持し、残りのデータをバッチサイズ200で最適化 (CMA-ES)
最終モデルがひとつのGPUで実行できるように2つのモデルに限定

A) PSマージの結果作成されたモデル
B) shisa-gamma-7b-v1 (日本語LLM)

トークナイザーと入力/出力埋め込み、推論パスの最初と最後のtransformer layerはモデルAを使用

結果

モデル1～3はソースモデル、モデル4～6は最適化されたマージモデル、モデル7～11は参考値

MGSM-JAは日本語の数学能力を、JP-LMEHは一般的な日本語能力を評価

モデル1は数学能力が低い一方、モデル2, 3は数学能力は優れているものの、日本語の理解が不十分

Ours(7~10B)はソースモデルおよび70Bパラメータ日本語LLMを上回るなど、非常に高いスコアを達成している

以下は数学の問題に対する5つのモデルの正解した箇所を色付けしたもの

マージモデルはソースモデルの基礎知識を保持しながら、ソースモデルが解決できなかった問題を解決する新たな能力を獲得している

分析

以下はPSマージ後のパラメータ構成

Weightの均一性から3つのモデルすべてが重要であることを示し、日本語LLM(Shisa Gamma 7B v1)のDensityの高さはタスクを解決するうえでの重要な貢献を示唆

以下の3つの図は、MGSM-JAタスクにおけるDFSマージの推論パスの進化を示す

y軸: レイヤインデックス、x軸: 推論パスインデックス

青いマーカーはモデルA(PSマージ)のレイヤを利用するパスステップを示し、赤いマーカーはモデルB(日本語LLM)のレイヤを示す

マーカーのサイズはスケーリング係数の大きさを反映

進化的検索結果は、初期段階でモデルAのほとんどのレイヤを含み、その後、両モデルのレイヤが交互に使用されることを示す

特に、スケーリングパラメータWijは重要な要素として浮上し、アブレーションスタディでは、これらを進化モデルから除去する（例：Wij = 1と設定する）と、パフォーマンスが20％以上低下することが明らかになり、その重要性が強調されました

日本語VLM

VLMのアーキテクチャは以下の三つのコンポーネントで構成

画像特徴を抽出するためのvision encoder
画像を説明するためのテキストを生成するためのLLM
画像特徴をLLMの埋め込み空間にマッピングするためのprojection network

vision encoderとprojection networkを固定し、LLMコンポーネントのみに焦点を当てることで、拡張された能力を持つ新しいLLMを生成

ソースモデル

shisa-gamma-7b-v1 (日本語LLM)

LLaVA-1.6-Mistral-7B (英語VLM)

データセット

テスト

JA-VG-VQA-500

Japanese Visual Genome VQAデータセットから抽出された500サンプル

JA-VLM-Bench-In-the-Wild

LLaVA-Bench-In-the-Wildの日本語版
日本の文化的要素や日本で見られるさまざまな物体を特徴とする合計50の質問を伴う42枚の画像のコレクション

進化的検索

Japanese Visual Genome VQAデータセットのテストとは別のサブセットを使用

最適化

日本語数学LLMと同じくTIES-MergingとDAREを使用

無し

結果

実験では、以下の二つのベースラインを考慮しました

LLaVA-1.6-Mistral-7B
Japanese Stable VLM

日本語データセットからスクラッチで訓練された日本語VLM
JA-VG-VQA-500データセットで訓練されている

JA-VG-VQA-500ベンチマークでの我々のVLMの性能向上は、日本語における熟練度を示しており、進化的統合を通じてソース日本語LLMと元のVLMのLLMコンポーネントの統合に成功したことを強調しています

さらに、JA-VLM-Bench-In-the-Wildでの我々のVLMの優れた結果は、文化特有のコンテンツをナビゲートする能力の高さを示しています。

Xでポスト