2025-05-08 機械学習勉強会

2025/5/6 19:002025/5/9 9:47

今週のTOPIC [blog] Medium is the new large [論文] A Fair Comparison without Translationese: English vs. Target-language Instructions for Multilingual LLMs [論文] Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [blog] 言語処理学会(NLP2025)ワークショップ「大規模言語モデルのファインチューニング技術と評価」の上位解法の紹介 [論文] Perception Encoder: The best visual embeddings are not at the output of the network 【パンフレット】AI in the Enterprise メインTOPIC Behavioral Homophily in Social Media via Inverse Reinforcement Learning: A Reddit Case Study 1. Introduction 背景課題貢献 2. PRELIMINARIES Homophily Inverse Reinforcement Learning（IRL）Reddit 3. METHODOLOGY Overview 3.1 Subreddit Selection 3.2 User Selection 3.3 Data Collection 3.4 Data Labeling 3.5 Policy Learning via IRL 3.6 Homophily Inference 4. CASE STUDY 4.1 Homophily Across Subreddits 4.2 Behavioral Personas Across Reddit 4.3 Homophily Across Home Users 4.4 Homophily Stability Over Time 5. CONCLUSION

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

技術的に学びのあるトピックを解説する時間にできると🙆（AIツール紹介等はslack channelでの共有など別機会にて推奨）

出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[blog] Medium is the new large

Mistralの新モデル Mistral Medium 3 の紹介

3月に公開されたMistral Small 3の続編
https://mistral.ai/news/mistral-small-3-1

特徴

バランスを兼ね備えたモデル

SoTA Performance

8X Lower Cost

simpler deployability to accelerate enterprise usage

codingとマルチモーダル理解に特化

様々なデプロイ方法に対応

クラウド or オンぷれ

カスタム事後学習

エンタープライズツールやシステムとの統合

安い

Claude 3.7 Sonnetの90%くらいの精度で0.4$ / 1M input token, 2$ / 1M output token
GPU4基あればセルフホストも可能

全部が全部匹敵するほどの精度を持っているわけではないが、DocVQAなどは強そう

人間の評価では4oと引き分けるくらい

Mistralの提供しているソリューションだと継続学習などにも対応してくれるらしい

(Largeモデルを近日公開するよとのこと)

Hugging Faceにはまだなさそう

https://huggingface.co/mistralai
ちなみにMistral Small 3.1はRTX4090一台 or Macの32GBメモリで動いてVision Understandingもできる。日本語にも対応。

@Shun Ito

[論文] A Fair Comparison without Translationese: English vs. Target-language Instructions for Multilingual LLMs

NAACL2025 poster

モチベーション

「LLMへの指示は英語の方が精度が良い」とよく言われる
英語 vs. 他言語で比較する際、他言語の入力は翻訳機を通して作成されることが多く、元の文章の品質をそのまま維持できていることが少ない → 他言語にとって不利な比較になっている

やったこと

英語と他言語（日本語）の入力を、同程度の品質が担保されるように作成する

大元のInstructionを作成

GPT-4で英語と日本語のInstructionを生成

GPT-4でそれぞれの内容が同じと判定されるまで生成をやり直す

英語・日本語のネイティブスピーカーに自然な表現に修正してもらう

品質を揃えた入力を作った上で、言語ごとの性能差分を評価する

実験

ターゲット言語: de, es, fr, ja, zh
結果

Lexical Simplification Task（LS; 文章をより簡単な表現に修正する）

評価方法: 生成された言い換え表現が正解に含まれるかどうか
ターゲット言語（修正対象と同じ言語）が英語よりも良い
英語から翻訳したターゲット言語は最も悪い

Machine Reading Comprehension Task（MRC; 文章ついて抜き出し問題に答える）

評価方法: 抜き出した文章が正解と一致するかどうか
英語が最も良い

Review Classification Task（RC; レビュー文章のラベル付け）

評価方法: macro-F1
付与するラベルと同じ言語で指示するのが最も良い

分析

生成される回答の傾向について

指定した言語とは別の言語で回答される割合は英語の指示が最も高い（Qwen2だと中国語で回答されてしまうなど）

ターゲット言語での指示は、「そのような情報はありません」と回答される割合が英語よりも高い（英語で指示した方が読解力は上がる？）

指示への追従度合いについて

英語の方が指示に従った回答を生成できる割合が高い（複雑な指示は英語の方が良い？）

LS: 言語ごとに決められた文字数以下で生成できているか
MRC: 文中に存在しない文字列を回答していないか

どの言語でも一貫性を保つ方法

few-shotが効果的

@qluto (Ryosuke Fukazawa)

[論文] Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

DeepSeek-R1からの上流によってSLMの推論性能を向上させることは確認されているが、具体的なレシピは詳細に公開されていない。そういった状況に対して明らかなトレーニングレシピを提示した論文。

以下の4点がそのレシピ。

多種多様なLong-CoTデータを用いた大規模な中間学習

基本的なCoT推論能力をモデルに学習させるため

高品質なLong-CoTデータを用いた教師ありの微調整

基礎能力をさらに精緻化し、複雑な問題に対する一般化能力を向上させるため

注意深くキュレーションされた嗜好データセットを活用したロールアウトDPO

今までは記されていた誤回答を選考学習に活用してモデルの出力品質を向上させるため

検証可能な報酬を用いた強化学習

DPOで得た能力をさらに強化し、最終的な推論精度を高める

コンパクトな3.8BパラメータモデルであるPhi-4-Miniに適用した。

結果としてPhi-4-Mini推論モデルは、数学推論タスクにおいて、DeepSeek-R1-Distill-Qwen-7Bを3.2ポイント、DeepSeek-R1-Distill-Llama-8Bを7.7ポイント上回った。

@Yosuke Yoshida

[blog] 言語処理学会(NLP2025)ワークショップ「大規模言語モデルのファインチューニング技術と評価」の上位解法の紹介

コンペ概要

https://llm-jp.github.io/tuning-competition/pdfs/opening.pdf

1位解法

安全性

エクサウィザーズチーム

https://llm-jp.github.io/tuning-competition/pdfs/ex_ppt.pdf

数学

d-itlabチーム

https://llm-jp.github.io/tuning-competition/pdfs/ditlab_ppt.pdf

@Takumi Iida (frkake)

[論文] Perception Encoder: The best visual embeddings are not at the output of the network

最近のMetaの識別モデルについての紹介記事：

‣

で紹介されていた基盤認識モデル。記事中では色々紹介されている。

強い画像・動画理解モデルPLM（Meta Perception Language Model）を作ったよって記事。データセットやモデル、コードや論文など全部公開されている。

画像モデルの方はApache2.0だが、動画モデルの方は商用利用不可っぽい。

できることの一例↓

モデル

PE Coreの学習では、バッチサイズや解像度を徐々に上げていくことやRoPE, 途中からAdamWからLAMB Optimizerに切り替えることなど、色々なコツを使って学習をロバストにしているとのことがまとめてある。

PE language: マルチモーダル大規模言語モデル (MLLM) に特化したエンコーダ

PE Spatial: Denseなタスク、空間理解を伴うタスクに特化したエンコーダ

エンコーダの特徴を可視化するときれいに別れていて面白い（DINOみたい）

PCAしてVisual TokensをRGBで可視化したもの。3D PCAという独自の？可視化をしているらしい。

@ShibuiYusuke

【パンフレット】AI in the Enterprise

OpenAIが書いた、EnterpriseにおけるAI導入ガイド。

ポジショントークも多々あるが、個人的な感想として以下太字をちゃんと書いているのは素晴らしいと思う。

Start with evals: Use a systematic evaluation process to measure how models perform against your use cases.

Embed AI in your products: Create new customer experiences and more relevant interactions.

Start now and invest early: The sooner you get going, the more the value compounds.

Customize and tune your models: Tuning AI to the specifics of your use cases can dramatically increase value.

Get AI in the hands of experts: The people closest to a process are best-placed to improve it with AI.

Unblock your developers: Automating the software development lifecycle can multiply AI dividends.

Set bold automation goals: Most processes involve a lot of rote work, ripe for automation. Aim high.

メインTOPIC

Behavioral Homophily in Social Media via Inverse Reinforcement Learning: A Reddit Case Study

Lanqin Yuan, Philipp J. Schneider, Marian-Andrei Rizoiu

The Web Conference 2025(WWW2025)のBest Paper

選んだモチベ

なんかびっくりするくらいSNSとか盛り上がっていなかったが、Bestくらいは読んでおきたい。

逆強化学習（行動から方策を推定）はトピックとして興味がある。

1. Introduction

背景

SNS上で形成された言説がリアルな世界における情報の流れに影響を与えている。政治然り、金融然り。そのため、SNS上でのユーザーの行動を理解することが重要なテーマである。

同質な人どうしが集まるホモフィリー（Homophily - the tendency for individuals to engage with others who possess similar characteristics）という概念に注目する。

ホモフィリーはSNS上のオンラインコミュニティの形成を促進するとともに、エコーチェンバーをも引き起こす。

従来の手法ではホモフィリーの程度をフォローネットワーク（FF関係）や投稿しているトピックから推定することが主である。

一方で、RedditのようなSNSに対して従来の手法を適用するのは難しい（後述）。

そこで、観測された行動からユーザーの行動方策（ポリシー）を Inverse Reinforcement Learning (IRL) により復元し、その類似度をもとに「誰と誰が行動的に近いか」を測定することでホモフィリーの新しい尺度として提案する。

課題

既存の手法の限界（Limitations of traditional homophily measures）

Reddit のようにフォロー関係が存在していないプラットフォームではフォローネットワークを利用した手法は適用できない。
投稿トピックを利用した手法は適用可能ではあるが、Redditはそもそもトピック単位で分化しているプラットフォームなので得られる示唆が少ない（特定のスレッド/Subreddit 内の投稿は全部同じトピックである）。

階層構造を持つデータへのIRLの適用（Applying IRL to hierarchical data）

Reddit のような階層構造を持つデータにIRLを適用するのは困難。うまく状態表現を設計する必要がある。

異なるトピックで似た行動をとるユーザー間の関係を捉える（Linking topical interest and posting behavior）

Reddit はトピックごとにSubredditに分化される構造であるため、関連のないテーマのコミュニティのユーザーどうしの関係はほとんど検証できていない。
特に、まったく異なるトピックで同じような行動を示すユーザー間の関係は、既存の手法によるホモフィリーの尺度が行動を考慮できていないため検証されていない。

貢献

階層構造に合わせた Deep-IRL モデル（An IRL framework for analyzing user behavior）

Symmetric Weighted KL による行動的ホモフィリー指標（A new measure of behavioral homophily via IRL）

15 サブレディットを用いた大規模ケーススタディ（Reddit case study）

2. PRELIMINARIES

Homophily

同じような性質を持つ人どうしが集まる傾向のこと

典型的には以下の２つに分かれる。

Status homophily：年齢・性別・学歴など属性が似ている者どうしで形成
Value homophily：信念・態度・行動パターンといった価値観が似ている者どうしで形成

ユーザーの投稿コンテンツに注目した内容ベースの手法によりホモフィリーの測定および分析は広く行われてきた。特に政治の文脈にて。

たとえば、Xにおける投稿の類似度・共通して含まれるハッシュタグ・リツイートに注目した支持政党の推定など。
一方で、投稿の類似性だけではホモフィリーを十分に示せないため、行動により注目すべきだという研究もいくつか存在。
特に、Reddit のように already topic-segmented な空間では「投稿・話題が同じ＝似ている」とは言えない。そこで行動履歴そのものからホモフィリーを測る必要がある。

Inverse Reinforcement Learning（IRL）

通常の強化学習が既知の報酬関数 R をもとに報酬を最大化する方策 𝜋 を推定するのとは対照的に、逆強化学習（IRL）は行動軌跡から報酬関数 R を推定した上で、説明力の高い方策 𝜋 を導く。

つまり 𝜋 は、ユーザが各状態で取りやすい行動に関する確率分布となる。

→ こいつでユーザー間の類似度を算出しようぜ、というのが本論文の提案

Reddit は 2024 年 8 月時点で世界 6 位の訪問数のSNSである。

ユーザは他のユーザではなく、subreddit と呼ばれる、特定のトピックにフォーカスしたコミュニティーをフォローすることで興味のあるコンテンツを閲覧する。

各投稿／コメントは Upvote/Downvote (karma) により可視性が変動、moderator が独自ルールを施行するためコミュニティ毎に文化差が大きい。

Subreddit が複数の Post（スレッド開始投稿）を持ち、Post 内に複数の Comment が存在する。Comment も入れ子構造を持つことができる。

3. METHODOLOGY

Overview

3.1 Subreddit Selection

データソース：2015-01-01〜2022-01-01 の期間を対象に pushshift Reddit API を利用して収集した圧縮後 1.3 TB のデータ。

Home subreddit：各ユーザが最も多くコメントしたサブレディットをそのユーザの拠点とみなす

ユーザーによって活動量に差があるため、特定subreddit内での投稿数ではなく比率を見たいため。

home users 数でランキングし、ニュース・政治・ゲーム・ミームなど多様性を保った 15 件を選定

3.2 User Selection

年×subreddit ごとのアクティビティ順位で上位50人を取得し、さらに四分位ごとに無作為に50人を取得。つまり合計250 人 / subreddit / 年を暫定集合に追加。

6000 人の暫定集合から 15 subreddit ごとに各45名をサンプリング

BAN や削除アカウントは除外して最終的に 662 ユーザを選定

3.3 Data Collection

サンプリングした全ユーザーについて、以下の行動データを収集。

直接行動：スレッド（Post）の作成、ルートコメント、リプライ
一次応答：注目しているユーザの行動に付随して生じた最初の子ノード（他者からの返信）。

合計で 5,910,728 のデータを取得

3.4 Data Labeling

2種類のデータ付与作業を実施

Argumentation Classification

各投稿に agree / neutral / disagree のスタンスを付与する。

議論の行方を左右する要素として一般的に採用されている要素であり、より深い分析に繋がるはずであるため。

5つの subreddit でデータセット（おそらく手動）を作成して DeBERT V3 をファインチューニング

Topic Classification for Topic-based Homophily

各投稿を484のトピックに分類する。

従来のトピックベースの手法を適用して提案手法と比較するため。

事前学習済みの BERTopicを利用。

3.5 Policy Learning via IRL

各ユーザ = エージェント。Reddit 全体を環境とみなし、他ユーザとのやり取りは環境経由で間接的に表現。

12の状態を定義

Initial thread (IT) First or only interaction, creating a new thread.
Initial root comment (IRC). First or only interaction, posting a root comment.
Initial reply (IR). First or only interaction, replying to a comment;

split in agreement (𝐼𝑅+), neutrality (𝐼𝑅∼), and disagreement (𝐼𝑅−).

Engaged root comment (ERC). Already interacted, posting a root comment.
Engaged reply (ER). Already interacted, replying to a comment;

split into agreement (𝐸𝑅+), neutrality (𝐸𝑅∼), disagreement (𝐸𝑅−).

Get reply (GR). Receiving a reply on any reply or comment;

split into agreement (𝐺𝑅+), neutrality (𝐺𝑅∼), disagreement (𝐺𝑅−).

6の行動を定義

Wait reply (WR). User waits for a reply to one of their comments.
Create new thread (CT). Start a new discussion in a subreddit.
Post root comment (RC). Direct comment on thread’s original post.
Post reply comment (PR). Respond to another user’s comment, creating a nested conversation.

agreement (𝑃𝑅+), neutrality (𝑃𝑅∼), disagreement (𝑃𝑅−).

この定義により12x6の行列で表現される方策 π を推定していく。

各行が、その状態が与えられた際にとる行動の確率分布となる。

3.6 Homophily Inference

提案手法である行動に基づいたホモフィリー尺度と、投稿コンテンツに基づいたホモフィリー尺度を算出し後続の分析に用いる

Behavioral Homophily

推定された方策 π を利用してホモフィリーを定義したい。通常のKL Divergence は確率分布間の距離として自然だが、非対称性とレア状態（訪問頻度が低い状態）への過敏さが問題となる。

非対称性：KL Divergenceは以下のように、ふたつの確率分布に関して片方向の情報損失を測るものなので、とが一般的には一致しない。これは”距離”の尺度としては不適切。

Reddit ではユーザごとに訪問状態が大きく偏るため、状態訪問確率で重み付けし、さらに対称化することでロバスト性を高める。

重みづけを導入したSWKL（Symmetric Weighted Kullback-Leibler Divergence）を定義し、ふたつの課題を解決。

重みはシンプルで、ユーザーごとにその状態にいた割合

Topic Homophily

BERTopicで導出した484次元のトピックベクトルを利用して、ユーザーごとのトピックベクトルを獲得（投稿の平均とかかな）

コサイン距離を使用して算出（類似度でなく距離。小さいほど近い。）

4. CASE STUDY

4.1 Homophily Across Subreddits

2つの手法でSubreddit間の距離（それぞれのSubredditをhomeとするユーザー間の距離の平均で算出）を算出して特徴を比較

トピックベース

同一サブレディット内（対角成分）が最も類似（当然である）。
r/AsianMasculinity と r/aznidentity （右下の方）など類似するsubreddit間での類似が確認できる（図 3a）。

行動ベース

トピックが同じ/似ていても異なる行動傾向

対角成分や、トピックベースで例に出した r/AsianMasculinity と r/aznidentity など

トピックが遠くても類似した行動傾向

soccer vs leagueoflegends （中央付近）など

左上の小さい四角形と右下の大きい四角形でクラスタが見える。

左上はミーム・10 代・Minecraft など若者娯楽系
右下の一大クラスタは政治・スポーツ・アクティビズム系
両者はユーザーの目的が異なるから行動傾向も異なると推測。

4.2 Behavioral Personas Across Reddit

行動ベースで分類した際にどのようなペルソナがいるのか分析。

方策行列をk-means (k=5) でクラスタリングした上で以下のラベリングを行った。

Thread Creators（議題を投げる / 25人）

Root Only（Root だけ書く / 114人）

memes／NoFap／teenagers など非政治系に多い

Root Favored（Root 多め + 返信少し / 263人）

Balanced Users（136人）

Disagreers（反論専業、待機はせず議論を伸ばさないという特徴 / 124人）

政治系 sub では Disagreer 比率が高い一方、r/memes などエンタメ系では 0%。（図 4）

4.3 Homophily Across Home Users

トピックベースと行動ベースの距離の関係をスピアマン相関を用いて測定。

多くの組み合わせで正の相関（赤）であるが、r/soccer と r/leagueoflegends は明確な負の相関（青）が見られた（図 5a）。

r/soccer と r/leagueoflegendsを深掘る（図 5c）。

x軸：各ユーザが自分のホームサブレディットとどれだけトピック的に一致しているか（小さいほど一致度が高い）
y軸：そのユーザとr/soccerユーザとの行動的距離（SWKL）（小さいほど似ている）
x軸が小さい（＝自分のサブレディットにトピック的に深く関与）なほど、y軸も小さい（＝r/soccerの行動に似ている）
r/leagueoflegends のユーザ（青）に注目した際に、x軸が小さい（r/leagueoflegendsのトピックにより一致している）ほどy軸が小さい（r/soccer のユーザとの行動傾向が似ている）傾向にあることがわかる。

→ 特定トピックに深く寄り添ったユーザーほど行動の一貫性が見られる。
→ スポーツとeスポーツという話題が違う集団でも、ユーザの行動スタイルには共通パターンが見える

4.4 Homophily Stability Over Time

時系列による変化を見るために、トピック・行動ベースそれぞれ１年ごとにホモフィリーを算出してCV（変動係数）を算出。

全体として分布に大差ないが、ペルソナごとに特徴あり（図 5b）。

Thread Creators：ポリシー(行動)ベースは安定・トピックベースは変動

話題を変えるがスレ立てはし続ける？

Disagreers：ポリシーベースの変動が大きい

反論マンの動きは年によって揺れる（政治情勢などの影響？）

5. CONCLUSION

Reddit のように匿名＋フォロー情報がない環境でも　IRL を用いれば行動に基づいたホモフィリーが推定でき、トピックベースでは見逃すインサイト（スポーツ vs. e-sports の類似行動など）が得られた。

いくつかの制約・課題

完全な階層コメント取得が必要（近年 API 制限で困難化）

IRL は状態数、行動数およびデータ量に敏感

Upvote/Downvote など未使用信号は今後の課題

Xでポスト