2024-09-26 機械学習勉強会

2024/9/26 11:322024/9/26 18:44

今週のTOPIC [blog] KPIのモニタリング自動化と運用体制の整備 [slide] 研究の進め方ランダムネスとの付き合い方について GPU Puzzles [slide] ついに出た！OpenAIの最新モデル「o1」って何がすごいの？[blog] 名寄せの定量評価とGroup Sequential Test [論文] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely [blog] テキスト生成APIサーバのスループットを高めるbatching algorithms Performance of Human Annotators in Object Detection and Segmentation of Remotely Sensed Data 概要関連研究実験実験条件結果考察

今週のTOPIC

※ [論文] [blog] など何に関するTOPICなのかパッと見で分かるようにしましょう。

出典を埋め込みURLにしましょう。

@Naoto Shimakoshi

[blog] KPIのモニタリング自動化と運用体制の整備

ZOZO Techblog

背景

推薦システムごとにKPIを策定しているが、データの欠損やリリース時の不具合によってKPIが意図しない値を取ることがあるため定常的に確認する必要がある。
Lookerで運用していたが、いくつか問題が出てきたので改善した話。

具体的な課題

トレンドを考慮した異常検知が不可能
モニタリングの設定が面倒

yamlでやっていたが1個1個の指標に設定するの大変

アラート対応フローが不明確

対応者がシステムを作った人に限られてしまうという属人化の問題

サマリの定期配信が形骸化

解決案

異常検知の自動化

BQで集計していたのをVertex AI Pipelinesに移行
prophetを利用してトレンド、不確定区間などを考慮した動的な閾値を設定
設定を指標ごとに設定していたのをテーブルごとに変更

アラート対応フローの整備

以下のように整理

データに問題があるか、モデルに問題があるか、アラートの設定に問題があるかなどの切り分けを行う

ダッシュボードを見る会の運用

形骸化しないように、週に1回ダッシュボードを見る会を開催することで積極的にKPIの状況を把握する体制を構築

@Yuya Matsumura

[slide] 研究の進め方ランダムネスとの付き合い方について

研究の進め方とありますが、あらゆる不確実性を伴うプロジェクトに応用可能な考え方だと思いました。

不確実性には大きく２つある

認識的不確実性：データを増やせば消える不確実性 = コントロール可能
偶発的不確実性：データを増やしても消えない、環境自体の不確実性

@Tomoaki Kitaoka

GPU Puzzles

GPUアーキテクチャは機械学習において重要ですが、GPUコードを使わずにエキスパートになることも可能です。

このノートブックは、NUMBAを使ったインタラクティブな形式で初心者向けのGPUプログラミングを教えることを目的としています。

パズルを通じて、GPUプログラミングの基本概念（例えば、スレッド、ブロック、共有メモリ）の学習やNUMBAを使ったCUDAカーネルの記述を通じてGPUでの並列処理の仕組みを体験できます。

@Yuta Kamikawa

[slide] ついに出た！OpenAIの最新モデル「o1」って何がすごいの？

@Shun Ito

[blog] 名寄せの定量評価とGroup Sequential Test

Sansanさんのテックブログ

名寄せアルゴリズムの定量評価のはなし

既存手法・新手法の精度を比較して統計的検定で評価する際、サンプルサイズ（名寄せ対象のデータサイズ）を抑えたい

Group Sequential Test (GST) を使って抑える

GST: 逐次的に中間解析を行い、途中で有意となった時点で終了する

棄却域は ”アルファ消費” を利用する

中間解析の回数分だけアルファを分割し、中間解析ごとに「消費」していく方法
k回目の解析の時のアルファは、α*(t_k) - α*(t_{k-1}) で定め、消費の仕方を決めるエラー消費関数が複数存在する

実際にリリース後の評価をGSTで実施

@qluto (Ryosuke Fukazawa)

[論文] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely

RAGといっても扱う問題の性質や、利用可能な外部データの事情によって解き方は様々だよねということをサーベイしてまとめた論文。

Microsoft Research Asia のメンバーによるプレプリント。

上記の様々だよねという話を4段階に分け、それぞれに対して各種アプローチを紹介している

Level 1: 明示的な事実に対するクエリ

例: "Where will the 2024 Summer Olympics be held?"

Level 2: 暗黙的な事実に対するクエリ

例: "What is the majority party now in the country where Canberra is located?"

Level 3: 解釈可能な理論的根拠に対するクエリ

例:

FDA（米国食品医薬品局） Guidance documents に合わせた薬の適用
カスタマーサポートにおける定義済みワークフローに合わせた問い合わせ対応
“Do I qualify to apply for a five-year Japanese tourist visa in Shanghai?”

Level 4: 隠れた理論的根拠に対するクエリ（理論的根拠が明示的に記録されていないが、外部データに見られるパターンや結果から推測しなければならないような問題）

例:

ソフトウェア開発における、過去バグ修正の意思決定履歴に基づいた問題に対する回答
“How will the economic situation affect the company’s future development?”

各レベルに対するアプローチのサマリはこちら。

@Yosuke Yoshida

[blog] テキスト生成APIサーバのスループットを高めるbatching algorithms

causal language modeling

iter2は中間の計算結果をキャッシュ(KV cache)しておくことでiter2*のように計算コストを削減できる
iter1を prefill フェーズ、iter2*, iter3 を decode フェーズと呼ぶ

Continuous batching

クライアントからリクエストが来たら prefill フェーズのみ計算しそれぞれの KV cache を保存してキューに追加
キューにある KV cache をバッチにまとめて decode フェーズを計算、1トークンだけ生成して KV cache を更新しキューに戻す
生成が終了した KV cache はキューに戻さずにクライアントに生成結果を送信する
生成されるトークンの長さが大きく異なる場合でも無駄なアイドルが発生しない

Performance of Human Annotators in Object Detection and Segmentation of Remotely Sensed Data

Roni Blushtein-Livnon , Tal Svoray , and Michael Dorman

‣

近年は高品質なデータの需要が高い → アノテーションの品質が重要視される

どのようにアノテーションをすれば品質高くアノテートされたデータが得られるかを知りたい

→ アノテーション時のどの条件が制度に影響するかを調査した

概要

アノテーターのパフォーマンスが何に左右されるかを評価したい

リモートセンシング分野の、航空写真からソーラーパネルを検出するというタスクを採用

物体検出とセグメンテーションを同時にやるタスク
同じ画像中でもソーラーパネルの見え方は変わってくる

アノテーションタスクとしては複雑・難しい

…通常のアノテーションタスクと異なる点

切り口は３点

アノテーションの内容

物体検出 or セグメンテーション
個人 or グループ、独立 or 従属

アノテーションするデータの特性
アノテーターの経験

ドメイン知識の有無、アノテーションをやったことがあるか等

結論

物体検出タスクの方が、セグメンテーションタスクよりも品質が高い
アノテート対象の密度は、高い方が品質が高い
アノテーターの経験はあまり大きな影響はない

実験

実験条件

被験者（アノテーター）：24人

学部1,2年生、男女比ほぼ1:1

リモートセンシングに関する素養を全員持っている

うち、6人はアノテーションの専門家

平均で22ヶ月、アノテーションの経験があり

アノテーション内容は2つ

物体検出
セグメンテーション（ピクセル）

例えばAは1つ検出漏れ（FN）、Bは1つ余計なものを検出している（FP）、Cはセグメンテーション範囲が足りない（FN）、Dはセグメンテーション範囲が広い（FP）

アノテーション戦術

２グループに分ける

１グループには独立にアノテーションをしてもらい、最頻値を最終的なアノテーション結果とする（物体検出では 2人以上がラベル付けしたもの、セグメンテーションでは2人以上が選択したピクセルを選ぶ）
１グループには依存する形でアノテーションをしてもらう。初めのアノテーターのアノテーション結果を、他の人間が順々にレビューする。最後のレビュー結果をアノテーション結果とする。

タスク条件

データの性質で２種類に分ける

検出したい物体が密集しているか、していないか

アノテーション経験

グループでアノテーションしてもらう、最頻値をアノテーション結果とするが、経験者のアノテーション結果に重みつけ（２票分）する

結果

セグメンテーションより物体検出タスクの方が良いスコア（精度高い）

個人 or グループ、独立or従属、密or疎

（Precision, Recall の順）

t検定によるp値（*は有意、**は特に有意）

密or疎、個人orグループ、独立or従属で特に有意

考察

物体検出の精度・再現率＞セグメンテーションの精度・再現率

セグメンテーションはより複雑なタスクで、認知的要求がより高い
要求されるスキルがそれぞれ異なる

FPよりもFNのエラーを起こす傾向がある（＝間違うリスクをとりたがらない）

不確実な物体を避ける傾向

プロスペクト理論に一致する

‣

→ これを緩和するためには、リスクをとることにインセンティブを与えるような設計にする

or 確信度低くマークしたものを、次のアノテーターにレビューしてもらうような設計にする

多数決の形式をとった方が品質がよい

レビューする人間がバイアスを受ける

自分の役割を正当化するために、確信度低い物体でもマークする、など
一方で、消すことはためらう傾向

レビュー形式をとっても、見逃しは避けられない

→ 同じアノテーションタスクを並行して行うことが推奨される

アノテーション対象が分散していない方が品質高くアノテーションできる

広範囲を探索すると誤検出が増える（疲れるので）
密集していれば同じ視界で比較しやすく、アノテーションに周囲のコンテキストを活用できるようになって、品質が高くなる

→ばらけるような場合には、分割すると良い

アノテーションの経験の有無で有意な差がない

逆に、無意識や注意散漫な状態でアノテーションを実行して、パフォーマンスが落ちていることもある

→「専門家」のアノテーション結果を優先する利点はない

Post on X