2023-07-20 ML勉強会

2023/7/6 11:502024/6/11 9:34

紹介する論文

『Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches』

https://arxiv.org/pdf/1907.06902.pdf

RecSys2019（推薦システムのトップカンファレンス）におけるベストペーパーでかなり衝撃的だった。

松村も現地参加していたのだが、面白い空気だったw

既存のいわゆるSOTAを達成していると報告されているDNN系の論文の再現実験をしたが、全然ダメでしたという論文

al-190706902.pdf

紹介しようと思った背景

圧縮アルゴリズム(gzip)を使って計算した文字列間の距離を使った類似検索が、BERT等に勝利！という論文が話題に

“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors

Zhiying Jiang, Matthew Yang, Mikhail Tsirlin, Raphael Tang, Yiqin Dai, Jimmy Lin. Findings of the Association for Computational Linguistics: ACL 2023. 2023.

https://aclanthology.org/2023.findings-acl.426/

お気持ち理解

https://gist.github.com/kyo-takano/fa2b42fb4df20e2566c29c31f20f87ed

ところが、、

評価方法が不正であったよう。改めて実験してみると、論文での報告からかなり精度が落ちた。

“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors

Zhiying Jiang, Matthew Yang, Mikhail Tsirlin, Raphael Tang, Yiqin Dai, Jimmy Lin. Findings of the Association for Computational Linguistics: ACL 2023. 2023.

https://aclanthology.org/2023.findings-acl.426/

なんならtrain-testでデータが被っていた…

論文内容

いわゆるトップカンファレンス（KDD, SIGIR, WWW, RecSys）において報告されているDNNベースの手法に関する18本の論文に対して再検証を行ったという論文。

再現実装を行った上で、古典的な手法（主にメモリベースの協調フィルタリング）との比較

結論

再現できたのが7本

うち6本は機械学習も使わないような古典的アルゴリズムに敗北
1本は単純な機械学習ベースの手法（線形回帰）のパラメタを調整したものとどっこいどっこい

11本はどう頑張っても再現できなかったり、著者と連絡取れず…

（当然かもですが）この論文の再現実装やデータセットはすべて公開（すごい）

詳細書こうと思ったけど、日本語のブログ出てきたからこれでいいや（感謝）

RecSys 2019 ベストペーパーを読んだメモ - Qiita

紹介論文 Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches (RecSys 2...

https://qiita.com/smochi/items/98dbd9429c15898c5dc7#11-neural-collaborative-filtering-ncf-scream

じゃあどういうの読めばいいねん

コード公開していないものは、世の中の評価が定まるまで（ぼくらは）読む必要ないと思っています。

プラスで実験設定（データセットの作り方、評価指標など）を読んでちゃんとしてるか確認するかな。ちゃんと読むときは。

自分は、実プロダクトでオンラインテストやっているようなものくらいしか正直読んでないです。

なのでインダストリアルセッション大好きです。
特に海外企業のガチ研究チームのペーパーは手法も含めてガチなのでめちゃ面白い。

NetflixとSpotify大好き

おまけ

「協調フィルタリング」って以前も話に出たと思うので、簡単に説明

プログラミングLT_2019_はじめての推薦システム.pdf / introduction-to-recommender-system

2019/4/30 のプログラミングLT 2019 (https://npoint.connpass.com/event/118783/) (http://prolt.n-point.pw/about/) での発表内容です。推薦システムのイントロダクション的ななにか。推薦システムとは？的な話と，シンプルなユーザベースの協調フィルタリングを実装つきで説明する内容となっています。

https://speakerdeck.com/yuya4/introduction-to-recommender-system?slide=15