Selective Labeling: How to Radically Lower Data-Labeling Costs for Document Extraction Models
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/c4c8dc4c-10c7-4748-b2ac-f569181535a0/38eda81b9f3e9d8ea982dda20d90eef6.png)
概要
- Google社によるEMNLP2023に採択されたlong paper
- ICML2022の『Radically Lower Data-Labeling Costs for Visually Rich Document Extraction Models』とほぼ同じ内容?
- EMNLP2023の論文はパッと調べたところまだOpen Reviewのものしか見つからなかったが、ぱっと見ほぼ同じ内容。
- Google社のEMNLP2023採択論文リストからもICML2022の論文へとリンクされていた。
- 請求書などからの情報抽出タスクを機械学習で解くためのデータセット作成はとてもコストがかかるからなんとかしようという論文
- アクティブラーニングの枠組み
- 人は提示された選択肢が正しいかをyes or noで回答する。
- 人手でアノテーションするのと同等の性能を1/10のコストで実現できた。
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/b8ed5147-3da1-4568-9cba-a8a30126ad55/768beb0a4ecd695c85b5c5657b920194.png)
![](https://s3.ap-northeast-1.amazonaws.com/wraptas-prod/layerx/7a9af5d5-63af-4e95-9d77-72ff7dbdc47e/775ddf1744e4526bbaa43ab978447d64.png)