CADDiの機械学習モデル開発の流れと継続的な改善

 
1. Define
  • アノテーション定義
    • ドメイン知識を持つAnnotation Opsチームがいる
2. Prototype
  • データセット作成
    • Quality
      • Q&A、二段階承認フロー、抜き取り検査を実施
    • Cost
      • プレアノテーションとショートカットキーの利用促進
    • Delivery
      • 予実管理を毎日行う
  • 学習・評価
    • 割愛
3. Production
4. Measure
”重要なデータを集める仕組み”と”機械学習パイプライン”の構築
  1. 能動学習: 不確実性が高いデータを現状のモデルを使ってマイニングする
  1. お客様とやりとりがあるCustomer Successチームや実際にデータを処理するOpsチームなど社内全員で課題データを挙げて収集する
      • CSメンバーが異常あるデータに対してサクッとアノテーションしてデータセットを作成できる
  1. ユーザであるお客様にDRAWERアプリ内から直接課題データを挙げてもらう