Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-

 

概要

データ活用のためならなんでもやるDataDirectionTeamの話

発表者:坂口 遥
 
  • Data Direction Team(DDT)
    • 5名
    • ミッション
      • 「データを使って5分で意思決定できる世界を作る」
    • 一番重要だと思っていること
      • なんとなく、データ使えばいいんじゃねって思っている人たちと一緒に糸口を探す
    • BQ
      • ストレージ 48.99T
      • テーブル1300
 

営業DXのためのアプリケーション提供で見えてきたデータ活用、データプロダクトマネジメント

発表者:猿田 貴之
 
  • 10個はすでに社内リリース済み → これの一部がプロダクトに出ていく
    • e.g. 類似企業検索
      • この企業も入れてるんだから使いなよ、みたいな営業支援
  • 顧客データはAthena
  • データプロダクトからデータプラットフォームへ
 

アプリケーション基盤側から見たリードタイム2週間、年間100リリースへの挑戦

発表者:新井 和弥
 
  • ML Platform Team
    • MLOps + DevOps
      • もともとWebをやっていた方が社内移動ってケースもそこそこあるそう。
    • 研究員の成果を最大化
  • リードタイム2週間、年間リリース100
    • やばー
  • 認知負荷を下げると人間のやりとりによるリードタイムが長くなる。
  • プロジェクトごとにかかった期間を集計している
    • 1アプリ30日くらい。すごい。
  • 提供方法
    • バッチ実行 w/scheduler
    • API
    • Webアプリ
 

NineOCRの改善を支えるFeatureStore

発表者:八藤丸 諒士
 
  • 名刺OCRのFeature Store としてOpenSearchを対応。
    • 解約によるデータの削除などにも対応。

メール署名取り込みにおける名刺情報抽出の取り組み

発表者:橋本 航
 
  • メールから名刺みたいな情報を抽出するぜ!
    • メール内から送信者の署名抽出 → 署名内から名刺相当の情報(氏名・組織名・部署名等)抽出
  • 会社名等の辞書による固有表現抽出
    • 有向無閉路文字列DAWGで解決
    • pipですぐ入る
    • 長さMの文字列に対するO(M)の検索
    • ノード数も少ないのでメモリも大幅に節約
 

データ入力の自動化率向上のための取り組み

発表者:齋藤 慎一朗
 
  • 名刺データの(?)人手による手入力をML使って効率化するぞ!
    • 5クラス分類みたいな問題
    • 複数のオペレーターに入力タスクをお願いし、最初に2人が選んだクラスを採用する方式
    • 1人分(ないしは2人)を機械学習に置き換えられないか?というプロジェクト。
    • めっちゃコスト削減できててすごい(数千万/年)