Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-
概要
データ活用のためならなんでもやるDataDirectionTeamの話
発表者:坂口 遥
- Data Direction Team(DDT)
- 5名
- ミッション
- 「データを使って5分で意思決定できる世界を作る」
- 一番重要だと思っていること
- なんとなく、データ使えばいいんじゃねって思っている人たちと一緒に糸口を探す
- BQ
- ストレージ 48.99T
- テーブル1300
営業DXのためのアプリケーション提供で見えてきたデータ活用、データプロダクトマネジメント
発表者:猿田 貴之
- 10個はすでに社内リリース済み → これの一部がプロダクトに出ていく
- e.g. 類似企業検索
- この企業も入れてるんだから使いなよ、みたいな営業支援
- 顧客データはAthena
- データプロダクトからデータプラットフォームへ
アプリケーション基盤側から見たリードタイム2週間、年間100リリースへの挑戦
発表者:新井 和弥
- ML Platform Team
- MLOps + DevOps
- もともとWebをやっていた方が社内移動ってケースもそこそこあるそう。
- 研究員の成果を最大化
- リードタイム2週間、年間リリース100
- やばー
- 認知負荷を下げると人間のやりとりによるリードタイムが長くなる。
- 以下の資料で紹介されているCircuitという開発基盤を作成
- プロジェクトごとにかかった期間を集計している
- 1アプリ30日くらい。すごい。
- 提供方法
- バッチ実行 w/scheduler
- API
- Webアプリ
NineOCRの改善を支えるFeatureStore
発表者:八藤丸 諒士
- 名刺OCRのFeature Store としてOpenSearchを対応。
- 解約によるデータの削除などにも対応。
メール署名取り込みにおける名刺情報抽出の取り組み
発表者:橋本 航
- メールから名刺みたいな情報を抽出するぜ!
- メール内から送信者の署名抽出 → 署名内から名刺相当の情報(氏名・組織名・部署名等)抽出
- 会社名等の辞書による固有表現抽出
- 有向無閉路文字列DAWGで解決
- pipですぐ入る
- ‣
- 長さMの文字列に対するO(M)の検索
- ノード数も少ないのでメモリも大幅に節約
データ入力の自動化率向上のための取り組み
発表者:齋藤 慎一朗
- 名刺データの(?)人手による手入力をML使って効率化するぞ!
- 5クラス分類みたいな問題
- 複数のオペレーターに入力タスクをお願いし、最初に2人が選んだクラスを採用する方式
- 1人分(ないしは2人)を機械学習に置き換えられないか?というプロジェクト。
- めっちゃコスト削減できててすごい(数千万/年)