BudouX: 読みやすい改行のための軽量な分かち書き器

概要
- Googleが発表したBudouXという文章を読みやすい位置で改行するための分かち書き器
- オーブンソースでコードも公開:‣
- モデルとしてはAdaBoost (勾配ブースティングモデル)で特徴量はn-gramのみなので軽量。
- 各文字に対して改行するかどうかを推定する
- 日本語の場合は、文節単位で分かち書きするらしい
- JavaScriptとかでも使える。
- pythonの場合は以下
- adobeのサイトとかで使われている。確かに読みやすい。
- LLMとかで要約した文章とかをサービスに載せる時とか役に立つかも