ai2026/6/24 13:00:00

QuechuaTok：形態素境界精度を、膠着語におけるトークナイザー評価の必須指標とする

ニュース概要

NLPパイプラインの基盤となるトークン化において、既存の評価指標（例：生起頻度）は、膠着語の形態論的な正しさを捉えきれていない。本研究では、南米で8〜1000万人が話す低資源膠着語であるケチュア語（quz）を対象に、BPE、Unigram LM、WordPiece、そして形態論を考慮したPRPEトークナイザーの4つの戦略を比較する体系的なベンチマーク「QuechuaTok」を提案する。20万文のコーパスとSQUOIA有限状態形態素解析器（Rios, 2016）を基準として、生起頻度、未知語率（OOV rate）、形態素境界精度（MorphAcc）の3つの指標で評価した。結果として、BPEは16k語彙で1.636という最低の生起頻度を達成するも、MorphAccは6.67%に留まった。一方、PRPEは全システム中最高の83.33%のMorphAccを達成し、生起頻度だけでは膠着語のトークナイザー評価として不十分であることを示した。全てのコードとモデルはkaggle.com/code/macmaky/quechuatokで公開されている。

解説

皆さんは、普段使っている言葉が、コンピューターにどうやって理解されているか考えたことがありますか？スマートフォンの音声入力や、翻訳アプリなど、私たちの身の回りにはAI（人工知能）がたくさん使われています。これらのAIが言葉を理解する上で、とても大切な「最初のステップ」があります。それが「トークン化」と呼ばれる技術です。普段私たちが使う日本語は、単語と単語の間がスペースで区切られていないので、AIが「どこからどこまでがひとつの単語なのか」を判断するのが難しい場合があります。例えば「食べました」という言葉は、「食べる」という単語と「ました」という助詞に分けることができますよね。このように、単語や意味のまとまりに区切る作業がトークン化です。

今回ご紹介するのは、特に「膠着語（こうちゃくご）」と呼ばれる、単語に色々なパーツ（接辞といいます）がくっついて意味が変わる言語でのトークン化について研究したものです。例えば、トルコ語や韓国語、そして今回研究の対象となった南米のケチュア語などがこれにあたります。これらの言語では、単語の「原型」に、過去形や複数形、丁寧さなどを表すパーツがどんどんくっついていきます。そのため、AIが言葉を正しく区切るのが、より一層難しくなります。

これまでのAI研究では、トークン化の評価は、どれだけ多くの単語がデータに出てくるか、といった「頻度」を重視してきました。しかし、膠着語のように形がどんどん変わる言語では、この「頻度」だけでは、AIが言葉を「形態論的に（＝単語の形や成り立ちに沿って）正しく」区切れているかどうかを正確に測ることができません。そこで、この研究では、ケチュア語を例に、新しい評価方法を提案しています。ケチュア語は、南米で800万人から1000万人が話していると言われていますが、AIの研究ではあまり使われてこなかった「低資源言語」の一つです。

研究チームは、ケチュア語の約20万文のデータを使って、4つの異なるトークン化の方法を試しました。その結果、単語の出現頻度だけを見ていると、一見良さそうに見える方法でも、実は単語の区切り方が間違っていることが多かったのです。そこで、単語の区切り方が、その言語の「文法的な正しさ」に合っているかを測る「形態素境界精度（MorphAcc）」という新しい指標に注目しました。この指標で評価すると、これまで頻度で評価されていた方法よりも、形態論的に正しい区切り方ができる方法があることが分かったのです。これは、AIが様々な言語をより深く理解するために、とても重要な発見と言えるでしょう。

この研究で使われたコードやモデルは、インターネット上で公開されており、誰でも利用できるようになっています。これにより、今後、ケチュア語のような膠着語を扱うAI開発がさらに進むことが期待されます。

今後の予測

今回の研究は、膠着語におけるトークン化の評価方法に新たな視点を加えた点で画期的です。今後、この「形態素境界精度（MorphAcc）」という指標が、他の膠着語や、より複雑な形態論を持つ言語の研究でも標準的に使われるようになる可能性があります。そうなれば、これまでAIでの処理が難しかった言語のAI開発が加速し、例えば、より精度の高い機械翻訳や、地域固有の言語での情報アクセスが容易になるかもしれません。

一方で、PRPEのような形態論を考慮したトークナイザーは、計算コストが高くなる傾向があります。そのため、実用化にあたっては、精度と計算速度のバランスを取ることが課題となるでしょう。将来的には、AIの計算能力の向上とともに、このような高精度なトークナイザーが、より手軽に利用できるようになることが期待されます。また、今回対象となったケチュア語以外にも、世界にはまだAI研究で十分に扱われていない「低資源言語」がたくさんあります。この研究が、そういった言語のAI開発の火付け役となり、言語の多様性を守りながら、AI技術の恩恵をより多くの人々が受けられるようになる未来につながるかもしれません。