TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年6月10日
時系列を言語として捉える：汎用時系列基盤モデルのためのユニバーサル・トークナイザー
arXiv:2606.09861v1 新規発表要旨：次トークン予測（NTP）はLLMの事前学習を統一してきたが、その応用は無限で連続的な時系列（TS）には未解決のままでした。このギャップを埋めるため、TSを離散トークンに変換するユニバーサル・トークナイザーUniTokと、これらのトークン上でNTPにより事前学習された基盤モデルUniTok-FMを提案します。UniTok-FMは、ゼロショットおよびプロンプト強化型予測、さらに訓練不要のインコンテキスト推論による少数ショット生成・分類をサポートする汎用基盤モデルであり、これは先行研究では達成されていませんでした。技術的には、UniTokはスケール安定化のためのプレフィックス正規化、エンコード・デコードのための段階的解像度因果アーキテクチャ、および学習のための構造保存型再構築損失を組み込んだベクトル量子化オートエンコーダーです。UniTok-FMは、TS固有の修正なしに市販のLLMアーキテクチャを採用しています。
arXiv cs.LG
2026年6月16日
効率性と公平性の両立：多言語大規模言語モデルにおけるトークナイザーの実証的研究
多言語大規模言語モデル（LLM）は、離散的なテキストと連続的なニューラル表現を橋渡しするためにサブワードトークン化に依存しています。最新の多言語LLMは、しばしばバイトレベルBPE（Byte-Pair Encoding）トークナイザーを使用していますが、これは構造的にリソースの豊富な言語やラテン文字を優先する傾向があります。特に東南アジアのマイノリティ言語話者にとっては、この偏りが推論コストを増大させ、言語間の能力格差を広げます。本研究では、11の東南アジア言語を網羅する統一ベンチマークにおいて、公平なトークナイザーの最初の体系的な比較を行います。圧縮効率とクロスリンガルな公平性に関するトークナイザーレベルの分析に加え、同じトレーニングデータを使用した制御された1.5Bパラメータ言語モデルのトレーニングを通じて、下流タスクのパフォーマンスを評価します。我々の結果は、Parity-aware BPEが効率性と公平性のトレードオフにおいてパレートフロンティア上に位置し、競争力のあるコストで強力な圧縮公平性を達成することを示しています。
arXiv cs.CL
2026年6月24日
QuechuaTok：形態素境界精度を、膠着語におけるトークナイザー評価の必須指標とする
NLPパイプラインの基盤となるトークン化において、既存の評価指標（例：生起頻度）は、膠着語の形態論的な正しさを捉えきれていない。本研究では、南米で8〜1000万人が話す低資源膠着語であるケチュア語（quz）を対象に、BPE、Unigram LM、WordPiece、そして形態論を考慮したPRPEトークナイザーの4つの戦略を比較する体系的なベンチマーク「QuechuaTok」を提案する。20万文のコーパスとSQUOIA有限状態形態素解析器（Rios, 2016）を基準として、生起頻度、未知語率（OOV rate）、形態素境界精度（MorphAcc）の3つの指標で評価した。結果として、BPEは16k語彙で1.636という最低の生起頻度を達成するも、MorphAccは6.67%に留まった。一方、PRPEは全システム中最高の83.33%のMorphAccを達成し、生起頻度だけでは膠着語のトークナイザー評価として不十分であることを示した。全てのコードとモデルはkaggle.com/code/macmaky/quechuatokで公開されている。
arXiv cs.CL