News in Focus

TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

  1. 2026年6月2日

    「弱い」シグナルから強いモデルへ: LoRAマージによる選好差集約

    強い大規模言語モデル (LLM) の訓練には高品質の教師データが必要ですが、それはしばしば不足しています。最近の研究により、弱い-より弱いモデルペア(例えばQwen3 4BとQwen 1.7B)からの対になった選好データが、個々の応答の品質が限定的であるにもかかわらず、効果的な教師信号を提供できることが示されています。

    arXiv cs.AI

  2. 2026年6月3日

    RTX 4080でローカルLLM 7モデルを実測したら「16GB VRAMの壁」が見えた

    結論: gpt-oss:20b + Ollamaが16GB VRAM環境の最適解 RTX 4080 (16GB VRAM) で、推論バックエンド2種(Ollama / vLLM)とモデル12種を実測した。

    Zenn

  3. 2026年6月4日

    Googleが「Gemma 4 12B」をリリース。ノートPCで動いて26B級の性能、またお化けローカルLLM

    Googleが新しいローカルLLM「Gemma 4 12B」をリリースしました。26B版に迫る性能で、VRAM 16GBで動作するとされています。

    GIZMODO Japan

  4. 2026年6月4日

    グーグル、マルチモーダルAIモデル「Gemma 4 12B」 ノートPCで動作(Impress Watch)

    Google DeepMindは3日、マルチモーダルAIモデル「Gemma 4 12B」を発表した。ノートPC上で動作するエージェント型マルチモーダルAIを想定したモデルで、16GBのVRAMまたはユ

    Yahoo!ニュース IT

  5. 2026年6月5日

    リコー、オンプレ対応マルチモーダルLLMを開発--軽量モデルでクラウドAI級の日本語推論性能を実現(ZDNET Japan)

    リコーは6月5日、日本語での高度な推論能力を備えたマルチモーダル大規模言語モデル(LMM)「Qwen3.6-Ricoh-27B-20260522」と軽量版「Qwen3.5-Ricoh-9B-2026

    Yahoo!ニュース IT

  6. 2026年6月8日

    一貫性駆動型強化学習による言語間事実的リコール性能の向上

    英語データで主に学習した大規模言語モデル(LLM)は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習(CPT)、教師あり微調整(SFT)、およびグループ相対方針最適化(GRPO)を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。

    arXiv cs.CL

  7. 2026年6月9日

    ollama + qwenで、PDFを読み取る環境を構築

    持っていたMacbook Air M2(メモリ8G、ストレージ256GB)が購入後3年経過したので、M5(メモリ16G、ストレージ512G)に買い直しました。 古いMacbookはじゃんぱらで64000円で買い取ってもらいました。

    Zenn

  8. 2026年6月15日

    VRAM 12GBでQwen 35Bを動かす — エキスパートをGPUに載せないほど速くなった話

    3か月前、私は同じRTX 4070でこんな検証記事を書きました。結論は「35BのMoEモデルは、待てるなら動く」。測ったのは10.6 tok/s。動くには動くが、チャットで使うには指が止まる速度です。 先週、同じGPU・同じモデルで測り直したら34.6 tok/sが出ました...

    Qiita 人気記事

  9. 2026年6月16日

    オンラインスキルとメモリモジュールは、トークンに見合う価値があるか?予算制約下でのWebエージェントの調査

    オンラインWebエージェントは、ベースとなるアクターにメモリ、ワークフロー、またはスキルモジュールを組み込むことがよくあります。これらのモジュールはパフォーマンスを向上させることができますが、テスト時のトークンも消費します。このコストは、アクターの推論コストと併せて報告されることはめったにありません。本研究では、このオーバーヘッドがすべてのタスクで発生するオンライン拡張を調査し、固定された総推論予算の下でのその利点を再評価します。AWM、ASI、ReasoningBankを、同じ予算を追加のアクターステップに使用するトークンマッチングされたバニラベースラインと比較します。WebArenaの3つのドメインとGemini 3 Flash、GPT-5.4-mini、Qwen 3.6-27Bの3つのモデル全体で、バニラベースラインは集計成功率で3つの拡張方法すべてに匹敵するか、それを上回り、多くの場合、より少ない総トークンで済みます。WorkArena-L1でもQwen 3.6-27Bで同様の傾向が観察され、この効果がエンタープライズナレッジワークタスクにも及ぶことが示唆されています。

    arXiv cs.CL

  10. 2026年6月17日

    中国の開発者が米国のLLMも積極活用する理由(ZDNET Japan)

    中国は米国主導のAI覇権に対抗し、複数のテック企業が独自の大規模言語モデル(LLM)を次々とリリースしている。アリババの「通義千問(Qwen)」、DeepSeek、バイドゥの「文心一言(ERNIE

    Yahoo!ニュース IT

  11. 2026年6月18日

    CoreMem:対話エージェントにおける長期記憶のためのリーマン幾何学的検索とフィッシャー情報量誘導蒸留

    パーソナライズされた対話エージェントは、複数セッションにわたる一貫した対話を維持するために、継続的な長期記憶を必要とします。しかし、コンシューマーグレードのハードウェア(例:8 GB VRAMのエッジデバイス)にこれらの機能を展開すると、深刻なメモリと計算のボトルネックが発生します。既存のシステムは通常、検索に等方性コサイン類似度を、コンテキスト圧縮にヒューリスティックなルールに依存しています。これらのアプローチは統一された理論的基盤を欠いており、高次元検索におけるハブネス問題や圧縮中の構文断片化に頻繁に悩まされています。これらの限界を克服するために、情報幾何学によって根本的に統一された、リソース効率の良いエッジクラウドメモリアーキテクチャであるCoreMemを提案します。まず、リーマン幾何学検索は、コサインマッチングを局所的に適応可能なフィッシャー・ラオ距離に置き換え、O(Ndr)のWoodbury加速によりマハラノビス距離でハブメモリを効果的にペナルティ化し、リアルタイム検索を実現します。

    arXiv cs.CL

  12. 2026年6月19日

    LLMは自身の知らないことを知らない:臨床的表形式データにおけるクロスモデル属性の乖離による認識の盲点を検出

    大規模言語モデル(LLM)は構造化された臨床データへの応用が進んでいますが、そのようなタスクにおいて自身の知識の限界を認識できるかは未解明のままです。本研究では、構造化タスクにおける認識の不確実性を低減することを目的としたクロスモデル属性の乖離という観点からこの問題を研究し、属性の乖離分析を通じてQwen 2.5 7BとXGBoostを予測タスクで比較します。4つの発見を報告します。第一に、LLMの言語化された信頼度は認識論的に無価値であり、精度が49%であろうと75.3%であろうとほぼ一定(0.856~0.937)を出力し、予測の質ではなくプロンプトの形式を追跡します。第二に、LLMは逆の難易度効果を示します。XGBoostが99%正解した場合、精度は64.8%に低下しますが、XGBoostが適度に不確実な場合(73.8%対73.1%)にはそれに匹敵します。第三に、少数ショットの例とSHAP由来の特徴証拠は、直交的で超加算的な介入であり、学習なしで属性乖離スコア(ADS)を1.54から0.38に低下させ、精度を49%から75.3%に向上させます。

    arXiv cs.AI

  13. 2026年6月19日

    VRAMを減らして価格を下げる。AMDの新GPU「RX 9070 GRE」が示すメモリ不足の現実

    メモリ不足がまだまだ続くなかで、AMDは新たなグラフィックボード「Radeon RX 9070 GRE」を発表しました。名前だけ見ると、既存の「Radeon RX 9070」をアップグレードしたモデルのように思いますが、実際はそう単純な話で…

    GIZMODO Japan

  14. 2026年6月20日

    32GBのVRAMを搭載して他のグラボより激安の「Intel Arc Pro B70」はローカルAIを実際に動かすとどれぐらいの性能とトークンのコスパを発揮するのか?

    32GBのGDDR6メモリを搭載するワークステーション向けGPU「Intel Arc Pro B70」について、ワークステーションメーカーの Puget SystemsがローカルLLM推論と画像生成での実測ベンチマークを公開しました。

    はてなブックマーク IT