高市総理、サイバー攻撃対策指示　「Claude Mythos」巡り／ローカルLLMのハードウェア最適化が進んでいる

	2026/05/13

	高市総理、サイバー攻撃対策指示　「Claude Mythos」巡り

	十時CEOが明かす“ソニー流”AI活用術　ゲーム開発にも導入、クリエイティブを支える工夫

	「ウォーターマークを入れたい絵描きなんていない」──AI推進企業のコロプラがクリエイター保護ツール「CCP」を作ったワケ

	「AIがわが社の利益モデルを揺るがす」と約3割のCEOが回答　ガートナー調査

	Google、「Gemma 4」のテキスト生成を最大3倍高速化する「MTP」をリリース

	AIに「これ買っておいて」で決済から家計簿記録まで完結　MUFGがGoogleとの提携で目指す自律型金融サービス

	ChatGPTの「広告表示テスト」、日本でも開始へ　数週間以内に

	OpenAI、企業のAI導入を支援する新会社設立　6000億円投資とAIコンサル買収で資金と人員を確保

	警視庁、「シャドーAI」に注意喚起　リスクをゆるめの図で解説

	「AI製ゼロデイ攻撃」ついに出現か　Google、攻撃者による生成AI悪用の新局面を報告

ローカルLLMのハードウェア最適化が進んでいる

クローズドモデルにおいては「Claude Mythos」（ミュトス）や「GPT-5.5 Cyber」など、サイバーセキュリティ能力の著しく高いモデル関連の話題が多いが、オープンモデル（ローカルLLMとも）はモデルだけでなく、計算（推論）の最適化がここ最近で進んでいる。

ローカルLLMの実行環境となるコンピュータの多くは、クローズドモデルのような大型GPUサーバではなくデスクトップPCか小型ワークステーション程度の制限的な環境となる。そうした制限的な環境でどれだけ性能の高いモデルを快適に動かせるか、というのが基本的な焦点となっている。筆者が最近気になっている技術をいくつか紹介していきたい。

●KVキャッシュ圧縮

LLMが使う「KVキャッシュ」のデータを劣化を抑えながら圧縮することでメモリ消費を抑える手法。KVキャッシュはLLMが処理する文章をデータ化（ベクトル化）したもので、多くの場合はGPUメモリ上に載せておく必要がある。LLMで処理したい文の長さ（コンテキスト長）が長いほどKVキャッシュは増えるため、コンシューマ向けGPUではLLMのサイズによっては十分なコンテキスト長を確保できないことがある。

そのため、KVキャッシュをうまく圧縮（量子化）する方法がいろいろと開発されているのだが、その中でも、Googleが開発した「TurboQuant」は劣化を抑えながら消費メモリ量も抑えられるとしている。

●投機的デコーディング（Speculative Decoding）

LLMの推論速度を上げる技術。推論は入力プロンプトに対し、次の1単語を推論し、それを入力プロンプトにつなげて再度次の1単語を推論する、というように1単語ずつ計算するのが通常で、1単語の計算ごとにメモリからLLMの情報を読み出して計算装置（GPUやCPUなど）に送る。すると、この「メモリから計算装置に情報を送る速度」（メモリ帯域）が計算のボトルネックになる。

大きなモデルの方が性能は高いが、マシンのメモリ帯域は一定なので推論速度は下がる。だったら、大きなモデルと同じデータで学習している小さなモデルでいくつか次単語の候補を出して、大きなモデルでそれが正しいかの検証をするようにすれば推論速度を上げられるのでは……というのが、投機的デコーディングのコンセプトだ。最近は中でも「DFlash」という手法が注目を浴びている。また、Googleも同社のローカルLLM「Gemma」の推論を高速化する「MTP」を発表している。

●推論エンジン

推論エンジンはLLMを実行する基盤プログラム。「llama.cpp」や「vLLM」「SGLang」などいろいろあるのだが、推論エンジン自体もどんどん新しいものが出てきている。例えば、LightSeek Foundationという団体が5月に発表した「TokenSpeed」という推論エンジンは既存の推論エンジンの良いところ取りをしたような性能だとしており、NVIDIAがX上でローンチを祝うメッセージを投稿している。他にも、Redisの開発者が作った推論エンジン「DS4」（DwarfStar 4）は中国DeepSeekの「DeepSeek V4 Flash」向けに特化しているという。

このように、さまざまな観点からローカルLLMの実行を最適化しようという動きがある。これらはまずはデスクトップPCのような個人向け・小規模環境に適用されるものだが、計算機を効率良く使えるということはAIデータセンターの消費電力問題や計算リソース問題にも直結する。引き続き動向を注視したい。（井上）