ds4がMacローカル推論の常識を覆す：128GBメモリとDeepSeek V4 Flashの融合

Redisの生みの親として知られるサルヴァトーレ・サンフィリッポ氏（通称antirez）が、Apple Silicon Mac専用の画期的な大規模言語モデル（LLM）推論エンジン「ds4」をGitHubで公開しました。この「ds4」は、128GB以上のメモリを搭載したMacBook Proで、284億パラメータを持つ巨大なDeepSeek V4 Flashモデルをローカル環境で高速かつ実用的に動作させることを目指しています。従来のローカルAIの常識を塗り替える可能性を秘めたこの技術は、高性能Macユーザーにとって新たなAI活用の道を開くものです。

Redis作者が切り拓くMac専用LLMエンジン「ds4」の衝撃

「ds4」は、汎用的なLLMローダーである「llama.cpp」とは一線を画す、極めて特化された設計思想に基づいて開発されました。多くのローカルLLMエンジンが多様なモデルやハードウェアに対応しようとする中で、ds4はDeepSeek V4 Flashという特定のモデルと、Apple Silicon MacのMetalフレームワークに焦点を絞っています。この「狭い賭け」とも言えるアプローチは、特定の組み合わせにおいて最高のパフォーマンスと完成度を追求するためのものです。

開発者であるantirez氏は、ds4のREADMEで「これはもうひとつのllama.cppではない」と明確に宣言しています。その目的は、単一のモデル（DeepSeek V4 Flash）を対象に、推論エンジン、GGUFファイル、そしてエージェント連携の三位一体で「エンドツーエンドの完成形」に近づけることにあります。この特化戦略により、特定の環境下でのみ実現可能な、かつてないレベルの最適化と実用性を達成します。

ds4の動作条件は「128GB以上のメモリを搭載したApple Silicon Mac」という、かなり限定的なものです。これは、DeepSeek V4 Flashのような巨大なMoE（Mixture of Experts）モデルをローカルで効率的に動かすために不可欠な要件であり、MacBook Proの高性能な統一メモリと高速なSSDストレージのポテンシャルを最大限に引き出す設計思想が反映されています。

MacBook Pro M4 Max

¥231,800 （楽天市場時点 | 楽天市場調べ）

Amazon

＼楽天ポイント4倍セール！／

楽天市場

Yahooショッピング

ポチップ

DeepSeek V4 Flash：ds4がその真価を引き出す大規模言語モデル

ds4がDeepSeek V4 Flashを専用モデルとして選定した背景には、このモデルが持つ独自の優れた特性があります。antirez氏が指摘するDeepSeek V4 Flashの主な特徴は以下の通りです。

MoEのアクティブパラメータ効率: 284億パラメータという巨大な規模にもかかわらず、MoE（Mixture of Experts）アーキテクチャにより、推論時に実際にアクティブになるパラメータ数が少ないため、高速な処理が可能です。これにより、大規模モデルでありながら実用的な速度を実現しています。
思考セクションの最適化: 他のモデルが複雑な思考プロセスを無駄に長く実行しがちなのに対し、DeepSeek V4 Flashは質問の複雑度に応じて思考セクションの長さを調整します。簡単な問いには短い思考で答え、実用的な応答速度を維持します。
1Mトークンの長文コンテキスト: 100万トークンという驚異的なコンテキスト長は、ローカル環境でコードベース全体を読み込んだり、長大なドキュメントを分析したりといった、これまでのローカルLLMでは不可能だった高度なタスクを可能にします。
知識の解像度と広さ: 284億パラメータの広大な知識ベースは、一般的な知識だけでなく、特定の専門分野や「辺境の知識」（例えばイタリアのテレビ番組や政治など）にも深く到達できるため、より詳細で精度の高い応答が期待できます。
多言語対応の品質: 英語やイタリア語といった多言語での文章生成能力が非常に高く、antirez氏自身が「準フロンティアモデル」と評価するほどです。
KVキャッシュの極端な圧縮: キーバリュー（KV）キャッシュが非常に効率的に圧縮されているため、長文脈推論がローカル環境でも現実的になり、さらにディスクへの永続化も可能になります。
特殊な2-bit量子化: 品質劣化を最小限に抑えつつモデルサイズを大幅に削減する特殊な2-bit量子化技術が採用されており、これが128GB MacBook Proでの284B MoEモデルの実用的な動作を可能にする「ギリギリの均衡点」をもたらしています。
継続的な開発への期待: DeepSeekがFlashの新版をリリースする可能性が高いと予想されており、ds4への投資が将来的に報われるという期待も込められています。

これらの特徴は、単にDeepSeek V4 Flashが優れているというだけでなく、「このモデルであれば、専用の推論エンジンを開発する労力が十分にペイする」という、経済合理性に基づいたantirez氏の判断を裏付けています。

ローカル推論の常識を覆すds4の三つの革新

ds4は、従来のローカルLLM推論の常識を覆す、三つの画期的なアプローチを採用しています。

ディスクKVキャッシュによる高速化と永続化

従来のLLM推論において、KVキャッシュは通常、高速なRAM上に一時的に保持されるものとされていました。セッションが終了すればRAMから消去され、次のリクエスト時には再度プリフィル（プロンプト処理）からやり直すのが一般的です。しかし、antirez氏は「DeepSeek V4 Flashの圧縮されたKVキャッシュと、最新MacBookの高速SSDを組み合わせれば、KVキャッシュはRAMに属するという考え方を変えるべきだ」と主張します。

ds4-serverは、この思想を具現化し、KVキャッシュを「ディスクの第一級市民」として扱います。プロンプトのトークン列をSHA1でキー化し、<sha1>.kvというシンプルなファイル名でSSDに保存します。これにより、コールドスタート時、会話継続中、他のセッションへの退避時、そして終了時といった4つのタイミングでKVキャッシュが自動的にセーブ・ロードされます。この仕組みは、特に長文のプロンプトやシステムプロンプトを繰り返し利用するAIエージェントにおいて、劇的な応答速度の向上をもたらします。

非対称2-bit量子化：品質とサイズの最適解

LLMの量子化は、モデルのサイズを削減し、メモリ使用量を抑えるための重要な技術ですが、一般的には品質劣化とのトレードオフが課題となります。ds4の量子化アプローチは、この課題に対して非常に巧妙な解決策を提示しています。それは、モデル全体を均等に2-bitに圧縮するのではなく、MoEモデルの特性を活かした「非対称な」切り分けです。

具体的には、モデル容量の大部分を占めるMoEエキスパートのうち、ルーティング先のアップ（up）/ゲート（gate）部分には超低ビットのIQ2_XXS（2-bit）を適用し、ダウン（down）部分にはQ2_K（2-bit）を適用します。一方で、量子化に弱いとされる注意機構のプロジェクション層やルーティング層、共有エキスパート、出力層などは、Q8_0またはF16といった高精度なフォーマットを維持します。KVキャッシュ圧縮器やインデクサーも高精度のままです。

この戦略により、モデル全体のサイズは284Bという巨大さにもかかわらず約81GBに収まり、128GBのMacBook Proで「実用ギリギリ」のラインで動作可能となります。品質劣化を最小限に抑えつつ、物理的なメモリ制約をクリアするという、まさに絶妙なバランスを実現しているのです。

エージェント連携を見据えたエンドツーエンド設計

ds4は、単なる推論エンジンにとどまらず、AIエージェントとの連携までを視野に入れた設計がなされています。ds4-serverは、OpenAI互換の/v1/chat/completionsエンドポイントだけでなく、Anthropic互換の/v1/messagesエンドポイントも実装しています。これにより、Claude Codeやopencode、Piといった既存のローカルエージェントクライアントを、特別な改修なしにds4のバックエンドとして利用することが可能になります。

antirez氏は、ローカル推論の理想形を「A) HTTP APIを備えた推論エンジン + B) 特定のエンジンで最適に動作するよう特別に作られたGGUF + C) コーディングエージェント実装によるテストと検証」の三位一体と定義しています。ds4は、この三つの要素すべてを「箱から出してすぐに使える」完成度で提供することを目指しており、ユーザーがローカルAIエージェントを構築・運用する上での障壁を大きく下げるものです。

M4 Max 128GB MacBook Proで体感するds4の驚異的なパフォーマンス

元記事の筆者は、手元のM4 Max 128GB MacBook Proでds4を実際にビルドし、DeepSeek V4 Flashモデルをダウンロードしてその性能を検証しました。この実機検証は、ds4が謳う革新的な機能が、現実の環境でどれほどの効果を発揮するのかを明らかにするものです。

ビルドとモデルダウンロードの容易さ

ds4の導入は驚くほど簡単です。GitHubからリポジトリをクローンし、makeコマンドを一度実行するだけで、わずか10秒足らずでds4とds4-serverの二つのバイナリが生成されます。モデルのダウンロードも、専用のスクリプトdownload_model.sh q2を実行するだけで、約81GBのDeepSeek V4 Flash GGUFファイルがHugging Faceから直接取得できます。筆者の環境では、約20分でダウンロードが完了したと報告されており、大規模モデルの導入としては非常に手軽な部類に入ります。

推論速度のベンチマーク

検証では、Metalバックエンドを使用し、--nothinkオプション、greedyデコーディング、出力256トークンという条件で推論速度が測定されました。M4 Max 128GB MacBook Proでの結果は以下の通りです。

条件	プロンプト処理（t/s）	生成速度（t/s）
短い挨拶（cold start含む）	22.69	23.42
コード生成 fibonacci(20)	49.36	31.14
thinkingモード／中問題	80.34	31.80

この結果は、READMEに記載されているM3 Max 128GBの公称値（短プロンプト：プリフィル58.52 t/s / 生成26.68 t/s）と比較して、M4 Maxでは生成速度が約17%向上していることを示しています。特に、284億パラメータという巨大なモデルをノートPCでこの速度で動かせるのは、驚異的と言えるでしょう。コールド起動時にはMetal residency requestに約30秒かかるものの、その後のリクエストはmmapキャッシュが効き、0.5秒以内で立ち上がるため、実用上の問題はほとんどありません。

ディスクKVキャッシュの劇的な効果

ds4の目玉機能であるディスクKVキャッシュの効果は、同じ1364トークンのプロンプトを連続で2回実行することで測定されました。その結果は以下の通りです。

回数	プリフィル時間	総処理時間	備考
1回目（cold）	4.813秒	5.129秒	KVを40.77 MiBディスク保存
2回目（cache hit）	0.000秒	0.282秒	ディスクから5.5msでロード

キャッシュヒット時には、プリフィル処理が完全にスキップされ、ディスクからKVキャッシュがわずか5.5msで復元されています。これにより、初回実行と比較して18倍もの高速化が実現しました。Claude Codeのようなエージェントが初回に送る25,000トークンものシステムプロンプトに対して、毎回4.8秒待たされるか、5msで済むかの違いは、ローカルAIエージェントの運用体験を根本的に変えるレベルのインパクトがあります。

出力品質の確認

数値的なパフォーマンスだけでなく、DeepSeek V4 Flashの出力品質も検証されました。コード生成では、fibonacci(20)の計算を正確に行うコードを生成し、期待通りの6765という結果を導き出しました。また、算数の文章題（時刻と速度の合流問題）では、Thinkingモードで「相対速度の和」「最初の30分のリードタイム」「合流地点」といった要素を順に分解して思考する挙動が確認できました。READMEで強調されている「thinkingセクションが問題複雑度に比例して短い」という特性も、実機でその通りであることが裏付けられています。

HTTP APIの動作確認

ds4-serverは、127.0.0.1:8000で起動し、OpenAI互換の/v1/chat/completionsとAnthropic互換の/v1/messagesの両エンドポイントが正常に動作することが確認されました。モデルリストの取得、ストリーム/非ストリーム応答、tool_callsの整合性、Anthropicのcontent blocks/stop_reasonなど、主要な機能が設計通りに動作することが検証されています。

自作AIエージェント「mazzai」への統合と可能性の広がり

元記事の筆者は、自身が開発・利用しているローカルAIエージェント環境「mazzai」（FastAPI + Ollamaベース）にds4を統合する試みを行いました。mazzaiは元々、gpt-oss:20b-longやgemma4といったOllamaモデルを切り替える仕組みを持っていますが、ここにDeepSeek V4 Flashを新たな選択肢として加えることに成功しました。

ds4-serverはOpenAI互換のAPIを提供しますが、mazzaiはOllama互換の会話形式を前提としているため、両者の微妙な違いを吸収するディスパッチ層をmazzai内部に追加しました。具体的には、OpenAI形式のSSE（Server-Sent Events）をmazzaiの内部SSE形式に変換するコードを約100行ほど記述し、tool_callsがストリーム中に断片で届いても、適切に集約してReActループに引き渡せるようにしました。

この統合により、mazzaiの持つrun_python、web_search、get_news、shellといったツールを、DeepSeek V4 FlashがOpenAI tool_calls形式で呼び出し、その結果を受け取ってさらに応答するという一連のループが完全に機能するようになりました。これにより、Ollamaの既存モデルと並んでDeepSeek V4 Flashが利用できる環境が構築され、ローカルAIエージェントの選択肢が大きく広がりました。

さらに、筆者の妻のAIアバターと音声対話する仕組みにもDeepSeek V4 Flashを組み込むことができ、その大規模LLMならではの発言内容の質の高さが確認されました。これは、ds4とDeepSeek V4 Flashの組み合わせが、単なる技術的な検証にとどまらず、よりパーソナルで豊かなAI体験を実現する可能性を示唆しています。

ds4が提示するローカルAIの新たな方向性

ds4の登場は、ローカルAI推論の分野に新たな競争軸と方向性をもたらすものとして注目されます。

汎用性から特化型へのシフト：賢明な「狭い賭け」

ds4は、汎用的なLLMエンジンが抱える複雑性や性能の妥協を排し、特定のモデルとハードウェアの組み合わせに特化することで、突き抜けた完成度を実現しました。この「あえて狭く賭ける」というantirez氏の戦略は、ローカルAIの進化において、単なる「速度の倍率」だけでなく、「エンドツーエンドの完成度」や「特定のユースケースへの最適化」が重要な競争軸になりつつあることを示唆しています。

1年前には冗談としか思えなかった「284億パラメータの巨大モデルがノートPCで実用的なAIエージェントとして動く」という光景が、ds4によって現実のものとなりました。これは、特定の技術スタックに深くコミットすることで、従来の常識を打ち破るパフォーマンスと体験を提供できる可能性を示しています。

Apple Silicon Macのポテンシャル再評価と課題

ds4の成功は、Apple Silicon Macが持つ高性能な統一メモリ、高速なSSD、そしてMetalフレームワークの最適化能力が、大規模なローカルAI推論において極めて強力なプラットフォームであることを改めて証明しました。特に128GBという大容量メモリは、DeepSeek V4 Flashのような巨大なMoEモデルを効率的に動作させる上で不可欠な要素であり、今後のAI時代におけるMacの優位性を確立する一因となるでしょう。

一方で、記事では、これだけ大容量メモリ搭載Macの需要が高まっているにもかかわらず、製品構成としては縮小傾向にあるという課題も指摘されています。M3 Ultraや将来のM5世代を含むMacの新しいラインアップにおいて、さらなる大容量メモリオプションの拡充が期待されます。ds4のようなプロジェクトの登場は、Appleに対して、高性能なMacの潜在的な需要を再認識させるきっかけとなるかもしれません。

こんな人におすすめ

最新の高性能MacBook Pro（特に128GBメモリ搭載モデル）を所有し、その能力を最大限に活用したいと考えている人。
プライバシーを重視し、大規模なAIモデルをクラウドサービスに依存せず、自身のローカル環境で実行したい人。
AIエージェントの自作やカスタマイズに興味があり、最先端の大規模モデルを試したいと考えている開発者。
インターネット接続がない環境や、特定のセキュリティ要件下でAIを活用する必要があるプロフェッショナル。
DeepSeek V4 Flashの高度な推論能力や長文コンテキスト処理能力を、手元のMacで体験したい人。

よくある質問

ds4は他のLLMモデルにも対応するのか？

現時点では、ds4はDeepSeek V4 Flashモデル専用に設計されています。開発者であるantirez氏は、意図的に「一つのモデルに特化する」という方針を掲げています。将来的には、antirez氏が「狭く賭ける価値がある」と判断した別のモデルに対応する可能性はありますが、汎用的なLLMローダーのように多種多様なモデルをサポートする予定はありません。

合わせて読みたい Wiiを現代のテレビで！コロンバスサークル製HDMIコンバーターに待望のブラックが登場

ds4はWindowsやLinuxでも使えるのか？

ds4はApple Silicon MacのMetalフレームワーク専用に開発されており、現時点ではWindowsやLinuxでの動作はサポートされていません。READMEにはCUDA対応が「いずれやるかも」という言及がありますが、優先度は低いようです。また、CPUバックエンドはmacOSの仮想記憶バグでカーネルがクラッシュする可能性があるため、事実上Metal専用とされています。

なぜ128GBものメモリが必要なのか？

ds4がターゲットとするDeepSeek V4 Flashは、284億パラメータを持つ巨大なMoE（Mixture of Experts）モデルです。ds4は特殊な2-bit量子化技術を用いてモデルサイズを約81GBに圧縮していますが、それでもこの大規模なモデルを効率的にメモリに展開し、高速に推論するためには、128GBという大容量の統一メモリが不可欠となります。これにより、モデルの品質を維持しつつ、実用的なパフォーマンスを実現しています。

ds4は商用利用できるのか？

ds4はGitHubで公開されており、ライセンス情報に基づいて利用可能です。DeepSeek V4 Flashモデル自体のライセンスも確認する必要がありますが、一般的にオープンソースのLLMエンジンとモデルは、それぞれのライセンス条件に従えば商用利用が可能な場合があります。具体的な利用を検討する際は、ds4およびDeepSeek V4 Flashの公式リポジトリでライセンス条項を必ずご確認ください。

まとめ

Redisの作者であるantirez氏が開発したMac専用LLMエンジン「ds4」は、128GB以上のメモリを搭載したApple Silicon Macにおいて、DeepSeek V4 Flashという巨大なモデルをローカルで実用的に動作させる画期的なソリューションです。KVキャッシュのディスク永続化、非対称2-bit量子化、エージェント連携を見据えたエンドツーエンド設計といった革新的なアプローチにより、従来のローカルAIの限界を大きく押し広げました。M4 Max MacBook Proでの実機検証では、その高速な推論速度と劇的なキャッシュ効果が証明され、自作AIエージェントへの統合も容易であることが示されています。ds4は、汎用性よりも特化型のアプローチがもたらす実用性の高さと、Apple Silicon Macの秘めたるポテンシャルを再評価させる、ローカルAIの新たな潮目を象徴する存在と言えるでしょう。

情報元：テクノエッジ TechnoEdge