Ollama DiffusionGemma
日期:2026-06-12
結論狀態:依目前公開文件與模型卡整理,後續可能隨 llama.cpp / Ollama runner 更新而改變。
1. 結論
目前不建議用一般版 Ollama 跑 DiffusionGemma;標準 Ollama 流程基本上不能穩定/正常支援 DiffusionGemma。
建議操作:
要做服務化或比較正式測試:用 vLLM。
要跑 GGUF 本機 CLI:用 DiffusionGemma 專用 llama.cpp PR 分支,加
llama-diffusion-cli。只想用 Ollama 跑 Gemma 系列:改跑一般 Gemma 4,例如
gemma4或gemma4:26b,但那不是 DiffusionGemma。
簡單判斷:
需求 | 建議做法 | 備註 |
|---|---|---|
跑 DiffusionGemma 測試 / serving | vLLM | 目前較適合,已有 DiffusionGemma 支援與部署 recipe |
跑 GGUF 本機 CLI | llama.cpp PR #24423 + | 標準 |
用 Ollama 一行指令跑 | 暫不建議 | 一般 Ollama runner 不支援 DiffusionGemma 的 diffusion decoding |
只想跑 Gemma 類模型 |
| 這是一般 Gemma 4,不是 DiffusionGemma |
2. 為什麼 Ollama 不適合直接跑
DiffusionGemma 不是一般 autoregressive LLM。一般 LLM 是由左到右逐 token 產生;DiffusionGemma 是文字 diffusion / block diffusion 模型,會把一段 token canvas 反覆 denoise,再提交成輸出。
DiffusionGemma 的推論路徑需要:
bidirectional attention;
iterative denoising / refinement;
block-based generation;
diffusion 專用 sampler;
encoder / decoder phase 的狀態切換;
對 256-token canvas 的特殊處理。
所以問題不是單純「有沒有 GGUF 檔」而已,而是 runner 必須支援 DiffusionGemma 的 decoding loop。
3. DiffusionGemma 模型重點
DiffusionGemma 是 Google DeepMind 發布的實驗性 open-weight 文字生成模型,基於 Gemma 4 26B A4B Mixture-of-Experts 架構。它採用 discrete diffusion 產生文字,支援文字、圖片、影片輸入,輸出文字。
核心特性:
架構:Gemma 4 MoE backbone。
規模:約 26B total / 約 4B active。
生成方式:block diffusion,不是逐 token autoregressive decoding。
Canvas:常見設定為 256 tokens。
適合場景:低 batch、互動式、追求高輸出吞吐的本機或單機 GPU 推論。
注意:它是實驗性模型;品質與穩定性不一定取代一般 Gemma 4。
4. 推薦方案 A:vLLM
vLLM 已有 DiffusionGemma 支援與官方 recipe。這是目前最乾淨的測試方向。
4.1 vLLM Docker 範例
4.2 vLLM OpenAI-compatible client 範例
4.3 vLLM 部署注意事項
vLLM recipe 對 DiffusionGemma 特別建議:
--max-num-seqs 4:避免 diffusion state buffer 太大造成 OOM。--gpu-memory-utilization 0.85:保留 activation / denoising headroom。視需求加入 multimodal、tool-call、reasoning parser 相關參數。
5. 推薦方案 B:llama.cpp DiffusionGemma PR + GGUF
如果目標是跑 GGUF,本機 CLI 測試可用 DiffusionGemma 專用 llama.cpp PR 分支。
5.1 建置 llama.cpp DiffusionGemma 分支
5.2 下載 GGUF
常見量化檔大小可抓概念:
Quant | 約略大小 | 說明 |
|---|---|---|
Q4_K_M | 約 16 GB | 最小、較容易放入消費級 GPU |
Q5_K_M | 約 18 GB | 品質較好 |
Q6_K | 約 21 GB | 更高品質 |
Q8_0 | 約 25 GB | 接近 reference |
BF16 | 約 47 GB | full precision reference |
5.3 執行 CLI
參數說明:
-ngl 99:盡量將 layers offload 到 GPU。-cnv:conversation mode。-n 2048:目標輸出 token 數。--diffusion-visual:顯示 canvas denoise 過程。
6. Ollama 可以跑什麼?
Ollama 官方 library 有一般 Gemma 4,例如:
或指定版本:
但這是一般 Gemma 4 模型,不是 DiffusionGemma。若你的需求是「在 Ollama 裡用 Gemma 系列做日常推論」,用 gemma4 是合理選項;若需求明確是 DiffusionGemma,就不要把它放進目前的 Ollama production 流程。
7. 實務建議
7.1 目前建議路線
先用 vLLM Docker 跑通
google/diffusiongemma-26B-A4B-it。若要比較 GGUF / local CLI,再測
unsloth/diffusiongemma-26B-A4B-it-GGUF+llama-diffusion-cli。Ollama 先維持跑一般 Gemma 4,等待後續 runner 支援。
7.2 不建議做法
不建議直接把 DiffusionGemma GGUF 丟給標準 Ollama。
不建議用標準
llama-cli/llama-server測 DiffusionGemma GGUF。不建議把目前 DiffusionGemma + Ollama 當 production 方案。
7.3 何時可以重新評估 Ollama
可以觀察三件事:
llama.cpp DiffusionGemma PR 是否正式 merge 到 master。
Ollama 是否更新底層 llama.cpp runner,並明確標示支援
diffusion-gemma架構。Ollama library 是否出現官方或高可信度的 DiffusionGemma 條目與可重現執行範例。
在這三件事完成前,結論維持: Ollama 不適合作為 DiffusionGemma 的主要執行方式。
8. 參考來源
Google AI for Developers:DiffusionGemma model overview
https://ai.google.dev/gemma/docs/diffusiongemmaGoogle / DiffusionGemma Hugging Face model card
https://huggingface.co/google/diffusiongemma-26B-A4B-itvLLM Blog:DiffusionGemma native support
https://vllm.ai/blog/2026-06-10-diffusion-gemmavLLM Recipe:Google/diffusiongemma-26B-A4B-it
https://recipes.vllm.ai/Google/diffusiongemma-26B-A4B-itUnsloth GGUF README:DiffusionGemma GGUF / llama.cpp PR #24423 / llama-diffusion-cli
https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF/blob/main/README.mdAtomic Chat GGUF model card:DiffusionGemma GGUF compatibility notes
https://huggingface.co/AlexAtomic/diffusiongemma-26B-A4B-it-GGUFOllama library:Gemma 4
https://www.ollama.com/library/gemma4