35B 級距 Coding Agent 模型比較：Ornith-1.0、Qwen3.6、Gemma 4

如果目標是修 repo、跑 coding agent、處理 SWE-bench 類任務，先評估 Ornith-1.0-35B ；如果目標是企業內部中文助理、SOP 問答、RAG 與多人服務，優先評估 Qwen3.6-35B-A3B ；如果重點在多模態、Google 生態或通用推理，再把 Gemma 4 31B 列入候選。

整理日期：2026-07-01
主要資料來源： Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

一句話結論

35B 級距裡，Ornith-1.0-35B 是 coding agent benchmark 最強；Qwen3.6-35B-A3B 是企業內部實用性最平衡；Gemma 4 31B 則適合多模態與 Google 生態方向的備選評估。

若只比較 coding / agentic coding 能力：

Ornith-1.0-35B
Qwen3.6-35B-A3B
Gemma 4 31B

若從企業內部部署、中文能力、長上下文、成本與 MIS 使用場景綜合判斷：

Qwen3.6-35B-A3B
Ornith-1.0-35B
Gemma 4 31B

官方 benchmark 圖表

下圖是 Deep Reinforce 官方頁面針對 Ornith-1.0-35B 的 LLM performance evaluation。圖中的 Qwen3.6 欄位以官方圖表名稱 Qwen3.6-35B 呈現；實際部署時仍要回到你採用的權重、量化格式與 serving backend 驗證。

三個模型定位

Ornith-1.0-35B

Ornith-1.0 是 Deep Reinforce 推出的 coding agent 專用模型，主打 repository-level coding、terminal task、bug fixing 與 agentic coding workflow。它不是一般聊天模型優先，而是針對 coding agent 後訓練與強化的模型。

適合用途：

程式碼修 bug
Repo-level agent
自動化 coding workflow
OpenHands / Claude Code 類型任務
Shell / terminal 任務
程式碼庫理解與修改

不適合優先用途：

一般中文客服
大量內部文件問答
低成本多人服務
需要多模態或長上下文的企業知識庫

Qwen3.6-35B-A3B

Qwen3.6-35B-A3B 的重點是 35B total / 約 3B active 的 MoE 架構，也就是模型總容量較大，但每個 token 實際啟用的參數較少。這讓它在推理成本與延遲上比較有機會做出實務部署優勢。

適合用途：

中文 MIS 助理
IT Helpdesk 問答
SOP / KB / RAG
AD、M365、網路、資安流程查詢
PowerShell / Python 腳本輔助
長文件分析
內部系統操作說明
多人併發服務

可能限制：

純 coding agent benchmark 略低於 Ornith-1.0-35B
仍需要實測部署框架、量化版本與 GPU / Apple Silicon 配置

Gemma 4 31B

Gemma 4 是 Google DeepMind 的開放模型系列。35B 級距附近可對應 Gemma 4 31B，強項比較偏多模態、數學、推理、長上下文與 Google 生態整合。

適合用途：

圖文理解
多模態問答
文件摘要
通用推理
Google / TPU 生態
輕量或端側部署評估

不適合優先用途：

Repo agent
SWE-bench 類修 bug 任務
Terminal automation
專門 coding agent 工作流

35B 級距 coding benchmark 比較

依 Ornith-1.0 官方頁面列出的同級比較，Ornith-1.0-35B 在多數 coding / agent benchmark 上領先 Qwen3.6-35B 與 Gemma4-31B。

Benchmark	Ornith-1.0-35B	Qwen3.6-35B	Gemma4-31B	判斷
Terminal-Bench 2.1	64.2	52.5	42.1	Ornith 明顯領先
Terminal-Bench 2.1 Claude Code	62.8	49.2	-	Ornith 明顯領先
SWE-Bench Verified	75.6	73.4	52.0	Ornith 小幅領先 Qwen，明顯領先 Gemma
SWE-Bench Pro	50.4	49.5	35.7	Ornith 與 Qwen 接近，Ornith 略高
SWE-Bench Multilingual	69.3	67.2	51.7	Ornith 小幅領先 Qwen
NL2Repo	34.6	29.4	15.5	Ornith 明顯領先
ClawEval Avg	69.8	68.7	48.5	Ornith 小幅領先 Qwen

Ornith-1.0-35B 在 Terminal-Bench、NL2Repo 這類更接近 agent 實作能力的任務上優勢明顯。Qwen3.6-35B 雖然在多數 coding benchmark 略低於 Ornith，但差距並非全面懸殊；再加上 MoE 架構、中文能力與部署成本，企業內部的實務價值仍然很高。

Gemma 4 31B 在 coding agent 任務中明顯落後，但這不代表模型本身弱，而是它的強項不在這組 benchmark。

依使用場景選型

使用場景	建議模型	原因
修 bug、repo agent、SWE-bench 類任務	Ornith-1.0-35B	coding agent benchmark 最強
終端機任務、shell automation	Ornith-1.0-35B	Terminal-Bench 表現最佳
企業內部中文助理	Qwen3.6-35B-A3B	中文、成本、部署彈性較佳
MIS SOP / KB / RAG	Qwen3.6-35B-A3B	長文件與中文問答更適合
PowerShell / Python 腳本輔助	Qwen3.6-35B-A3B 或 Ornith-1.0-35B	一般腳本 Qwen 足夠，複雜 repo 修復 Ornith 更強
多模態圖文理解	Gemma 4 31B 或 Qwen3.6-35B-A3B	Gemma 與 Qwen 都可列入評估
Google 生態 / TPU	Gemma 4 31B	Google 生態整合優勢
多人併發內部服務	Qwen3.6-35B-A3B	約 3B active，推理成本較有利

MIS 場景建議

以企業 MIS 內部使用來看，不要只看單一 benchmark，可以拆成兩種模型角色。

主模型：Qwen3.6-35B-A3B

Qwen3.6-35B-A3B 適合作為內部 AI 助理的主要模型，負責 IT Helpdesk、內部 SOP 查詢、AD / M365 / Exchange / VPN / 防火牆設定說明、PowerShell / Python / SQL 腳本產生、資安事件初步說明、Log 解讀與知識庫 RAG。

選它的主要原因是中文能力、MoE 成本優勢、長文件能力與通用能力比較平衡。企業內部服務通常不是追求單項 benchmark 最高，而是希望穩定、便宜、多人可用，還要能處理中文文件與內部操作脈絡。

專用 coding agent：Ornith-1.0-35B

Ornith-1.0-35B 適合作為第二模型，專門處理程式碼與 repo-level 任務，例如修復內部工具 bug、分析 Git repo、產生 PR patch、解釋大型程式碼庫、自動化 terminal workflow 或重構複雜腳本。

它的價值在於 coding agent benchmark 明顯強，尤其是 Terminal-Bench、SWE-Bench、NL2Repo 這類接近實際 agent 工作流的任務。

輔助評估模型：Gemma 4 31B

Gemma 4 31B 可作為多模態或 Google 生態方向的備選，例如圖片 / 文件混合問答、通用推理、Google 生態整合、TPU 或端側部署測試。

但若目標是 MIS 內部 AI 助理或 coding agent，Gemma 4 31B 不建議作為第一優先。

最終建議

如果只能選一個，選 Qwen3.6-35B-A3B 。原因是它在中文、部署成本、長上下文、通用能力與 coding 能力之間最平衡，對企業內部服務比較像能長期使用的主力模型。

如果可以選兩個，建議組合：

Qwen3.6-35B-A3B ：內部中文助理 / RAG / SOP / Helpdesk 主模型。
Ornith-1.0-35B ：coding agent / repo 修 bug / terminal automation 專用模型。

不建議只因為 Gemma 4 是 Google 系列就優先拿來做 coding agent。Gemma 4 可以評估，但它在目前這組 35B 級距的 coding agent benchmark 中不是最強選項。

參考資料

Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

01 July 2026