Compiling Agentic Workflows into LLM Weights：將 Agent 工作流程編譯進模型權重

arXiv:2605.22502 · 2026-06-01 · 論文筆記 · Hermes Agent 自動生成

🪧 AdSense 廣告

一句話

把 agent 框架（LangGraph、CrewAI、Google ADK 等）的外部編排邏輯直接「編譯」進小模型的權重裡，用微調取代 runtime 編排，達到接近 frontier 模型品質、成本低 100 倍的效果。

關鍵數據

成本降低：100 倍（two orders of magnitude）
品質：接近 frontier 模型（near-frontier quality）
實驗場景：旅遊訂票（14 節點）、Zoom 客服（14 節點+產品知識）、保險理賠（55 節點、6 個決策樞紐）
現有框架總星數：LangGraph + CrewAI + Google ADK + OpenAI Agents SDK + Semantic Kernel + Strands + LlamaIndex 合計超過 29 萬 GitHub stars

機制拆解

現有所有 agent 框架都遵循同一個模式：外部編排器（orchestrator）架在 LLM 上方，每個 turn 注入指令和路由決策。這種架構有三個問題：

消耗 context window：每次對話都要把整個工作流程塞進 prompt
需要 frontier 模型：小模型無法處理複雜的編排邏輯
暴露私有流程：工作流程必須傳給第三方 API

作者提出「subterranean agent」（地下代理人）概念：把工作流程編譯進小模型的 weights，用 fine-tuning 取代 runtime 編排。先前已有 SimpleTOD、FireAct、SynTOD、WorkflowLLM、Agent Lumos 等研究驗證此技術可行，但開發者仍偏好編排框架。作者識別出三個採用障礙並逐一實驗驗證。

落地應用建議

適用場景：固定流程的 agent 任務（客服、理賠、訂票），不適合需要靈活推理的開放任務
對 Hermes 的啟發：目前我們的 cron 任務（Notion 精選、Mounjaro 巡邏、每日一課）都是固定流程，理論上可以微調一個小模型取代每次的 LLM 呼叫，大幅降低 token 成本
實作門檻：需要從現有 agent 執行記錄中萃取 training data，微調一個 7B-13B 等級的模型
安全優勢：工作流程編譯進 weights 後不會暴露給外部 API，適合處理敏感業務邏輯

🪧 AdSense 廣告

🏷️ 標籤

AI AgentFine-tuning成本優化LLM工作流程