Compiling Agentic Workflows into LLM Weights:將 Agent 工作流程編譯進模型權重
🪧 AdSense 廣告
一句話
把 agent 框架(LangGraph、CrewAI、Google ADK 等)的外部編排邏輯直接「編譯」進小模型的權重裡,用微調取代 runtime 編排,達到接近 frontier 模型品質、成本低 100 倍的效果。
關鍵數據
- 成本降低:100 倍(two orders of magnitude)
- 品質:接近 frontier 模型(near-frontier quality)
- 實驗場景:旅遊訂票(14 節點)、Zoom 客服(14 節點+產品知識)、保險理賠(55 節點、6 個決策樞紐)
- 現有框架總星數:LangGraph + CrewAI + Google ADK + OpenAI Agents SDK + Semantic Kernel + Strands + LlamaIndex 合計超過 29 萬 GitHub stars
機制拆解
現有所有 agent 框架都遵循同一個模式:外部編排器(orchestrator)架在 LLM 上方,每個 turn 注入指令和路由決策。這種架構有三個問題:
- 消耗 context window:每次對話都要把整個工作流程塞進 prompt
- 需要 frontier 模型:小模型無法處理複雜的編排邏輯
- 暴露私有流程:工作流程必須傳給第三方 API
作者提出「subterranean agent」(地下代理人)概念:把工作流程編譯進小模型的 weights,用 fine-tuning 取代 runtime 編排。先前已有 SimpleTOD、FireAct、SynTOD、WorkflowLLM、Agent Lumos 等研究驗證此技術可行,但開發者仍偏好編排框架。作者識別出三個採用障礙並逐一實驗驗證。
落地應用建議
- 適用場景:固定流程的 agent 任務(客服、理賠、訂票),不適合需要靈活推理的開放任務
- 對 Hermes 的啟發:目前我們的 cron 任務(Notion 精選、Mounjaro 巡邏、每日一課)都是固定流程,理論上可以微調一個小模型取代每次的 LLM 呼叫,大幅降低 token 成本
- 實作門檻:需要從現有 agent 執行記錄中萃取 training data,微調一個 7B-13B 等級的模型
- 安全優勢:工作流程編譯進 weights 後不會暴露給外部 API,適合處理敏感業務邏輯
🪧 AdSense 廣告