首页
学习
活动
专区
圈层
工具
发布
综合排序最热优先最新优先
时间不限
Agent Harness
业界共识公式:Agent = Model(大模型)+ Harness(驾驭层) 为什么叫 Harness? 类比帮助理解 Model = CPU,Harness = 操作系统(OS)——CPU 再强没有 OS 也跑不了应用 Model = 主厨大脑(决定怎么做菜),Harness = 厨房+炉灶+帮厨( 真正点火翻面装盘) Claude Code / Cursor Agent / OpenCode 本质上就是围绕某模型构建的 Agent Harness,所以同一模型配上不同 Harness 体验差异巨大 一句话:Harness 就是把"会说话的大模型"变成"能干活的自主智能体"的工程运行时。​ 如果想看最小可运行的 Harness Loop 代码示例(Python 伪代码),我可以给你写一版
lpp31
2026-06-11
1120
标签:
Agent Harness
Harness Agent(或称 Agent Harness)​ 不是某个具体产品名,而是指给大模型套上"工程外壳"后形成的、可自主执行任务的完整智能体系统。 核心定义 业界共识公式: Agent = Model(大模型)+ Harness(驾驭层/运行框架)Model:负责推理、理解、生成文本(LLM 本身只会 input→output)Harness:模型之外的一切工程设施 Harness 阶段:你说"修复登录 Bug 并跑测试",Harness 自动拆任务→读代码→改文件→跑测试→看结果→再修正,直到完成或触发人工介入。 一句话理解 裸 LLM 是"会说话的引擎",Harness 是"方向盘+刹车+仪表盘+道路规则",二者结合才是能上路干活的 Harness Agent(完整智能体)。 开发重点从"调模型"变成了"设计好 Harness 让模型可靠自主地工作"。
lpp31
2026-06-11
3040
标签:
Harness Engineering
同一模型,仅改变 Harness 设计,编码基准测试分数可从 6.7% 跃升至 68.3%。 一、核心定义:什么是 Harness Engineering? 对任务最优的 Harness 不一定是其训练时使用的那套。4.2 模型升级后 Harness 应简化Harness 中的所有组件都基于一个假设:"模型自己做不到这个"。 Harness的检验维度WebArena可独立部署的网页环境,评估自主 Agent网页面向 Harness 设计的可复现基线VisualWebArena扩展 WebArena,增加图像和截图输入Harness 为大规模评估和改进 Agent 设计的通用 Harness,随 Terminal-Bench 2.0 发布基准测试、Harness 比较SWE-agent成熟的科研编码 Agent,Harness、Prompt Harness Engineering(2026-05-21)开源资源awesome-harness-engineering(2.9k ⭐)learn-harness-engineeringAGENTS.md
wuyangming
2026-06-09
3210
标签:
Agent = Model + Harness:模型决定上限Harness 决定下限
Harness 就是这一层 OS它给模型一个结构化的运行环境,并负责模型和外部世界之间每一次交互的中介。 Claude Code 是一个 Harness。Trae 是一个 Harness。 编码 Agent Harness 的七个组件 Harness 不是一块单一的基础设施而是一层一层叠起来的能力栈。每个 AI 编码 Harness,不管包的是哪个模型,都会以某种形式提供下面这七层。 为什么 Harness 比模型有更大的杠杆 模型决定输出质量的上限。Harness 决定下限。 两者都是能力不错的 Harness,各自包着能力不错的模型。问题不在哪个 Harness 更聪明,而是是哪一层治理在指挥这个 Harness;以及换工具的时候,那一层治理能不能跟着迁移过去。 Harness 读取治理层。治理层不关心是哪一个 Harness 在读它。 这就是理解 Harness 是什么所带来的结构性结论:治理层和 Harness 是可分离的。Harness 执行,治理指挥。
deephub
2026-05-20
2730
标签:
harness工程演进
这就是harness的价值。 harness是一套帮助Agent稳定可靠运行的闭环系统。 它就像一套让Agent自动运行的FSD,具备了全链路监控与持续优化的能力。 这就引出了什么样的agent架构需要harness,显而易见的是高度自治的agent需要,harness就是给系统套上了安全带(比如状态记录/断点恢复/避免重复等)。 在完成以上harness需求之后,harness工程已经开始变得越来越复杂了,这就回到了软件工程的问题上了,即模型推理/工具执行/运行循环/任务日志应该如何解耦。 langchain发表过一篇文章,harness可以显著提升agent的基准表现。 以上这些东西加起来,组成了需要的harness架构,大概是这样: Harness需要回答的是能更好地组织长任务状态?能让工具更容易被模型稳定调用?能更安全地放大自治能力?
春哥大魔王
2026-06-04
1340
标签:
Harness 的核心骨架
我们可以把 Agent Harness 想象成一个 "微型的操作系统内核",它主要干三件事:调度、约束、兜底。 一、Harness 的核心骨架(抽象模型) 不管你是做 AI Coding、AI Ops 还是 AI 客服,一个成熟 Harness 通常长这样: ┌───────────────┐ │ Planner 二、为什么很多团队卡在 Spec,迈不过 Harness? 因为 Harness 是工程问题,不是 Prompt 问题: 难点 说明 上下文爆炸 几万行代码一塞就爆 token,需要裁剪 / RAG 失败恢复 Agent 改错代码怎么办? 如果你是在看技术选型 / 写方案 / 评估平台,可以用这三个问题快速判断对方是不是真的到了 Harness 阶段: 有没有 Agent Loop?
lpp31
2026-06-12
430
标签:
AgentScope Java :Harness Framework
AgentScope Java :Harness Framework 一套代码,从个人助手走到企业级 Agent 过去一年,OpenClaw、Hermes、Claude Code 把 Harness Engineering 分布式环境下,"本地文件系统"这个假设不成立 Multi-Agent 子任务编排,复杂度失控 上下文压缩和分层记忆,没有现成实现 AgentScope Java 1.1.0 的 Harness Framework 核心设计:两个支柱 支柱一:Workspace 作为唯一事实来源 Harness 为每个 Agent 引入 workspace——一个结构化目录,承载全部持久化内容: workspace/ ├── AGENTS.md Harness 核心架构图 支柱二:AbstractFilesystem 本地磁盘目录在分布式场景下行不通。多个 Pod 各有一块本地盘,谁的 MEMORY.md 才是真的? Harness 用 AbstractFilesystem 抽象层解决: // 上层只关心统一接口 filesystem.read(path) filesystem.write(path, content
javpower
2026-05-15
8600
标签:
Agent 系列(三):Harness Engineering
Harness Engineering 从 Prompt Engineering 到 Context Engineering,再到 Harness Engineering,AI 工程的重心,正在从 “怎么把话说对 这也是 Harness Engineering 开始被频繁提起的背景。 二、Harness Engineering 到底是什么 通俗来说,Harness Engineering 就是围绕 AI Agent 搭建一整套 “可执行、可验证、可约束、可迭代” 的外层运行系统。 模型是 CPU,Harness 才是真正的操作系统。 前两者主要关注模型的输入,而 Harness 关注模型的生存环境。
磊叔的技术博客
2026-03-30
4K0
标签:
Harness engineering
* **Harness Engineering(驾驭工程)**:Harness 的本意是“马具/挽具”(比如套在马身上用来拉车的皮带),或者指“驾驭自然力量”(如 Harness the power * **Harness 作用于“基础设施与外围(Infrastructure)”**:它几乎涵盖了**除了模型自身权重以外的一切**。 * **Harness Engineering** 是为了 **AI Agent(智能体)** 诞生的。 Harness Engineering 提供的是“状态持久化”、“错误阻断”和“多步规划的脚手架”。 ### 4. 工程化成熟度的区别:手工作坊 vs. * **Harness Engineering 本质上是把 DevOps 的思想引入到了 AI 领域**。
扶墙老师
2026-03-31
2520
标签:
Harness Engineering:AICode 的灵魂
1.2 当前版本:基于 Harness Engineering 的重构直到 Harness Engineering 方法论的引入,A2UI 才真正找到了自己的"灵魂"。 2.3 阶段三:Harness 式驾驭(Harness-Driven)Harness Engineering 代表了 AICode 的第三个阶段。 Harness Engineering:从"祈祷式编程"到"驾驭式工程"3.1 什么是 Harness Engineering? Harness 五层模型:给 AI 装上"缰绳"与"仪表盘"在 A2UI 的重构中,我们设计了 Harness 五层模型:图 3:Harness 五层模型 —— 从意图理解到反馈学习的完整驾驭体系4.1 随着多模态模型、Agent 系统、AutoML 的发展,Harness 的五层模型可以自然扩展:Intent Harness → 多模态意图理解(文本 + 语音 + 草图)Strategy Harness
OneCode
2026-04-30
3120
标签:
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档