V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
NoobNoob030
1D
V2EX  ›  程序员

探讨 Harness Engineering

  •  
  •   NoobNoob030 · 3 月 31 日 · 3345 次点击

    最近被这个概念轰炸了,简中互联网上全是令人费解的吹嘘概念,没有一个实战案例,我今早特意去看了一下Anthropic 的实践文章openai 的实践文章

    A 的三 Agent ( Planner 、Generator 、Evaluator )思路能解决从 0 开始纯 AI 写项目的很多痛点,比如边界模糊、上下文焦虑、自我评估偏差等等。总之就是思路清晰,效果牛逼。

    而 openai 的逻辑大致是 1.把项目文档都放入 docs ,用 AGENTS.md 渐进式披露 2.强制代码架构和风格 3.通过各种姿势让 codex 能读浏览器前后端日志然后自己修 bug 4.加了一个垃圾回收的步骤

    按照我一个菜鸟程序员的直觉,A 的思路我看懂了,openai 的思路不明觉厉,我看完了文章想去尝试 A 的思路,但是我搜了一圈没找到类似的开源 repo ,插件,或者 skill ,有没有大佬锐评一下,或是已有实践给个仓库观摩看看

    第 1 条附言  ·  3 月 31 日
    我不是想造 harness ,我想用现成的 harness 框架,让 AI 从 0 写一个项目,我参与决策,不写代码,编码过程 Agent 高度自驱,我想找个 Anthropic 的三角色的 harness 框架,但是苦于找不到
    30 条回复    2026-04-01 00:25:16 +08:00
    akechiz
        1
    akechiz  
       3 月 31 日
    一直看到这个概念,但是实际上要怎么做,没看到,也没思路
    dsd2077
        2
    dsd2077  
    PRO
       3 月 31 日 via Android
    我个人觉得这东西本身就该由 cc 、codex 、cursor 等工具去思考。把这个概念抛给用户,并没多大意义。(如果炒概念也算的话)
    jaysonmac
        3
    jaysonmac  
       3 月 31 日
    Anthropic 的方案类似 code <--> review 迭代开发,不断优化
    OpenAI 的方案类似把巨大的 Project 拆解成多个 Sprint 敏捷开发,让 Agent 不会因为项目太大文档太多找不着北

    (手动狗头)
    catazshadow
        4
    catazshadow  
       3 月 31 日 via Android
    《随机数发生器使用指南》
    bytesfold
        5
    bytesfold  
       3 月 31 日 via iPhone
    我好像已经实践了,效果很好;
    可以先写个基础的版本,让它设计、编码、测试与迭代。
    类似于 OpenAI 的渐进式披露。

    我也不确定对不对
    zhangli2946
        6
    zhangli2946  
       3 月 31 日
    vibe 跟 harness 的差别我觉得主要在人的位置.

    harness 中人几乎可以不参与开发过程.
    vibe 中人几乎可以不离开开发过程.
    v2er119
        7
    v2er119  
       3 月 31 日
    就是开发过程工程化的方法论,只能算是过度概念吧。
    Yasuke
        8
    Yasuke  
       3 月 31 日
    gsd 、openspec 、speckit
    infoscope
        9
    infoscope  
       3 月 31 日 via iPhone
    搞各种花活,让 token 燃烧起来
    shineonme
        10
    shineonme  
       3 月 31 日   ❤️ 4
    不清楚你想要尝试的是构建一个 Harness 还是更好的驾驭 Harness ,
    这里有一个从 0 到 1 构建一个类似于 Claude Code 的项目,很推荐这个作为入门,
    12 小节内容,阶梯进展,简单清晰,还附带有一个交互式 Web 平台和每节练习代码,很用心了,
    https://github.com/shareAI-lab/learn-claude-code
    clemente
        11
    clemente  
       3 月 31 日
    其实就是 环境能够模拟仿真真实的生产环境

    让 ai 自己去 loop 迭代
    Kirbyyang951
        12
    Kirbyyang951  
       3 月 31 日
    Harness 不是开发 Agent 工具要考虑的吗,比如 claude code 本身开发这个 Mcp ,skills ,就是一种 harness 思路,为了提高 Agent 的跑分或者准确率,用 AI 工具开发普通项目怎么 Harness ,这个没理解。
    NoobNoob030
        13
    NoobNoob030  
    OP
       3 月 31 日
    我想按照 Anthropic 的实践方式,从 0 让 AI 自驱写一个项目,找到 https://github.com/code-yeongyu/oh-my-openagent/tree/devhttps://github.com/snarktank/ralph ,这俩项目都是有各自自驱实现任务的思路,但是跟文章中三角色的思路有偏差
    beimenjun
        14
    beimenjun  
    PRO
       3 月 31 日
    要说 Harness Engineering ,首先要说另外几个概念,分别是 Prompt Engineering 和 Context Engineering 。其实并不是一个全新的概念。但是 Prompt -> Context -> Harness 这一路过来,其实是很难分出一个准确的分界,因为模型的能力和围绕模型的框架建构,是在日夜不停的迭代进化的。

    新模型配老框架叫做吕布骑狗,老模型放在新框架大概率也提升不了啥。

    Harness Engineering 重点从以前的让模型更好的输出内容,转向如何使其在任务运行层面更好的完成任务:怎么拆任务,怎么验证,怎么控制上下文,怎么给 LLM 提供好的环境,全部都是需要根据实际模型能力来解决的问题。

    上面说的这些概念,其实之前全部都有,只是现在模型能力提升,要进一步成体系的重视了。
    Lin0936
        15
    Lin0936  
       3 月 31 日   ❤️ 1
    hxzhouh1
        16
    hxzhouh1  
       3 月 31 日   ❤️ 1
    matafu
        17
    matafu  
       3 月 31 日
    看上去 GPT 在 Agent.MD 里边做的事情跟 Cloude Code 在 Memory 里边做的事情差不多。
    lovedeepl
        18
    lovedeepl  
       3 月 31 日
    让 AI 自己管理 AI
    Lemonadeccc
        19
    Lemonadeccc  
       3 月 31 日
    我也看了 harness ,也不是很明白。
    但是后来实践之后。想把团队规范、代码风格之类的写在项目文档里,然后某一个更改之后形成 summary 放在文档里面,包括选型、潜在边界情况、分支以及简单的 summary 等等。维护起来。编码的时候遵循 plan -> execute -> 多轮交叉 review -> 优化 等等。也不知道自己探索的这部分能不能叫 harness
    Alex6
        20
    Alex6  
       3 月 31 日
    现实中团队的各种角色通过敏捷迭代来管理、把控、实现项目。那么把 AI 大模型想象成人,但是现在缺少一个工作方法让这些 AI 合作完成项目,我想这个方法就是叫 harness 吧。是一种面向 AI 的工程实践。
    kenshinhu
        21
    kenshinhu  
       3 月 31 日
    @bytesfold 对比这前的 spec-kit 之类,有什麼差异點?
    meeop
        22
    meeop  
       3 月 31 日
    你要是重度使用 ai 开发的话,构建自己的 harness 是个自然而然的事

    harness 其实就是构建在 agent 之上,应用业务逻辑之下的一层。你直接让 agent 开发,肯定会遇到诸如此类的问题:
    1 你原始 prompt 没说清楚(包括但不限于,代码规范,技术栈,方案路线,开发流程,质检策略)
    2 上下文丢失或者人工补充上下文 (你需要每轮都提示 ai ,请阅读 xx ,请按照如下方法做,请如何检索)
    3 无法长时间运行或者无法完成复杂高标准任务(因为缺少规划,执行,审核结果,反馈迭代循环)

    这些问题的解决方法就是 harness ,比如高速 agent 遵守哪些文档,开发流程和项目架构,要如何测试和质检,搭建测试和事实观测工具等等
    meeop
        23
    meeop  
       3 月 31 日
    其实也没有发明任何新的东西,现实是怎么开发的,agent 就应该怎么开发,harness 是补充 prompt 之外的这些开发上下文,协作机制
    maichael
        24
    maichael  
       3 月 31 日
    其实就是给 Agent 的「开发流程管理」,可以叫「赛博开发流程管理」
    CziL
        25
    CziL  
       3 月 31 日
    如果你现在在用 cc ,就已经在用 Harness 了,它已经内置了该功能,特别是在 plan mode 模式下
    chairuosen
        26
    chairuosen  
       3 月 31 日
    我的理解是,对 AI 的约束从 prompt 的固定提示词约束,到 context 的动态提示词约束,到 harness 的全生命周期约束。比如我最近搞自己中转站,发现 claudecode 发的请求,大部分工具调用的结果,比如读文件,还会附带一个<system-reminder>,里面是对读文件的技巧以及下一步操作的提示,相当于用工程的方式去在执行层面每一步进一步对 AI 有个约束和引导
    xiaozhaoz
        27
    xiaozhaoz  
       3 月 31 日
    感觉是 ai 自己在造各种垃圾概念。

    superpowers 和 gstack 不也在做类似的事情?
    bytesfold
        28
    bytesfold  
       3 月 31 日
    @kenshinhu spec-kit 只是对齐,harness 是创建环境让 AI 去做去实践,最终验收
    kenshinhu
        29
    kenshinhu  
       1 天前
    @bytesfold 关于 harness 还有一个地方请教一下,当成品出来后会有完善的边界资料让 AI 去迭代吗?针对新的需求内容是以 spec/ rpd 方式加入还是直接 vibe ?
    bytesfold
        30
    bytesfold  
       1 天前 via iPhone
    @kenshinhu harness 提供上下文:需求背景,必备的内容,边界约束;
    提尽量明确的需求,AI 决定怎么做,走不走 spec ,更新那些文档,交付的内容,验收的规范。

    说这么多人要啥就给 AI 啥,AI 交付的不对就问原因反哺;总之 AI 做不好就是 harness 不够,是要循环迭代起来。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1053 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 18:30 · PVG 02:30 · LAX 11:30 · JFK 14:30
    ♥ Do have faith in what you're doing.