暂无搜索历史
按理说,一个能自主读代码、跨文件编辑、跑测试、修bug、提PR的coding agent,底层应该有一套相当复杂的调度系统。状态机、有向无环图、任务规划器、多步...
石化盈科信息技术有限责任公司 | 算法工程师 (已认证)
做agent的人都有一个体感,模型选好了、工具接好了、架构搭好了,最后效果好不好,往往取决于那份技能文件写得好不好。就是system prompt加上各种指令、...
这个感觉从今年年初就开始冒头,到最近越来越明确。以前的一天是这样的,打开IDE写代码、跑测试、改bug、写文档、查资料、写方案。每一样都有具体的产出物,comm...
前几天 X 上看到一条推,有个研究员说自己「最近在 latent space 里漫游」,评论区一半人当真,一半人开始整活。这词已经被甩到玄学味儿出来了,但凡饭局...
2017年「Attention is All You Need」那篇论文奠定了现代大模型的地基,但也埋下了一个从第一天起就存在的硬伤,自注意力的计算复杂度是序列...
Claude Code上线9个月跑到25亿美元年化营收,写了GitHub上4%的commit,71%的AI agent用户选了它。这组数字在3月底被扒出来之后,...
去年5月,Every的CEO Dan Shipper在Lenny播客上抛出过一个当时几乎没人当真的押注,提出Claude Code那个还没正式出圈的命令行Age...
按理说一款2014年在日本上市、原本只用来治青光眼的眼药水,不该在2026年的Nature上被重新讲一次。
去年5月DeepMind把AlphaEvolve那篇博客挂出来的时候,引起了不小轰动。一个用Gemini驱动的进化式编码agent,把Strassen 1969...
前天上海下了点雨,2026 IEEE ISCAS的会场里何庭波站在讲台上,一张PPT切到正中间,τ这个希腊字母占了大半个屏幕。朋友圈里一票做芯片的,连夜在群里转...
大语言模型(LLM)推理服务正从“模型精度的竞赛”转向“系统效率的比拼”。当模型能力趋同,推理延迟与吞吐量的优化成为大模型规模化落地的关键瓶颈。然而,传统负载均...
苏剑林在回忆录里写得很坦诚:“‘Depth Attention’或者说‘Layer Attention’是一个毫无新意的想法,但如何将它用于足够大的模型,作为R...
最近跟一些做产品的朋友聊天,发现大家的焦虑出奇地集中:AI 什么都能干了,那我该干什么?设计师该不该写代码?PM 要不要自己做原型?角色边界越来越模糊,到底往哪...
技能(Skills)正在成为支架工程中连接大语言模型智能体与结构化领域知识的关键抽象。不同于松散的提示词和原子化的工具调用,技能将复杂的多步操作固化为可组合、可...
支架工程(Harness Engineering)是一门新兴的架构学科,其核心目标是围绕 AI 智能体(Agent)构建一套结构化的运行环境——“支架”——通过...
Anthropic 最近发了份报告,调研了 81,000 个 Claude 用户,想搞清楚一件事:那些后台数据里被 AI 渗透最深的职业,从业者自己怎么想。
论文:Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills ...
在当前企业级智能体的演进路径中,我们正见证一场从“经验驱动”向“知识驱动”的本质变革。
最近业界对 Harness的关注异常高涨。问题是,Harness 至今基本靠手工调参——工程师盯着 bad case,改几行 Prompt,跑一遍测试,不行再改...
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址