新年快乐,推荐下自己个人开发的浏览器扩展的一个筹备了很久了重要功能模块,Agent S6发布beta版
功能类似claude for chrome和gemini auto browse,ai驱动的浏览器自动化,不用登录即可自定义apikey使用,支持各种llm provider,自定义apikey(BYOK)模式下纯前端运行
功能介绍
整个扩展类似各种ai侧边栏助手+claude for chrome这样的agent助手的结合,简单说下其他功能
-
各种模型ai对话-思维链网络搜索/上传文件对话/多选网页标签对话/网页截图对话/网页对话和总结/油管B站视频总结/论文和pdf总结。
烂大街的功能,没什么好说的,自定义apikey使用,网页对话/总结特别之处多个多模态开关,可以根据网页内图片(大图)图文并茂总结。 -
数据抓取器,简单说下要获取网页的什么(主要是结构化数据列表),就能输出为表格并导出为json/xlsx格式。
不是什么大功能,但其中有我的一个小巧思比各种数据抓取库巧妙,看请求能猜到是怎么做的
(纯前端,BYOK) -
Agent S6,本次更新的重要功能,筹备和开发了挺久了(也各种事情耽搁了,为此这个扩展摆烂了好久,上次发帖都快一年了),下面详细说明:
功能类似claude for chrome和各种ai浏览器的网页自动化,简单沟通控制浏览器自动化操作的,同样支持自定义apikey使用,纯前端对话历史/设置/图片文件存储和纯前端请求。
另外可以oauth连接各种第三方apps(gmail/notion/airtable/google sheets等等),实现浏览器自动化和第三方工具的协同,不过这个是基于composio的,apikey在我后端,所以请求第三方apps的那个请求是不能纯前端apikey执行的特别说明~
自卖自夸一下
,Online-Mind2Web测试用例中,使用gemini-3-flash模型测试,达到leaderboard的至少top2水准(虽然很多类似产品不刷榜),和claude for chrome++对比(使用中转站的opus 4.6),成功率更高执行速度更快(哈雷佬的这个不是最新版,我退订claude了就用这个测,欢迎有claude/gemini/comet/fellou/manus等会员的给我对比反馈哈)
使用模型推荐:考虑性价比体验最好的是gemini-3-flash,又快又准,世界知识还丰富,开源的话qwen-3.5-plus体验也很好还便宜(不过偶尔陷入奇怪的动作循环,检查了请求参数和上下文没有问题)。当然最划算是用中转站的白菜价顶级模型(如果能稳定的话)
成本如何?目前没有非常优化请求输入,但在同类产品中不算高,普通网页平均每次请求1w多输入token,复杂的平台站平均2w+输入token。举个例子,前面Online_Mind2Web的用例,medium难度的平均8步左右能解决,hard难度的可能十几二十步,gemini-3-flash输入$0.5/1M,用官渠的话,相当于一个任务$0.08~$0.12,而且我的请求是不会随着访问的页面数/step数增加,输入token大幅线性增加的,基本稳定不变。比不少本地的自动化框架消耗token少点,但这个费用如果是用gemini-3-flash还是有点贵……其他模型说实话测试下来agent体验不够好,便宜点的就qwen-3.5-plus和grok-4.1-fast-reasoning还可以。
速度?个人测试体感比其他产品快,主要是我的工具和构建页面语义化逻辑,和其他产品的不太一样。网络良好的情况下,gemini-3-flash约4-8s/step,一个小任务半分钟到一分钟就能完成,有的时候(不熟悉的网页等)甚至比人操作更快。欢迎各位使用给我反馈!~