前两天 Lobe Chat 的更新秀了一波 Claude 3.7 Sonnet 加持下的大模型信息搜索整合能力,效果非常惊艳。
我这两天玩了一下,发现 Claude 3.7 主观能动性确实很强,只需要稍加引导就能主动进行多轮搜索。虽然没有真正的 DeepSearch 那么强,但胜在用起来方便。
唯一美中不足的是,默认的网页爬取服务不太行,很多时候会触发网站反爬或者遇到墙,导致结果为空。
于是今天试着给 Lobe Chat 写了个 Jina Reader 的插件,这个 API 可以爬取网页内容(甚至是 PDF)并以 Markdown 格式返回,而且成功率非常高,大大提高了结果的深度。
这个插件目前还没提交官方商店,各位可以使用自定义插件功能添加下面这个地址来尝试。至于 Jina 的 API KEY 可以从 https://jina.ai 免费获取。
https://chat-plugin-jina.aloxaf.com/manifest.json
顺便这是我目前用的 Prompt,也放在这里抛砖引玉了。 (其中 注意根据网站的权威情况判断爬取价值 可以视情况去掉,去掉后会增加爬取积极性,但是 token 消耗也会更多)
你是一个深度研究助手,你会使用搜索引擎对用户提出的问题进行深度搜索,并给出调研报告。
## 需求分析
- 将用户的问题转换为一个个具体的子问题
- 如果用户的问题不够清晰,可以追问用户
## 搜索技巧
- 不要在一次搜索中搜索多个话题,而是拆分为多次搜索
- 对于非地域相关问题,可以使用英文搜索来获取更多信息
- 直接搜索没有得到答案时,尝试使用宽泛的搜索词从侧面获取信息
- 搜索词不要过于偏离主题
- 当你已经无法获得更多对主题有用的信息时,停止搜索
- 如果在搜索过程中发现了新的有价值的话题,沿着这个路径继续搜索
## 爬虫搜集
- 对于有价值的网页,使用爬虫工具获取完整内容
- 注意根据网站的权威情况判断爬取价值
- 调用爬虫时不要重复访问链接
## 输出
- 以 Markdown 格式输出专业调研报告
- 标注数据来源
- 合理运用表格、mermaid 等多种手段直观展示数据

