请问各位佬,有什么办法能简单把大量在线文档保存为离线文档?

指的就是华为鸿蒙的文档,只有在线的,也没找到开源仓库,想全部扒下来作为知识库丢给AI:tieba_087:

1 个赞

此软件虽年岁稍长,然功能犹健,堪称批量存档在线文档之利器。惟遇复杂网页,需略施配置,始能尽善。

4 个赞

感谢佬,等我下班回家后研究一下看一下效果:tieba_013:

要质量 还是特定页 就得针对性的 爬 清洗 结构化

要简单粗暴 那效果不可控

感谢佬,回去试试效果,主要还是需要效果好,方法门槛不高的话我可以自己研究

重点是 结构化
鸿蒙那个文档站我看了
垃圾信息不多
搞起来相对简单

流程奴役LLM帮你做就好了

要是爬出来markdown 发个 GitHub 分享出来也是不错滴

好滴谢谢佬,如果扒下来就整个仓:tieba_003:

用IDM下载器

佬再问一下你这个回答是AI生成的吗?如果是的话是哪个AI?我AI Studio里问不出来这个答案

IDM好久没用过了,请问现在还能下到破解版吗?

Gemini
以及IDM爬站 效果不是最好的

要复刻站点的话

上面那个MCP我觉得可以一试 MCP down下来html结构 直接让LLM洗了再输出markdown

就是比较慢 而且token花费大 不过效果预计还不错的

懒人方案

吾爱上就有

https://linux.do/t/topic/720375/5

主打一个啥都有 :tieba_022:

2 个赞

哈雷态:ox::pen:

1 个赞

:ox:了 真就啥都有 感谢感谢:saluting_face:

siyuan笔记的剪藏不够用么

没用过思源只用过notion,不过你这么一说才想起来还有这条路,也可以一试