佬们,我想在本地调用大模型api分析pdf文件,有哪些可用的手段呢?
6 个赞
优先原生多模态吧
次一点就是手动RAG和OCR之类的手段了
4 个赞
多模态模型的api可以上传文件吗? ![]()
3 个赞
1、多模态大模型;
2、可读的pdf转成md,喂给大模型;
3、pdf拆成一个一个的图片,ocr整合,喂给大模型。
4 个赞
是文字的还是扫描版的,Gemini原生支持PDF文档,要不就只能转图片调用视觉模型,或者用各种转换工具转为Markdown。
2 个赞
当然
QWEN VL之类也可以
1 个赞
感谢感谢,我去看看
好的,感谢感谢
文字版的,想分析arxiv的论文
Moonshot AI 有文件上传接口可以看看
![]()
qwenvl好像不可以,qwen-long模型可以
如果想让大模型分享PDF,特别是针对有图形、文字、图表等的PDF,最好的方法是使用Dify中的知识库,用Embedding模型对PDF文件进行分段保存,这样更利于后期大模型进行解读。
1 个赞
啊 我都是直接用openruter的gemini 2.0pro直接传pdf给gemini的
2 个赞
大佬,这个怎么操作?调用API吗
对 就是普通的调用api 爬爬虾有介绍 b站搜技术爬爬虾
1 个赞
看看这个https://doc2x.noedgeai.com/ 有api的
我看这个只有翻译之类的,没有分析的功能吧? ![]()
解析成md然后再 导入一些dif,fastgpt,ragflow的平台就ok了
,fastgpt和这个 网站 配合比较好,可以直接调用这个网站的 api把 pdf处理成 md格式或者 适合大模型学习的文档格式,再进行后续的 处理
1 个赞
再次安利这个佬的
2 个赞
好,感谢感谢