如何调用大模型api分析pdf

佬们,我想在本地调用大模型api分析pdf文件,有哪些可用的手段呢?

6 个赞

优先原生多模态吧
次一点就是手动RAG和OCR之类的手段了

4 个赞

多模态模型的api可以上传文件吗? :bili_097:

3 个赞

1、多模态大模型;
2、可读的pdf转成md,喂给大模型;
3、pdf拆成一个一个的图片,ocr整合,喂给大模型。

4 个赞

是文字的还是扫描版的,Gemini原生支持PDF文档,要不就只能转图片调用视觉模型,或者用各种转换工具转为Markdown。

2 个赞

当然

QWEN VL之类也可以

1 个赞

感谢感谢,我去看看

好的,感谢感谢

文字版的,想分析arxiv的论文

Moonshot AI 有文件上传接口可以看看

image
qwenvl好像不可以,qwen-long模型可以

如果想让大模型分享PDF,特别是针对有图形、文字、图表等的PDF,最好的方法是使用Dify中的知识库,用Embedding模型对PDF文件进行分段保存,这样更利于后期大模型进行解读。

1 个赞

啊 我都是直接用openruter的gemini 2.0pro直接传pdf给gemini的

2 个赞

大佬,这个怎么操作?调用API吗

对 就是普通的调用api 爬爬虾有介绍 b站搜技术爬爬虾

1 个赞

看看这个https://doc2x.noedgeai.com/ 有api的

我看这个只有翻译之类的,没有分析的功能吧? :bili_097:

解析成md然后再 导入一些dif,fastgpt,ragflow的平台就ok了
,fastgpt和这个 网站 配合比较好,可以直接调用这个网站的 api把 pdf处理成 md格式或者 适合大模型学习的文档格式,再进行后续的 处理

1 个赞

再次安利这个佬的

2 个赞

好,感谢感谢