本ライブラリは、画像を含むドキュメントのパースを行うためのライブラリです。 テキストとして出力することで、従来のベクトル検索や全文検索での利用を可能することを目的とします。
Office ファイルをテキストに変換するために、LibreOffice をインストールします。
# Ubuntu
sudo apt install libreoffice
# Mac
brew install --cask libreofficepip install exparsoparse_document 関数を利用して、ドキュメントをパースします。
from exparso import parse_document
from langchain_openai import AzureChatOpenAI
llm_model = AzureChatOpenAI(model="gpt-4o")
text = parse_document(path="path/to/document.pdf", model=llm_model)| コンテンツタイプ | 拡張子 |
|---|---|
| 📑 ドキュメント | PDF, PowerPoint |
| 🖼️ 画像 | JPEG, PNG, BMP |
| 📝 テキストデータ | テキストファイル, Markdown |
| 📊 表データ | Excel, CSV |
| クラウドベンダー | モデル |
|---|---|
| Azure | ChatGPT(gpt-4o, gpt-4o-mini) |
| Google Cloud | Claude(claude-3.7-sonnet,claude-3.5-sonnet), Gemini(gemini-2.0-flash,gemini-1.5-flash-*,gemini-2.0-pro-*) |