Temos o prazer de anunciar a primeira versão do GroupDocs.Parser for Python via .NET 25.12, disponível a partir de dezembro 2025. Esta versão inicial traz todo o poder do mecanismo de análise .NET para desenvolvedores Python, permitindo a extração de texto, imagens, anexos, códigos de barras, conteúdo OCR e dados estruturados de uma ampla variedade de formatos de documento.
O que há de novo nesta versão
Principais recursos
- Extração de texto – Recupere texto simples ou formatado de PDFs, documentos do Office, e‑mails, e‑books, arquivos e muito mais.
- Pesquisa avançada – Acesso ao nível de página com opções de pesquisa sensível a maiúsculas/minúsculas, palavra inteira e expressões regulares.
- Análise de conteúdo estruturado – Detecte e extraia a hierarquia do documento, como títulos, parágrafos, tabelas e áreas de texto personalizadas.
- Análise de modelo – Use modelos predefinidos para extrair campos tipados de faturas, recibos e outros documentos de negócios.
- Extração de imagens – Extraia imagens raster incorporadas de formatos de documento e imagem suportados.
- Extração de anexos – Exporte arquivos anexados incorporados nos documentos.
- Leitura de códigos de barras – Detecte e leia códigos de barras presentes nos documentos.
- Suporte a OCR – Execute reconhecimento óptico de caracteres em PDFs digitalizados e imagens raster, com verificação ortográfica opcional.
- Extração de metadados – Acesse propriedades do documento como autor, data de criação e metadados personalizados.
- Extração de índice – Recupere estruturas de sumário dos formatos suportados.
- Extração de hyperlinks – Extraia hyperlinks (atualmente limitado a um subconjunto de formatos).
Formatos de documento suportados
- Processamento de texto – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- Planilhas – XLS, XLSX, ODS, CSV
- Apresentações – PPT, PPTX, ODP
- E‑mail & notas – PST, OST, EML, MSG, ONE
- eBooks & conteúdo web – EPUB, MOBI, AZW3, CHM, FB2
- Imagens – JPEG, PNG, TIFF, GIF, BMP, SVG
- Arquivos & contêineres – ZIP, RAR, 7Z, TAR, GZ, BZ2
Suporte de plataforma
- Windows, Linux e macOS
- Python 3.5+
Instalação
-
Baixe o pacote WHL apropriado para sua plataforma na página de lançamentos do GroupDocs:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
Instale o pacote com pip (substitua
*pelo nome real do arquivo que você baixou):
pip install groupdocs_parser_net-25.12-*.whl
Começando
O trecho a seguir mostra como extrair texto simples de um arquivo PDF:
from groupdocs.parser import Parser
# Crie uma instância do Parser para o seu documento
with Parser("sample.pdf") as parser:
# Extraia o texto do documento
text = parser.GetText()
# Imprima todo o texto extraído no console
print(text)
Para cenários mais complexos — como uso de modelos, OCR ou leitura de códigos de barras — consulte a referência da API e o repositório de exemplos de código vinculados abaixo.
Como obter a atualização
- Download direto – Escolha o pacote WHL que corresponde ao seu SO na página de lançamentos do GroupDocs.
- Atualização via pip – Quando uma nova versão for publicada, atualize com:
pip install --upgrade groupdocs_parser_net