Temos o prazer de anunciar a primeira versão do GroupDocs.Parser for Python via .NET 25.12, disponível a partir de dezembro 2025. Esta versão inicial traz todo o poder do mecanismo de análise .NET para desenvolvedores Python, permitindo a extração de texto, imagens, anexos, códigos de barras, conteúdo OCR e dados estruturados de uma ampla variedade de formatos de documento.

O que há de novo nesta versão

Principais recursos

  • Extração de texto – Recupere texto simples ou formatado de PDFs, documentos do Office, e‑mails, e‑books, arquivos e muito mais.
  • Pesquisa avançada – Acesso ao nível de página com opções de pesquisa sensível a maiúsculas/minúsculas, palavra inteira e expressões regulares.
  • Análise de conteúdo estruturado – Detecte e extraia a hierarquia do documento, como títulos, parágrafos, tabelas e áreas de texto personalizadas.
  • Análise de modelo – Use modelos predefinidos para extrair campos tipados de faturas, recibos e outros documentos de negócios.
  • Extração de imagens – Extraia imagens raster incorporadas de formatos de documento e imagem suportados.
  • Extração de anexos – Exporte arquivos anexados incorporados nos documentos.
  • Leitura de códigos de barras – Detecte e leia códigos de barras presentes nos documentos.
  • Suporte a OCR – Execute reconhecimento óptico de caracteres em PDFs digitalizados e imagens raster, com verificação ortográfica opcional.
  • Extração de metadados – Acesse propriedades do documento como autor, data de criação e metadados personalizados.
  • Extração de índice – Recupere estruturas de sumário dos formatos suportados.
  • Extração de hyperlinks – Extraia hyperlinks (atualmente limitado a um subconjunto de formatos).

Formatos de documento suportados

  • Processamento de texto – DOC, DOCX, RTF, TXT, ODT
  • PDF & markup – PDF, HTML/MHTML, Markdown, XML
  • Planilhas – XLS, XLSX, ODS, CSV
  • Apresentações – PPT, PPTX, ODP
  • E‑mail & notas – PST, OST, EML, MSG, ONE
  • eBooks & conteúdo web – EPUB, MOBI, AZW3, CHM, FB2
  • Imagens – JPEG, PNG, TIFF, GIF, BMP, SVG
  • Arquivos & contêineres – ZIP, RAR, 7Z, TAR, GZ, BZ2

Suporte de plataforma

  • Windows, Linux e macOS
  • Python 3.5+

Instalação

  1. Baixe o pacote WHL apropriado para sua plataforma na página de lançamentos do GroupDocs:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. Instale o pacote com pip (substitua * pelo nome real do arquivo que você baixou):

pip install groupdocs_parser_net-25.12-*.whl

Começando

O trecho a seguir mostra como extrair texto simples de um arquivo PDF:

from groupdocs.parser import Parser

# Crie uma instância do Parser para o seu documento
with Parser("sample.pdf") as parser:
    # Extraia o texto do documento
    text = parser.GetText()
    
    # Imprima todo o texto extraído no console
    print(text)

Para cenários mais complexos — como uso de modelos, OCR ou leitura de códigos de barras — consulte a referência da API e o repositório de exemplos de código vinculados abaixo.

Como obter a atualização

  • Download direto – Escolha o pacote WHL que corresponde ao seu SO na página de lançamentos do GroupDocs.
  • Atualização via pip – Quando uma nova versão for publicada, atualize com:
pip install --upgrade groupdocs_parser_net

Recursos