GroupDocs.Parser for Python 25.12 – Últimas Atualizações e Correções (dezembro de 2025)

Temos o prazer de anunciar a primeira versão do GroupDocs.Parser for Python via .NET 25.12, disponível a partir de dezembro 2025. Esta versão inicial traz todo o poder do mecanismo de análise .NET para desenvolvedores Python, permitindo a extração de texto, imagens, anexos, códigos de barras, conteúdo OCR e dados estruturados de uma ampla variedade de formatos de documento.

O que há de novo nesta versão

Principais recursos

Extração de texto – Recupere texto simples ou formatado de PDFs, documentos do Office, e‑mails, e‑books, arquivos e muito mais.
Pesquisa avançada – Acesso ao nível de página com opções de pesquisa sensível a maiúsculas/minúsculas, palavra inteira e expressões regulares.
Análise de conteúdo estruturado – Detecte e extraia a hierarquia do documento, como títulos, parágrafos, tabelas e áreas de texto personalizadas.
Análise de modelo – Use modelos predefinidos para extrair campos tipados de faturas, recibos e outros documentos de negócios.
Extração de imagens – Extraia imagens raster incorporadas de formatos de documento e imagem suportados.
Extração de anexos – Exporte arquivos anexados incorporados nos documentos.
Leitura de códigos de barras – Detecte e leia códigos de barras presentes nos documentos.
Suporte a OCR – Execute reconhecimento óptico de caracteres em PDFs digitalizados e imagens raster, com verificação ortográfica opcional.
Extração de metadados – Acesse propriedades do documento como autor, data de criação e metadados personalizados.
Extração de índice – Recupere estruturas de sumário dos formatos suportados.
Extração de hyperlinks – Extraia hyperlinks (atualmente limitado a um subconjunto de formatos).

Formatos de documento suportados

Processamento de texto – DOC, DOCX, RTF, TXT, ODT
PDF & markup – PDF, HTML/MHTML, Markdown, XML
Planilhas – XLS, XLSX, ODS, CSV
Apresentações – PPT, PPTX, ODP
E‑mail & notas – PST, OST, EML, MSG, ONE
eBooks & conteúdo web – EPUB, MOBI, AZW3, CHM, FB2
Imagens – JPEG, PNG, TIFF, GIF, BMP, SVG
Arquivos & contêineres – ZIP, RAR, 7Z, TAR, GZ, BZ2

Suporte de plataforma

Windows, Linux e macOS
Python 3.5+

Instalação

Baixe o pacote WHL apropriado para sua plataforma na página de lançamentos do GroupDocs:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
Instale o pacote com pip (substitua * pelo nome real do arquivo que você baixou):

pip install groupdocs_parser_net-25.12-*.whl

Começando

O trecho a seguir mostra como extrair texto simples de um arquivo PDF:

from groupdocs.parser import Parser

# Crie uma instância do Parser para o seu documento
with Parser("sample.pdf") as parser:
    # Extraia o texto do documento
    text = parser.GetText()
    
    # Imprima todo o texto extraído no console
    print(text)

Para cenários mais complexos — como uso de modelos, OCR ou leitura de códigos de barras — consulte a referência da API e o repositório de exemplos de código vinculados abaixo.

Como obter a atualização

Download direto – Escolha o pacote WHL que corresponde ao seu SO na página de lançamentos do GroupDocs.
Atualização via pip – Quando uma nova versão for publicada, atualize com:

pip install --upgrade groupdocs_parser_net

GroupDocs.Parser for Python 25.12 – Destaques do Lançamento de dezembro de 2025

O que há de novo nesta versão

Principais recursos

Formatos de documento suportados

Suporte de plataforma

Instalação

Começando

Como obter a atualização

Recursos

O que há de novo nesta versão#

Principais recursos#

Formatos de documento suportados#

Suporte de plataforma#

Instalação#

Começando#

Como obter a atualização#

Recursos#

O que há de novo nesta versão

Principais recursos

Formatos de documento suportados

Suporte de plataforma

Instalação

Começando

Como obter a atualização

Recursos