Ir para o conteúdo do rodapé
FERRAMENTAS DE PDF EM PYTHON

Como ler arquivos PDF em Python

Os arquivos PDF, ou Portable Document Format, tornaram-se um padrão universal para o compartilhamento de documentos. São amplamente utilizados devido à sua capacidade de preservar o layout e a formatação de um documento. No entanto, trabalhar com arquivos PDF usando linguagens de programação como Python pode ser um pouco desafiador. Este artigo apresenta o IronPDF, uma biblioteca Python para PDF que permite realizar diversas operações com documentos PDF.

IronPDF for Python - Biblioteca PDF

IronPDF é uma biblioteca Python avançada para PDF que facilita o trabalho com arquivos no formato PDF. Ela fornece uma API fácil de usar para diversas operações com PDFs. Você pode ler e escrever arquivos PDF, converter arquivos PDF para diferentes formatos, combinar vários arquivos PDF e muito mais. Ele também pode lidar com objetos de página, extrair texto de todas as páginas do arquivo PDF e girar páginas do PDF, entre outras funcionalidades.

Como ler arquivos PDF em Python

  1. Instale a biblioteca Python PDF usando o Pip.
  2. Importe a biblioteca Python PDF no script Python.
  3. Aplique a chave de licença da biblioteca PDFReader for Python.
  4. Carregue qualquer documento PDF fornecendo o caminho do documento.
  5. Leia o conteúdo do PDF no console do Python.

Leia um arquivo PDF usando o IronPDF.

A leitura de um arquivo PDF usando o IronPDF envolve várias etapas. Aqui está um guia simples para você começar:

Passo 1: Crie um ambiente virtual no Visual Studio.

Ao trabalhar com Python, é crucial criar um ambiente isolado conhecido como ambiente virtual. Este ambiente permite gerenciar dependências específicas do projeto em que você está trabalhando, sem interferir em outros projetos. Criar um ambiente virtual torna-se ainda mais simples em um Ambiente de Desenvolvimento Integrado (IDE) como o Visual Studio Code. Para isso, siga os passos abaixo:

  1. Abra a pasta no Visual Studio Code. Pressione Ctrl+Shift+P para abrir a Paleta de Comandos. Na Paleta de Comandos, procure por "Python: Criar Ambiente".

    Como ler arquivos PDF em Python: Figura 1

  2. Selecione a primeira opção e, em seguida, escolha "Venv" como o tipo de ambiente.

    Como ler arquivos PDF em Python: Figura 2

  3. Em seguida, selecione o interpretador Python, e o ambiente virtual será criado.

    Como ler arquivos PDF em Python: Figura 3

Agora você tem seu espaço de trabalho isolado pronto para seus scripts Python, garantindo que as dependências do projeto estejam confinadas a esse ambiente.

Como ler arquivos PDF em Python: Figura 4

Passo 2: Instale a biblioteca IronPDF for Python.

Com o ambiente virtual configurado, você está pronto para instalar a biblioteca IronPDF for Python. Você pode instalá-lo usando o instalador de pacotes do Python, 'pip':

pip install ironpdf
pip install ironpdf
SHELL

Etapa 3: Instale o .NET 6.0

O IronPDF for Python requer a instalação do SDK .NET 6.0.

Faça o download e instale o SDK do .NET 6.0 no site da Microsoft .NET .

Etapa 4: Importar IronPDF

Após instalar o IronPDF com sucesso, o próximo passo é importá-lo para o seu script Python. Importar a biblioteca torna todas as suas funções e métodos disponíveis para uso em seu script. Você pode importar o IronPDF usando a seguinte linha de código:

from ironpdf import *
from ironpdf import *
PYTHON

Esta linha de código importa todos os módulos, funções e classes disponíveis na biblioteca IronPDF para o seu script.

Passo 5: Aplicar a chave de licença

Para desbloquear totalmente as funcionalidades da biblioteca IronPDF , você precisa aplicar uma chave de licença. Aplicar uma chave de licença é tão simples quanto atribuir a chave à propriedade LicenseKey da classe License. Eis como fazer:

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

Substitua "License-Key-Here" pela sua chave de licença IronPDF . Com a chave de licença em mãos, você está pronto para aproveitar todo o potencial da biblioteca IronPDF em seus scripts Python.

Etapa 6: Definir o caminho do log

Em seguida, configure o registro de logs para as operações do IronPDF . Ao definir um caminho de log personalizado, você pode armazenar os logs de tempo de execução gerados pela biblioteca, o que ajuda a depurar e diagnosticar problemas que possam ocorrer durante a execução. Veja como configurar:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

Neste trecho de código, Logger.EnableDebugging = True ativa a depuração, Logger.LogFilePath = "Custom.log" define o arquivo de log de saída como "Custom.log" e Logger.LoggingMode = Logger.LoggingModes.All garante que todos os tipos de informações de log sejam registrados.

Passo 7: Carregar documento PDF

Carregar um documento PDF com o IronPDF é tão fácil quanto chamar um método. O método PdfDocument.FromFile carrega o documento PDF do caminho fornecido em um objeto de arquivo PDF. Basta fornecer o caminho do arquivo PDF como uma string:

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

Neste código, pdf torna-se um objeto PdfDocument representando o arquivo PDF especificado.

Passo 8: Leia o conteúdo do arquivo PDF

O IronPDF fornece um método chamado ExtractAllText() que ajuda a extrair o conteúdo de texto do documento PDF . Isso é especialmente útil quando você precisa ler e analisar o conteúdo de um arquivo PDF:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

Neste exemplo, all_text irá conter todo o texto do arquivo PDF do objeto pdf. Você poderá ler o conteúdo de PDFs no console.

Como ler arquivos PDF em Python: Figura 5

Passo 9: Carregar o segundo arquivo PDF

Assim como você carregou o primeiro documento PDF, você também pode carregar um segundo documento PDF. Essa funcionalidade é útil quando você deseja manipular vários arquivos PDF:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

Neste código, pdf_2 é outro objeto PdfDocument que representa o segundo arquivo PDF.

Etapa 10: Mesclar ambos os arquivos

Uma das funcionalidades mais poderosas do IronPDF é a fusão de vários arquivos PDF em um único arquivo PDF. Você pode combinar facilmente dois ou mais documentos PDF usando o método PdfDocument.Merge:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

Neste exemplo, merged é um novo objeto PdfDocument que é o resultado da fusão de pdf e pdf_2. O método SaveAs salva então este documento mesclado com o nome "Merged.pdf".

Como ler arquivos PDF em Python: Figura 6

Etapa 11: Dividir o primeiro PDF

O IronPDF também permite dividir um documento PDF e extrair páginas específicas para novos arquivos PDF. Isso é feito usando o método CopyPage:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

Aqui, page1doc é um novo objeto PdfDocument que contém a primeira página do documento pdf. Essa página é então salva como um arquivo PDF chamado "Split1.pdf".

Como ler arquivos PDF em Python: Figura 7

Passo 12: Aplicar marca d'água

A marca d'água é outro recurso impressionante oferecido pelo IronPDF. Você pode adicionar uma marca d'água ao seu documento PDF com o texto ou imagem desejado. O método ApplyWatermark é usado para adicionar uma marca d'água ao PDF representado pelo objeto pdf.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

Neste trecho, ApplyWatermark aplica uma marca d'água vermelha com o texto "SAMPLE" no centro do PDF. Em seguida, SaveAs salva o documento com marca d'água como "Watermarked.pdf".

Compatibilidade com IronPDF

IronPDF é uma biblioteca Python versátil, compatível com uma ampla gama de versões do Python. É compatível com todas as versões modernas do Python, a partir da versão 3.6. O IronPDF não está restrito a um único sistema operacional. É independente de plataforma e, portanto, pode ser usado em diversos sistemas operacionais. Seja no Windows, Mac ou Linux, o IronPDF funciona perfeitamente em todas essas plataformas. Essa compatibilidade entre plataformas é uma grande vantagem, tornando o IronPDF a escolha ideal para desenvolvedores, independentemente de suas preferências de sistema operacional.

Conclusão

Em resumo, o IronPDF é uma excelente biblioteca Python que simplifica o trabalho com documentos PDF. Seja para mesclar vários PDFs, extrair texto, dividir arquivos PDF ou aplicar marcas d'água, o IronPDF tem a solução ideal. Sua compatibilidade com múltiplas plataformas e facilidade de uso fazem dele uma ferramenta valiosa para qualquer desenvolvedor que trabalhe com documentos PDF.

O IronPDF oferece um período de teste gratuito . Este período de teste oferece ampla oportunidade para você experimentar suas funcionalidades e avaliar se elas atendem às suas necessidades específicas. Depois de testá-lo, você pode comprar uma licença a partir de $799.

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais

Equipe de suporte de ferro

Estamos online 24 horas por dia, 5 dias por semana.
Bater papo
E-mail
Liga para mim