from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

FERRAMENTAS DE PDF EM PYTHON

Como ler arquivos PDF em Python

Curtis Chau

Atualizado:julho 28, 2025

Os arquivos PDF, ou Portable Document Format, tornaram-se um padrão universal para o compartilhamento de documentos. São amplamente utilizados devido à sua capacidade de preservar o layout e a formatação de um documento. No entanto, trabalhar com arquivos PDF usando linguagens de programação como Python pode ser um pouco desafiador. Este artigo apresenta o IronPDF, uma biblioteca Python para PDF que permite realizar diversas operações com documentos PDF.

IronPDF for Python - Biblioteca PDF

IronPDF é uma biblioteca Python avançada para PDF que facilita o trabalho com arquivos no formato PDF. Ela fornece uma API fácil de usar para diversas operações com PDFs. Você pode ler e escrever arquivos PDF, converter arquivos PDF para diferentes formatos, combinar vários arquivos PDF e muito mais. Ele também pode lidar com objetos de página, extrair texto de todas as páginas do arquivo PDF e girar páginas do PDF, entre outras funcionalidades.

Como ler arquivos PDF em Python

Instale a biblioteca Python PDF usando o Pip.
Importe a biblioteca Python PDF no script Python.
Aplique a chave de licença da biblioteca PDFReader for Python.
Carregue qualquer documento PDF fornecendo o caminho do documento.
Leia o conteúdo do PDF no console do Python.

Leia um arquivo PDF usando o IronPDF.

A leitura de um arquivo PDF usando o IronPDF envolve várias etapas. Aqui está um guia simples para você começar:

Passo 1: Crie um ambiente virtual no Visual Studio.

Ao trabalhar com Python, é crucial criar um ambiente isolado conhecido como ambiente virtual. Este ambiente permite gerenciar dependências específicas do projeto em que você está trabalhando, sem interferir em outros projetos. Criar um ambiente virtual torna-se ainda mais simples em um Ambiente de Desenvolvimento Integrado (IDE) como o Visual Studio Code. Para isso, siga os passos abaixo:

Abra a pasta no Visual Studio Code. Pressione Ctrl+Shift+P para abrir a Paleta de Comandos. Na Paleta de Comandos, procure por "Python: Criar Ambiente".
Selecione a primeira opção e, em seguida, escolha "Venv" como o tipo de ambiente.
Em seguida, selecione o interpretador Python, e o ambiente virtual será criado.

Agora você tem seu espaço de trabalho isolado pronto para seus scripts Python, garantindo que as dependências do projeto estejam confinadas a esse ambiente.

Passo 2: Instale a biblioteca IronPDF for Python.

Com o ambiente virtual configurado, você está pronto para instalar a biblioteca IronPDF for Python. Você pode instalá-lo usando o instalador de pacotes do Python, 'pip':

pip install ironpdf

pip install ironpdf

SHELL

Etapa 3: Instale o .NET 6.0

O IronPDF for Python requer a instalação do SDK .NET 6.0.

Faça o download e instale o SDK do .NET 6.0 no site da Microsoft .NET .

Etapa 4: Importar IronPDF

Após instalar o IronPDF com sucesso, o próximo passo é importá-lo para o seu script Python. Importar a biblioteca torna todas as suas funções e métodos disponíveis para uso em seu script. Você pode importar o IronPDF usando a seguinte linha de código:

from ironpdf import *

from ironpdf import *

PYTHON

Esta linha de código importa todos os módulos, funções e classes disponíveis na biblioteca IronPDF para o seu script.

Passo 5: Aplicar a chave de licença

Para desbloquear totalmente as funcionalidades da biblioteca IronPDF , você precisa aplicar uma chave de licença. Aplicar uma chave de licença é tão simples quanto atribuir a chave à propriedade LicenseKey da classe License. Eis como fazer:

License.LicenseKey = "License-Key-Here"

License.LicenseKey = "License-Key-Here"

PYTHON

Substitua "License-Key-Here" pela sua chave de licença IronPDF . Com a chave de licença em mãos, você está pronto para aproveitar todo o potencial da biblioteca IronPDF em seus scripts Python.

Etapa 6: Definir o caminho do log

Em seguida, configure o registro de logs para as operações do IronPDF . Ao definir um caminho de log personalizado, você pode armazenar os logs de tempo de execução gerados pela biblioteca, o que ajuda a depurar e diagnosticar problemas que possam ocorrer durante a execução. Veja como configurar:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

Neste trecho de código, Logger.EnableDebugging = True ativa a depuração, Logger.LogFilePath = "Custom.log" define o arquivo de log de saída como "Custom.log" e Logger.LoggingMode = Logger.LoggingModes.All garante que todos os tipos de informações de log sejam registrados.

Passo 7: Carregar documento PDF

Carregar um documento PDF com o IronPDF é tão fácil quanto chamar um método. O método PdfDocument.FromFile carrega o documento PDF do caminho fornecido em um objeto de arquivo PDF. Basta fornecer o caminho do arquivo PDF como uma string:

pdf = PdfDocument.FromFile("PDF B.pdf")

pdf = PdfDocument.FromFile("PDF B.pdf")

PYTHON

Neste código, pdf torna-se um objeto PdfDocument representando o arquivo PDF especificado.

Passo 8: Leia o conteúdo do arquivo PDF

O IronPDF fornece um método chamado ExtractAllText() que ajuda a extrair o conteúdo de texto do documento PDF . Isso é especialmente útil quando você precisa ler e analisar o conteúdo de um arquivo PDF:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

PYTHON

Neste exemplo, all_text irá conter todo o texto do arquivo PDF do objeto pdf. Você poderá ler o conteúdo de PDFs no console.

Como ler arquivos PDF em Python: Figura 5

Passo 9: Carregar o segundo arquivo PDF

Assim como você carregou o primeiro documento PDF, você também pode carregar um segundo documento PDF. Essa funcionalidade é útil quando você deseja manipular vários arquivos PDF:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

PYTHON

Neste código, pdf_2 é outro objeto PdfDocument que representa o segundo arquivo PDF.

Etapa 10: Mesclar ambos os arquivos

Uma das funcionalidades mais poderosas do IronPDF é a fusão de vários arquivos PDF em um único arquivo PDF. Você pode combinar facilmente dois ou mais documentos PDF usando o método PdfDocument.Merge:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

PYTHON

Neste exemplo, merged é um novo objeto PdfDocument que é o resultado da fusão de pdf e pdf_2. O método SaveAs salva então este documento mesclado com o nome "Merged.pdf".

Como ler arquivos PDF em Python: Figura 6

Etapa 11: Dividir o primeiro PDF

O IronPDF também permite dividir um documento PDF e extrair páginas específicas para novos arquivos PDF. Isso é feito usando o método CopyPage:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

PYTHON

Aqui, page1doc é um novo objeto PdfDocument que contém a primeira página do documento pdf. Essa página é então salva como um arquivo PDF chamado "Split1.pdf".

Como ler arquivos PDF em Python: Figura 7

Passo 12: Aplicar marca d'água

A marca d'água é outro recurso impressionante oferecido pelo IronPDF. Você pode adicionar uma marca d'água ao seu documento PDF com o texto ou imagem desejado. O método ApplyWatermark é usado para adicionar uma marca d'água ao PDF representado pelo objeto pdf.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

PYTHON

Neste trecho, ApplyWatermark aplica uma marca d'água vermelha com o texto "SAMPLE" no centro do PDF. Em seguida, SaveAs salva o documento com marca d'água como "Watermarked.pdf".

Compatibilidade com IronPDF

IronPDF é uma biblioteca Python versátil, compatível com uma ampla gama de versões do Python. É compatível com todas as versões modernas do Python, a partir da versão 3.6. O IronPDF não está restrito a um único sistema operacional. É independente de plataforma e, portanto, pode ser usado em diversos sistemas operacionais. Seja no Windows, Mac ou Linux, o IronPDF funciona perfeitamente em todas essas plataformas. Essa compatibilidade entre plataformas é uma grande vantagem, tornando o IronPDF a escolha ideal para desenvolvedores, independentemente de suas preferências de sistema operacional.

Conclusão

Em resumo, o IronPDF é uma excelente biblioteca Python que simplifica o trabalho com documentos PDF. Seja para mesclar vários PDFs, extrair texto, dividir arquivos PDF ou aplicar marcas d'água, o IronPDF tem a solução ideal. Sua compatibilidade com múltiplas plataformas e facilidade de uso fazem dele uma ferramenta valiosa para qualquer desenvolvedor que trabalhe com documentos PDF.

O IronPDF oferece um período de teste gratuito . Este período de teste oferece ampla oportunidade para você experimentar suas funcionalidades e avaliar se elas atendem às suas necessidades específicas. Depois de testá-lo, você pode comprar uma licença a partir de $799.

Curtis Chau

Converse agora mesmo com a equipe de engenharia.

Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Destaque do cliente:

Destaque do desenvolvedor:

Webinários:

Experimente gratuitamente por 30 dias.

Como ler arquivos PDF em Python

IronPDF for Python - Biblioteca PDF

Como ler arquivos PDF em Python

Leia um arquivo PDF usando o IronPDF.

Passo 1: Crie um ambiente virtual no Visual Studio.

Passo 2: Instale a biblioteca IronPDF for Python.

Etapa 3: Instale o .NET 6.0

Etapa 4: Importar IronPDF

Passo 5: Aplicar a chave de licença

Etapa 6: Definir o caminho do log

Passo 7: Carregar documento PDF

Passo 8: Leia o conteúdo do arquivo PDF

Passo 9: Carregar o segundo arquivo PDF

Etapa 10: Mesclar ambos os arquivos

Etapa 11: Dividir o primeiro PDF

Passo 12: Aplicar marca d'água

Compatibilidade com IronPDF

Conclusão

Equipe de suporte de ferro

Experimente gratuitamente por 30 dias.

Como ler arquivos PDF em Python

IronPDF for Python - Biblioteca PDF

Como ler arquivos PDF em Python

Leia um arquivo PDF usando o IronPDF.

Passo 1: Crie um ambiente virtual no Visual Studio.

Passo 2: Instale a biblioteca IronPDF for Python.

Etapa 3: Instale o .NET 6.0

Etapa 4: Importar IronPDF

Passo 5: Aplicar a chave de licença

Etapa 6: Definir o caminho do log

Passo 7: Carregar documento PDF

Passo 8: Leia o conteúdo do arquivo PDF

Passo 9: Carregar o segundo arquivo PDF

Etapa 10: Mesclar ambos os arquivos

Etapa 11: Dividir o primeiro PDF

Passo 12: Aplicar marca d'água

Compatibilidade com IronPDF

Conclusão

Artigos relacionados

Encontrando itens em listas em Python

Spyder, IDE Python: Um Guia Completo

Escrevendo testes com Pytest em Python

Próximo passo: Inicie o teste gratuito de 30 dias.

Próximo passo: Inicie o teste gratuito de 30 dias.

Aprovado por milhões de engenheiros em todo o mundo.

Equipe de suporte de ferro