푸터 콘텐츠로 바로가기
PYTHON PDF 도구

Python으로 PDF 파일을 읽는 방법

PDF, 즉 휴대용 문서 형식 파일은 문서를 공유하는 데 있어 보편적인 표준이 되었습니다. 문서의 레이아웃과 서식을 유지하는 능력 때문에 널리 사용됩니다. 하지만 Python과 같은 프로그래밍 언어를 사용하여 PDF 파일을 다루는 것은 다소 어려울 수 있습니다. 이 글에서는 PDF 문서에 대한 다양한 작업을 수행할 수 있도록 해주는 Python PDF 라이브러리인 IronPDF 소개합니다.

Python용 PDF 라이브러리인 IronPDF

IronPDF 는 PDF 형식 파일 작업을 용이하게 해주는 고급 Python PDF 라이브러리 입니다. 이 서비스는 다양한 PDF 작업을 위한 사용하기 쉬운 API를 제공합니다. PDF 파일을 읽고 쓸 수 있고, PDF 파일을 다른 형식으로 변환하고, 여러 PDF 파일을 병합하는 등 다양한 작업을 수행할 수 있습니다. 이 프로그램은 페이지 객체를 처리하고, PDF 파일의 모든 페이지에서 텍스트를 추출하고, PDF 페이지를 회전하는 등의 다양한 기능을 수행할 수 있습니다.

Python으로 PDF 파일을 읽는 방법

  1. Pip을 사용하여 Python PDF 라이브러리를 설치합니다.
  2. Python 스크립트에 Python PDF 라이브러리를 가져옵니다.
  3. PDFReader Python 라이브러리의 라이선스 키를 적용합니다.
  4. 문서 경로를 입력하여 PDF 문서를 불러오세요.
  5. Python 콘솔에서 PDF 콘텐츠를 읽습니다.

IronPDF 사용하여 PDF 파일을 읽으세요

IronPDF 사용하여 PDF 파일을 읽는 데는 몇 가지 단계가 필요합니다. 시작하는 데 도움이 되는 간단한 안내입니다.

1단계: Visual Studio에서 가상 환경을 생성합니다.

Python을 사용할 때는 가상 환경이라고 하는 격리된 환경을 만드는 것이 매우 중요합니다. 이 환경을 사용하면 다른 프로젝트에 영향을 주지 않고 작업 중인 프로젝트에 특정한 종속성을 관리할 수 있습니다. Visual Studio Code와 같은 통합 개발 환경(IDE)에서는 가상 환경을 생성하는 것이 훨씬 더 간단해집니다. 이를 위해 다음 단계를 따르십시오.

  1. Visual Studio Code에서 해당 폴더를 엽니다. Ctrl+Shift+P를 눌러 명령 팔레트를 여세요. 명령 팔레트에서 "Python: 환경 생성"을 검색하세요.

Python에서 PDF 파일을 읽는 법: 그림 1

  1. 첫 번째 옵션을 선택한 다음 환경 유형으로 "Venv"를 선택합니다.

Python에서 PDF 파일을 읽는 법: 그림 2

  1. 그 후 Python 인터프리터를 선택하면 가상 환경 생성이 시작됩니다.

Python에서 PDF 파일을 읽는 법: 그림 3

이제 Python 스크립트를 실행할 수 있는 격리된 작업 공간이 준비되었으며, 프로젝트의 종속성이 이 환경 내에 제한됩니다.

Python에서 PDF 파일을 읽는 법: 그림 4

2단계: Python용 IronPDF 라이브러리를 설치합니다.

가상 환경 설정이 완료되었으므로 이제 Python용 IronPDF 라이브러리를 설치할 준비가 되었습니다. Python Install-Package 프로그램 'pip'을 사용하여 설치할 수 있습니다.

pip install ironpdf
pip install ironpdf
SHELL

3단계: .NET 6.0 설치

Python용 IronPDF 사용하려면 .NET 6.0 SDK가 설치되어 있어야 합니다.

Microsoft .NET 웹사이트 에서 .NET 6.0 SDK를 다운로드하여 설치하십시오.

4단계: IronPDF 가져오기

IronPDF 성공적으로 설치했다면 다음 단계는 Python 스크립트에 IronPDF를 가져오는 것입니다. 라이브러리를 임포트하면 해당 라이브러리의 모든 함수와 메서드를 스크립트에서 사용할 수 있게 됩니다. 다음 코드를 사용하여 IronPDF 가져올 수 있습니다.

from ironpdf import *
from ironpdf import *
PYTHON

이 코드는 IronPDF 라이브러리에서 사용할 수 있는 모든 모듈, 함수 및 클래스를 스크립트로 가져옵니다.

5단계: 라이선스 키 적용

IronPDF 라이브러리의 모든 기능을 활용하려면 라이선스 키를 적용해야 합니다. 라이센스 키를 적용하는 것은 License 클래스의 LicenseKey 속성에 키를 할당하는 것만큼 간단합니다. 방법은 다음과 같습니다.

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

"License-Key-Here"를 실제 IronPDF 라이센스 키로 대체하십시오. 라이선스 키를 입력했으므로 이제 Python 스크립트에서 IronPDF 라이브러리의 모든 기능을 활용할 준비가 되었습니다.

6단계: 로그 경로 설정

다음으로 IronPDF 작업에 대한 로깅을 설정하십시오. 사용자 지정 로그 경로를 설정하면 라이브러리가 생성하는 런타임 로그를 저장할 수 있으므로 실행 중에 발생할 수 있는 문제를 디버깅하고 진단하는 데 도움이 됩니다. 설정 방법은 다음과 같습니다.

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

이 코드 조각에서 Logger.EnableDebugging = True는 디버깅을 켜며, Logger.LogFilePath = "Custom.log"는 출력 로그 파일을 'Custom.log'로 설정하고, Logger.LoggingMode = Logger.LoggingModes.All는 모든 유형의 로그 정보를 기록하는 것을 보장합니다.

7단계 PDF 문서 불러오기

IronPDF 사용하여 PDF 문서를 불러오는 것은 메서드를 호출하는 것만큼 간단합니다. PdfDocument.FromFile 메서드는 지정된 경로에서 PDF 문서를 PDF 파일 객체로 로드합니다. PDF 파일의 경로를 문자열로 제공하기만 하면 됩니다.

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

이 코드에서 pdf는 지정된 PDF 파일을 나타내는 PdfDocument 객체가 됩니다.

8단계: PDF 파일 내용 읽기

IronPDF는 PDF 문서에서 텍스트 콘텐츠를 추출하는 데 도움이 되는 ExtractAllText()이라는 메서드를 제공합니다. 이 기능은 특히 PDF 파일의 내용을 읽고 분석해야 할 때 유용합니다.

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

이 예에서는, all_textpdf 객체의 모든 PDF 파일 텍스트를 담게 됩니다. 콘솔에서 PDF 콘텐츠를 읽을 수 있습니다.

Python에서 PDF 파일을 읽는 법: 그림 5

9단계 두 번째 PDF 파일 불러오기

첫 번째 PDF 문서를 불러온 것처럼 두 번째 PDF 문서도 불러올 수 있습니다. 이 기능은 여러 PDF 파일을 동시에 조작하려는 경우에 유용합니다.

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

이 코드에서, pdf_2는 두 번째 PDF 파일을 나타내는 또 다른 PdfDocument 객체입니다.

10단계: 두 파일 병합

IronPDF의 강력한 기능 중 하나는 여러 PDF 파일을 하나의 새로운 PDF 파일로 병합하는 것입니다. PdfDocument.Merge 메서드를 사용하여 두 개 이상의 PDF 문서를 쉽게 결합할 수 있습니다:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

이 예에서, mergedpdfpdf_2을 병합한 결과인 새로운 PdfDocument 객체입니다. SaveAs 메서드는 이 병합된 문서를 'Merged.pdf'라는 이름으로 저장합니다.

Python에서 PDF 파일을 읽는 법: 그림 6

11단계 첫 번째 PDF 분할

IronPDF 사용하면 PDF 문서를 분할 하고 특정 페이지를 새 PDF 파일로 추출할 수도 있습니다. 이는 CopyPage 메서드를 사용하여 이루어집니다:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

여기서 page1docpdf 문서의 첫 번째 페이지를 포함하는 새로운 PdfDocument 객체입니다. 이 페이지는 "Split1.pdf"라는 이름의 PDF 파일로 저장됩니다.

Python에서 PDF 파일을 읽는 법: 그림 7

12단계 워터마크 적용

워터마킹은 IronPDF 제공하는 또 다른 인상적인 기능입니다. PDF 문서에 원하는 텍스트나 이미지로 워터마크를 삽입할 수 있습니다. ApplyWatermark 메서드는 pdf 객체로 나타내어지는 PDF에 워터마크를 추가하는 데 사용됩니다.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

이 코드 조각에서 ApplyWatermark는 PDF의 가운데 중앙에 'SAMPLE'이라는 텍스트로 빨간색 워터마크를 적용합니다. 그 후 SaveAs는 워터마크가 적용된 문서를 'Watermarked.pdf'로 저장합니다.

IronPDF 호환성

IronPDF 는 다양한 Python 버전과 호환되는 다목적 Python 라이브러리입니다. 이 라이브러리는 Python 3.6 이후의 모든 최신 Python 버전을 지원합니다. IronPDF 특정 운영 체제에 국한되지 않습니다. 이 소프트웨어는 플랫폼에 독립적이므로 다양한 운영 체제에서 사용할 수 있습니다. IronPDF Windows, Mac, Linux 등 어떤 플랫폼에서도 완벽하게 작동합니다. 이러한 플랫폼 간 호환성은 큰 장점이며, IronPDF 개발자들이 운영체제 선호도와 관계없이 선택할 수 있는 주요 도구로 만들어 줍니다.

결론

결론적으로 IronPDF PDF 문서를 다루는 작업을 간소화해주는 훌륭한 Python 라이브러리입니다. 여러 PDF 파일을 병합하거나, 텍스트를 추출하거나, PDF 파일을 분할하거나, 워터마크를 적용해야 하는 경우에도 IronPDF 모든 것을 해결해 드립니다. 다양한 플랫폼과의 호환성과 사용 편의성 덕분에 PDF 문서를 다루는 모든 개발자에게 유용한 도구입니다.

IronPDF 무료 체험판을 제공합니다. 이 시험 기간은 제품의 기능을 충분히 체험해보고 특정 요구 사항에 적합한지 평가할 수 있는 기회를 제공합니다. 이를 테스트한 후 $799에서 시작하는 라이센스를 구매할 수 있습니다.

커티스 차우
기술 문서 작성자

커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다.

커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다.

아이언 서포트 팀

저희는 주 5일, 24시간 온라인으로 운영합니다.
채팅
이메일
전화해