Preprocessing Task

The document provides a Python script that utilizes the Tesseract OCR library to preprocess an image for text extraction. It includes steps for loading an image, converting it to grayscale, applying binarization, noise removal, morphological operations, and deskewing before extracting text. The output consists of the processed text extracted from the image after these preprocessing tasks.

Uploaded by

ravula.shivakumar11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views7 pages

Preprocessing Task

Uploaded by

ravula.shivakumar11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

NAME: RAVULA SHIVA KUMAR GMAIL: ravula.shivakumar11@gmail.

com

Preprocessing Task
Source code :
import pytesseract

[Link].tesseract_cmd = r"C:\Program Files\Tesseract-OCR\

[Link]"
import cv2
import numpy as np
from PIL import Image

# Load the image

image_path = "C:/Users/ravul/OneDrive/Desktop/[Link]"
image = [Link](image_path)
# Convert OpenCV image to PIL format
pil_image = [Link]([Link](image, cv2.COLOR_BGR2RGB))
# Perform OCR
text = pytesseract.image_to_string(pil_image)
print(text)
#grayscale
gray = [Link](image, cv2.COLOR_BGR2GRAY)
[Link]("Grayscale", gray)
[Link](0)
#binarizarion
thresh = [Link](gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
[1]
[Link]("Thresholded", thresh)
[Link](0)
#noice Removal
denoised = [Link](thresh, None, 30, 7, 21)
[Link]("Denoised", denoised)
[Link](0)
#Morphological Operations
kernel = [Link]((1, 1), np.uint8)
morph = [Link](denoised, cv2.MORPH_CLOSE, kernel, iterations=1)
[Link]("Morphological", morph)
[Link](0)
#Deskewing (Correcting Skewed Text)
# Deskewing (Correcting Skewed Text)
coords = np.column_stack([Link](thresh > 0))
rect = [Link](coords)
angle = rect[-1]
if angle < -45:
angle += 90
elif angle > 45:
angle -= 90
(h, w) = [Link][:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, angle, 1.0)
deskewed = [Link](image, M, (w, h), flags=cv2.INTER_CUBIC,
borderMode=cv2.BORDER_REPLICATE)
[Link]("Deskewed Image", deskewed)
[Link](0)
[Link]()
#Extract Text After Preprocessing
processed_text = pytesseract.image_to_string(deskewed)
print(processed_text)

Output:
Input image:
Grayscale image
Binarization
noise Removal:
Morphological Operations

Extracted Text After Preprocessing:

Module # 10C - Text Recognition With Tesseract OCR
No ratings yet
Module # 10C - Text Recognition With Tesseract OCR
8 pages
Python Project
No ratings yet
Python Project
2 pages
Code Snippets
No ratings yet
Code Snippets
2 pages
OpenCV OCR and Text Recognition With Tesseract - PyImageSearch
No ratings yet
OpenCV OCR and Text Recognition With Tesseract - PyImageSearch
65 pages
OCR Implementation Guide
No ratings yet
OCR Implementation Guide
2 pages
Optical Character Recognition Overview
No ratings yet
Optical Character Recognition Overview
6 pages
ML Report
No ratings yet
ML Report
5 pages
Ocr
No ratings yet
Ocr
4 pages
Optical Character Recognition by Open Source OCR Tool Tesseract A Case Study
No ratings yet
Optical Character Recognition by Open Source OCR Tool Tesseract A Case Study
7 pages
We Used Tesseract OCR For Train The Data and Recognize The Character From Digital Image Under The Apache 2
No ratings yet
We Used Tesseract OCR For Train The Data and Recognize The Character From Digital Image Under The Apache 2
1 page
Python OCR Tool for Developers
No ratings yet
Python OCR Tool for Developers
5 pages
Extracting Text From Scanned PDF Using Pytesseract & Open CV
No ratings yet
Extracting Text From Scanned PDF Using Pytesseract & Open CV
9 pages
CV - Expt2
No ratings yet
CV - Expt2
21 pages
OCR Techniques and Python Implementation
No ratings yet
OCR Techniques and Python Implementation
110 pages
OpenCV Image Processing Lab Guide
No ratings yet
OpenCV Image Processing Lab Guide
11 pages
Lab 04 Digital Image Processing Practice
No ratings yet
Lab 04 Digital Image Processing Practice
9 pages
Bit 22034
No ratings yet
Bit 22034
18 pages
Build Your Own Optical Character Recognition (Ocr) System Using Google'S Tesseract and Opencv
No ratings yet
Build Your Own Optical Character Recognition (Ocr) System Using Google'S Tesseract and Opencv
10 pages
Optical Character Recognition
No ratings yet
Optical Character Recognition
27 pages
Python OpenCV Image Processing Guide
No ratings yet
Python OpenCV Image Processing Guide
3 pages
Exp 3
No ratings yet
Exp 3
21 pages
Ocr Nanonets Tesseract
No ratings yet
Ocr Nanonets Tesseract
39 pages
98DSP
No ratings yet
98DSP
8 pages
CV Practical Record Editted - PDF
No ratings yet
CV Practical Record Editted - PDF
36 pages
Python Tesseract
No ratings yet
Python Tesseract
2 pages
Written Notes
No ratings yet
Written Notes
5 pages
License Plate Detection with OpenCV
No ratings yet
License Plate Detection with OpenCV
2 pages
Lab 1 Dip
No ratings yet
Lab 1 Dip
8 pages
Akash Ha
No ratings yet
Akash Ha
10 pages
Tesseract OCR Engine Overview
No ratings yet
Tesseract OCR Engine Overview
15 pages
Opencv Cheatsheet
No ratings yet
Opencv Cheatsheet
65 pages
Improving The Efficiency of Tesseract Ocr Engine
No ratings yet
Improving The Efficiency of Tesseract Ocr Engine
51 pages
Word Extraction-1
No ratings yet
Word Extraction-1
2 pages
A Comparison of Some Morphological Filters For Improving OCR Performance
No ratings yet
A Comparison of Some Morphological Filters For Improving OCR Performance
13 pages
Numerical & Symbolic Computing Lab 03
No ratings yet
Numerical & Symbolic Computing Lab 03
9 pages
CV Lab Manual
No ratings yet
CV Lab Manual
45 pages
OCR: MATLAB & Android Implementation
No ratings yet
OCR: MATLAB & Android Implementation
27 pages
OpenCV Image Processing Operations
No ratings yet
OpenCV Image Processing Operations
14 pages
CV Exp2b
No ratings yet
CV Exp2b
3 pages
REF2 - Basic Image Processing
No ratings yet
REF2 - Basic Image Processing
18 pages
Iqjaqokskss
No ratings yet
Iqjaqokskss
3 pages
Ahsbsdns
No ratings yet
Ahsbsdns
1 page
OCR App Development Guide
No ratings yet
OCR App Development Guide
12 pages
Basics of Computer Vision
No ratings yet
Basics of Computer Vision
38 pages
Simple Python OCR Server Setup
No ratings yet
Simple Python OCR Server Setup
8 pages
CV Lab File
No ratings yet
CV Lab File
39 pages
Drashti CVML
No ratings yet
Drashti CVML
83 pages
OCR With Tesseract, Amazon Textract, and Google Document AI: A Benchmarking Experiment
No ratings yet
OCR With Tesseract, Amazon Textract, and Google Document AI: A Benchmarking Experiment
22 pages
Remove Text from Images with CV2 & Keras
No ratings yet
Remove Text from Images with CV2 & Keras
18 pages
Image Processing with OpenCV Techniques
No ratings yet
Image Processing with OpenCV Techniques
11 pages
Computer Vision Lab Manual 2023-24
No ratings yet
Computer Vision Lab Manual 2023-24
7 pages
P6 - Computer Vision
No ratings yet
P6 - Computer Vision
27 pages
Opencv Cheatsheet
No ratings yet
Opencv Cheatsheet
60 pages
Computer Vision
No ratings yet
Computer Vision
20 pages
Sections Revision
No ratings yet
Sections Revision
27 pages
Telugu OCR Integration Report
No ratings yet
Telugu OCR Integration Report
25 pages
Image Processing Lab Guide
No ratings yet
Image Processing Lab Guide
12 pages
OCR Development for Telugu Documents
No ratings yet
OCR Development for Telugu Documents
32 pages
Image Processing Lab Work
No ratings yet
Image Processing Lab Work
24 pages
Final Chapter 5 - Merged
No ratings yet
Final Chapter 5 - Merged
88 pages
Thesis Complete
No ratings yet
Thesis Complete
124 pages
Od 328482183058791100
No ratings yet
Od 328482183058791100
1 page
Sujan
No ratings yet
Sujan
9 pages
Champions Challenge Dataset
No ratings yet
Champions Challenge Dataset
4,274 pages
CSMA05 Nithin
No ratings yet
CSMA05 Nithin
10 pages
Cert Cert Final
No ratings yet
Cert Cert Final
17 pages
Cns Syllabus
No ratings yet
Cns Syllabus
2 pages
Bhanu
No ratings yet
Bhanu
73 pages
Unit 4 CNS
No ratings yet
Unit 4 CNS
25 pages
Chapter 1
No ratings yet
Chapter 1
22 pages
Plag Check Report 2024 12 07T16 - 16 - 33
No ratings yet
Plag Check Report 2024 12 07T16 - 16 - 33
31 pages
Automated OCR for BFSI Data Extraction
No ratings yet
Automated OCR for BFSI Data Extraction
12 pages
References For Major Project
No ratings yet
References For Major Project
1 page
Unit I
No ratings yet
Unit I
25 pages
BeeS BETPlus App: Android Setup Guide
No ratings yet
BeeS BETPlus App: Android Setup Guide
19 pages

Preprocessing Task

Uploaded by

Preprocessing Task

Uploaded by

NAME: RAVULA SHIVA KUMAR GMAIL: ravula.shivakumar11@gmail.

[Link].tesseract_cmd = r"C:\Program Files\Tesseract-OCR\

# Load the image

Extracted Text After Preprocessing:

You might also like