100% found this document useful (1 vote)

7K views4 pages

Unstructtured Data Classification Fresco

The document loads IMDB movie review data, preprocesses it by tokenizing, lemmatizing, removing stop words, and splits it into training and test sets. It then applies two classifiers - an SVM classifier and an SGD classifier - to the training data and evaluates their performance on the test set. Key steps include data loading and preprocessing, feature extraction using CountVectorizer, model training on the training set, and evaluation on the test set.

Uploaded by

sujesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

7K views4 pages

Unstructtured Data Classification Fresco

Uploaded by

sujesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

#Data Loading

imdb=pd.read_csv('imdb.csv')
imdb.columns = ["index","text","label"]
print(imdb.head(5))

-------------------------------------------------------------

data_size = imdb.shape

print(data_size)

imdb_col_names = list(imdb.columns)

print(imdb_col_names)
print(imdb.groupby('label').describe())
print(imdb.head(3))

-------------------------------------------------------------

imdb_target=imdb['label']

print(imdb_target)

-------------------------------------------------------------

from nltk.tokenize import word_tokenize

import nltk
nltk.download('all')

def split_tokens(text):

message = text.lower()

word_tokens = word_tokenize(text)

return word_tokens

imdb['tokenized_message'] = imdb.apply(lambda row:split_tokens(row['text']),axis=1)

-------------------------------------------------------------

from nltk.stem.wordnet import WordNetLemmatizer

def split_into_lemmas(text):

lemma = []

lemmatizer = WordNetLemmatizer()

for word in text:

a=lemmatizer.lemmatize(word)

lemma.append(a)

return lemma
imdb['lemmatized_message'] = imdb.apply(lambda row:
split_into_lemmas(row['tokenized_message']),axis=1)

print('Tokenized message:', imdb['tokenized_message'][55] )

print('Lemmatized message:', imdb['lemmatized_message'][55])

-------------------------------------------------------------

from nltk.corpus import stopwords

def stopword_removal(text):

stop_words = set(stopwords.words('english'))

filtered_sentence = []

filtered_sentence = ' '.join([word for word in text if word not in stop_words])

return filtered_sentence

imdb['preprocessed_message'] = imdb.apply(lambda row:

stopword_removal(row['lemmatized_message']),axis=1)

print('Preprocessed message:',imdb['preprocessed_message'])

Training_data=pd.Series(list(imdb['preprocessed_message']))

Training_label=pd.Series(list(imdb['label']))

-------------------------------------------------------------

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

training_data=pd.Series(list(imdb['preprocessed_message']))

training_label=pd.Series(list(imdb['label']))

tf_vectorizer = CountVectorizer(ngram_range=(1,2),min_df=(1/len(Training_label)),
max_df=0.7)

Total_Dictionary_TDM = tf_vectorizer.fit(Training_data)

message_data_TDM = Total_Dictionary_TDM.transform(training_data)

-------------------------------------------------------------
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer( ngram_range = (1,2), min_df =

(1/len(training_label)),max_df=0.7 )

Total_Dictionary_TFIDF = tfidf_vectorizer.fit(training_data)

message_data_TFIDF = Total_Dictionary_TFIDF.transform(training_data)

-------------------------------------------------------------

from sklearn.model_selection import train_test_split#Splitting the data for

training and testing

train_data,test_data, train_label, test_label =

train_test_split(message_data_TDM, training_label, test_size=0.1)

-------------------------------------------------------------

seed=9
from sklearn.svm import SVC

train_data_shape = train_data.shape

test_data_shape = test_data.shape

print("The shape of train data : ", train_data.shape)

print("The shape of test data : ", test_data.shape)

classifier = SVC(kernel="linear",C=0.025, random_state=seed)

classifier = classifier.fit(train_data,train_label)

#target =

score = classifier.fit(train_data,train_label)

print('SVM Classifier : ',score)

with open('output.txt', 'w') as file:

file.write(str((imdb['tokenized_message'][55],imdb['lemmatized_message'][55])))

-------------------------------------------------------------

from sklearn.linear_model import SGDClassifier

train_data,test_data, train_label, test_label = train_test_split(message_data_TDM,
training_label, test_size=0.1)

train_data_shape = train_data.shape

test_data_shape = test_data.shape

print("The shape of train data : ",train_data.shape)

print("The shape of test data : ",test_data.shape)

classifier = SGDClassifier(loss = 'modified_huber', shuffle=True,

random_state=seed)

classifier = classifier.fit(train_data,train_label)

#target=

score = classifier.score(test_data,test_label)

print('SGD classifier : ',score)

with open('output1.txt', 'w') as file:

file.write(str((imdb['preprocessed_message'][55])))

-------------------------------------------------------------

Scikit-learn Data Preprocessing Techniques
No ratings yet
Scikit-learn Data Preprocessing Techniques
4 pages
Scala Constructs: Concepts of Functional Programming
No ratings yet
Scala Constructs: Concepts of Functional Programming
21 pages
R Data Visualization Hands-On Guide
100% (3)
R Data Visualization Hands-On Guide
3 pages
Python Pandas MCQs
No ratings yet
Python Pandas MCQs
7 pages
Tensor Flow
No ratings yet
Tensor Flow
2 pages
Create A DataFrame
No ratings yet
Create A DataFrame
1 page
Python Qualis
No ratings yet
Python Qualis
6 pages
Machine Learning - Exploring The Model Q&A.txt TCS
100% (1)
Machine Learning - Exploring The Model Q&A.txt TCS
1 page
Milestone Challenge On Used Bikes Data Set
25% (8)
Milestone Challenge On Used Bikes Data Set
11 pages
Blue Prism
No ratings yet
Blue Prism
5 pages
Python3 - Programming-Final Assessment - INCOMPLETO
No ratings yet
Python3 - Programming-Final Assessment - INCOMPLETO
32 pages
Security Analytics With Apache Metron
0% (2)
Security Analytics With Apache Metron
3 pages
Python 3 Programming
No ratings yet
Python 3 Programming
3 pages
NLP Using Python
No ratings yet
NLP Using Python
50 pages
SVD in Image Classification Preprocessing
No ratings yet
SVD in Image Classification Preprocessing
3 pages
ReactJS - Interlace Your Interface
100% (1)
ReactJS - Interlace Your Interface
2 pages
Data Visulization FrescoPlay MFDM
No ratings yet
Data Visulization FrescoPlay MFDM
2 pages
Rasa Chatbot Features and Functions Guide
No ratings yet
Rasa Chatbot Features and Functions Guide
2 pages
This Study Resource Was
No ratings yet
This Study Resource Was
6 pages
An Enlightenment To Machine Learning
No ratings yet
An Enlightenment To Machine Learning
3 pages
Hands-On Data Science and Blockchain Essentials
50% (4)
Hands-On Data Science and Blockchain Essentials
4 pages
Continuous Deployment Essentials
No ratings yet
Continuous Deployment Essentials
2 pages
DNN Handson
No ratings yet
DNN Handson
2 pages
Deep Learning - Chorale Prelude
No ratings yet
Deep Learning - Chorale Prelude
2 pages
NumPy - Python Package For Data
No ratings yet
NumPy - Python Package For Data
3 pages
Nightwatch Respuestas
100% (2)
Nightwatch Respuestas
5 pages
Datascience Quiz
33% (3)
Datascience Quiz
3 pages
Kafka - Premiera Ola
No ratings yet
Kafka - Premiera Ola
5 pages
Association Rule Mining FAQs
No ratings yet
Association Rule Mining FAQs
3 pages
Data Mining Nostos
No ratings yet
Data Mining Nostos
2 pages
NoSQL Gnosis 61211
No ratings yet
NoSQL Gnosis 61211
3 pages
Python Programming Concepts and Outputs
100% (1)
Python Programming Concepts and Outputs
12 pages
Import As From Import Import: Problem 1
100% (1)
Import As From Import Import: Problem 1
5 pages
Fresco Play Training 2
No ratings yet
Fresco Play Training 2
12 pages
Maven Coalescing Pipeline Overview
20% (5)
Maven Coalescing Pipeline Overview
3 pages
Finally Matplotlib MCQ Mil Gya
0% (1)
Finally Matplotlib MCQ Mil Gya
4 pages
Gradle & Jenkins Build Insights
No ratings yet
Gradle & Jenkins Build Insights
4 pages
Magento Test Questions
No ratings yet
Magento Test Questions
23 pages
Data Analysis & Processing Guide
100% (2)
Data Analysis & Processing Guide
17 pages
MFDM
100% (1)
MFDM
2 pages
Py Spark Final
No ratings yet
Py Spark Final
1 page
R Basics Hands On
0% (2)
R Basics Hands On
4 pages
Increasing List
No ratings yet
Increasing List
2 pages
Python 3 Programming Q & A
No ratings yet
Python 3 Programming Q & A
4 pages
Security Analytics With Apache Metron
67% (6)
Security Analytics With Apache Metron
3 pages
Machine Learning Axiom
100% (2)
Machine Learning Axiom
3 pages
Unstructured Data Classification
No ratings yet
Unstructured Data Classification
5 pages
Build a Deep Neural Network in Python
0% (1)
Build a Deep Neural Network in Python
6 pages
Cursos Infrastructure As A Code
No ratings yet
Cursos Infrastructure As A Code
2 pages
Kafka Remanere
No ratings yet
Kafka Remanere
3 pages
Image Classification Handson-Image - Test
No ratings yet
Image Classification Handson-Image - Test
5 pages
Clustering - The Data Ensemble Q&A
No ratings yet
Clustering - The Data Ensemble Q&A
2 pages
Unstructured Data Classification Handson
No ratings yet
Unstructured Data Classification Handson
4 pages
News Classification with TF-IDF and PCA
No ratings yet
News Classification with TF-IDF and PCA
2 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
Application Code
No ratings yet
Application Code
3 pages
NLP Assignment (917722H031)
No ratings yet
NLP Assignment (917722H031)
18 pages
NLP Tushar
No ratings yet
NLP Tushar
21 pages
Topic Classifierby David Caleb
No ratings yet
Topic Classifierby David Caleb
7 pages
NLP Lab
No ratings yet
NLP Lab
18 pages
Cayley-Hamilton Theorem Verification
No ratings yet
Cayley-Hamilton Theorem Verification
8 pages
Transducers For Humidity and Temperature
No ratings yet
Transducers For Humidity and Temperature
180 pages
ULN2065
No ratings yet
ULN2065
12 pages
Pattern Language For Game Design
100% (9)
Pattern Language For Game Design
503 pages
Detailed Lesson Plan IN Grade 7 - Earth and Space I. Objectives
No ratings yet
Detailed Lesson Plan IN Grade 7 - Earth and Space I. Objectives
10 pages
Cage Density Effects on Duck Performance
No ratings yet
Cage Density Effects on Duck Performance
8 pages
Mock Test in Science 5
No ratings yet
Mock Test in Science 5
8 pages
Aggregate Agro Inndia Fpoundtion
100% (1)
Aggregate Agro Inndia Fpoundtion
18 pages
Information Management: Prof. Sara Foresti, Prof. Giovanni Livraga
No ratings yet
Information Management: Prof. Sara Foresti, Prof. Giovanni Livraga
2 pages
IELTS Mock Test 2025 February
No ratings yet
IELTS Mock Test 2025 February
14 pages
Criticisms of The Theory of Administration
No ratings yet
Criticisms of The Theory of Administration
8 pages
Lecture02 BTree
No ratings yet
Lecture02 BTree
5 pages
Bow 6-RB Epp 2ND Q
No ratings yet
Bow 6-RB Epp 2ND Q
3 pages
Iere High School Exam Timetable 2025
No ratings yet
Iere High School Exam Timetable 2025
2 pages
Unit Lesson Plan 5
No ratings yet
Unit Lesson Plan 5
3 pages
Plastic Hinge Integration Methods For Force-Based Beam-Column Elements
No ratings yet
Plastic Hinge Integration Methods For Force-Based Beam-Column Elements
9 pages
3D Analogue Clock Project
100% (1)
3D Analogue Clock Project
2 pages
SLV10010075451DCQ
No ratings yet
SLV10010075451DCQ
9 pages
4339B Resistance Meter Service Manual
No ratings yet
4339B Resistance Meter Service Manual
66 pages
Kangaroo Kids Profile
No ratings yet
Kangaroo Kids Profile
2 pages
Motion Following Robot
No ratings yet
Motion Following Robot
21 pages
Sound Concepts for Grade 8 Science
No ratings yet
Sound Concepts for Grade 8 Science
10 pages
Short Play and Communication SPACE
No ratings yet
Short Play and Communication SPACE
12 pages
Short Answer Key: Practice Problems 1
No ratings yet
Short Answer Key: Practice Problems 1
2 pages
Astm C591 21
No ratings yet
Astm C591 21
7 pages
10 Vol 103 No 1
No ratings yet
10 Vol 103 No 1
12 pages
Shruti Rastogi RESUME
No ratings yet
Shruti Rastogi RESUME
1 page
Indiana University Press Meridians: This Content Downloaded From 128.192.114.19 On Mon, 25 Apr 2016 17:19:06 UTC
No ratings yet
Indiana University Press Meridians: This Content Downloaded From 128.192.114.19 On Mon, 25 Apr 2016 17:19:06 UTC
34 pages
Instant Access Test Bank Cardiovascular and Pulmonary Physical Therapy Third Edition by William DeTurk Lawerence Cahalin Ebook and TestBank Bundle
No ratings yet
Instant Access Test Bank Cardiovascular and Pulmonary Physical Therapy Third Edition by William DeTurk Lawerence Cahalin Ebook and TestBank Bundle
344 pages
Arpan Jain's Academic and Research Profile
No ratings yet
Arpan Jain's Academic and Research Profile
1 page