0% encontró este documento útil (0 votos)

78 vistas11 páginas

Análisis de Sentimientos en Tweets

En el presente trabajo se resolverá el problema planteado a través del empleo de técnicas de text mining.

Cargado por

MELANY PALOMA CHAN SOSA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

78 vistas11 páginas

Análisis de Sentimientos en Tweets

En el presente trabajo se resolverá el problema planteado a través del empleo de técnicas de text mining.

Cargado por

MELANY PALOMA CHAN SOSA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

FACULTAD DE CIENCIAS E INGENIERÍA

Analytics 2 (1IND51-0731)

Horario: 0731
Alumnos:

Apellidos y Nombres Código Participación

(%)

Chan Sosa, Melany Paloma 20172523 100

Cacho Zavaleta Sofía 20172721 100

Flavio Andre Fuertes Godenzzi 20180907 100

Frank Neil Huallpa Chura 20143024 100

2022-1
1. Resumen ejecutivo.

En el presente trabajo se resolverá el problema planteado a través del empleo de

técnicas de text mining.

El Text Mining consiste en automatizar el análisis de texto gracias al Machine

Learning. Para conseguirlo, se entrenan los algoritmos con ayuda de textos a modo
de datos de ejemplo

Para poder realizar el análisis tomamos las siguientes suposiciones

● Tiene que haber relaciones entre los datos.

● Los grupos en los cuales se segmentan datos son interpretables y se pueden
diferenciar entre sí
Indice ejecutivo

Página

1. Resumen ejecutivo
1

2. Indice ejecutivo
2

3. Objetivo de trabajo
3

4. Descripción de la base de datos asignadas

5. Análisis descriptivo de la base de datos

6. Identificación de las tecnicas de analitica aplicables a

cada caso 8

7. Código en R empleado
1
4

3. Objetivo del trabajo

● Emplear técnicas de text mining para poder determinar la tendencia de sentimiento
de los tweets proporcionados en la base de datos.
● Generar un código que mediante diversas funciones permite interpretar los tweet.

4. Descripción de la base de datos asignadas

Base de datos recolectada de Twiter segmentado mediante las siguientes clasificaciones:

Locación
Tweet Fecha
Tweet original
Etiqueta

Tabla 1 : Base de datos

5. Análisis descriptivo de la base de datos

La base de datos trabaja con tres tipos de variables, primero se definirán los tipos de
variables y luego se clasificarán las variables.
Las variables categóricas contienen un número limitado de clases o grupos distintos.
Una variable discreta es una variable que tiene un número contable de valores entre dos
valores cualesquiera.
Una variable continua es una variable que tiene un número infinito de valores entre dos
valores cualesquiera.

Ahora se presentan las variables con su tipo.

Locación ( variable categórica)

Tweet Fecha ( variable categórica)
Tweet original ( variable categórica)
Etiqueta ( variable categórica)

6. Identificación de las tecnicas de analitica aplicables a cada caso:

● Primero se crea una función para eliminar direcciones URL

● Función para remover caracteres distintos de palabras
● Personalizamos palabras conectores
● Construimos el corpus

Limpiamos el corpus , se convierte todo a minúsculas, se remueve número y

puntuación y retiramos los espacios en blanco.

● Completamos o cortamos las palabras a su raíz

● Reemplazo de palabras por palabras similares de mayor frecuencia
● Se construye la matriz término

7. Código de R empleado

#Fijamos los datos

setwd("C:/Users/Usuario/OneDrive/Documents/8vo ciclo/Analytics 2")

#Cargar datos

data_test <- [Link]("Corona_NLP_test.csv", "header" = TRUE, sep = ",",encoding =

"UTF-8")

data_train <- [Link]("Corona_NLP_train.csv", "header" = TRUE, sep = ",",encoding

= "UTF-8")

summary(data_test)

summary(data_train)

library(magrittr)

(n.data_test <- dim(data_test)[1])

#Instalamos el packages("NLP")

library(tm)

# Eliminamos el URL

removeURL <- function(x) gsub("http[^[:space:]]*", "", x)

# Funcion para remover cosas distintas de palabras

removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x)

# Personalziando palabras conectoras

myStopwords <- c(setdiff(stopwords('english'), c("r", "big")),"use", "see", "used",

"via", "amp")

data_test $OriginalTweet[20] %>% strwrap(60) %>% writeLines()

data_test $OriginalTweet <- iconv(data1$OriginalTweet, "ASCII", "UTF-8", sub="byte")

#Creamos el corpus

[Link] <-data_test$OriginalTweet %>% VectorSource() %>% Corpus()

[Link] <- [Link] %>%

#Limpieza del corpus

# Convertir todo a minÃºsculas

tm_map(content_transformer(tolower)) %>%

# Remover numeros y puntuaciÃ³n

tm_map(content_transformer(removeNumPunct)) %>%

# Retirar a las palabras conectoras

tm_map(removeWords, myStopwords) %>%

# Remover los espacios en blanco extras

tm_map(stripWhitespace)

#[Link]("SnowballC")

library(SnowballC)

#Completado/Cortado de palabras a palabras raiz

[Link] <- [Link] %>% tm_map(stemDocument)

#Completado a raiz

stemCompletion2 <- function(x, dictionary) {

x <- unlist(strsplit([Link](x), " "))

x <- x[x != ""]

x <- stemCompletion(x, dictionary=dictionary) #REVISAR

x <- paste(x, sep="", collapse=" ")

stripWhitespace(x)

[Link] <- [Link] %>%

lapply(stemCompletion2, dictionary=[Link]) %>%

VectorSource() %>% Corpus()

#Contador de frecuencia de palaras

wordFreq <- function(corpus, word) {

results <- lapply(corpus,

function(x) grep([Link](x), pattern=paste0("\\<",word)) )

sum(unlist(results))

[Link] <- [Link] %>% wordFreq("miner")

[Link] <- [Link] %>% wordFreq("mining")

cat([Link], [Link])

# Remplazo de palabra antigua con las palabras nuevas

replaceWord <- function(corpus, oldword, newword) {

tm_map(corpus, content_transformer(gsub),

pattern=oldword, replacement=newword)

[Link] <- [Link] %>%

replaceWord("miner", "mining") %>%

replaceWord("universidad", "university") %>%

replaceWord("scienc", "science")

#Construccion de la matriz de termino

## Build Term Document Matrix

tdm <- [Link] %>%

TermDocumentMatrix(control = list(wordLengths = c(1, Inf))) %>%

# ANALISIS EXPLORATORIO DE LA MATRIZ DE TERMINOS

# Identificar dentro de la matriz de terminos la busqueda de terminos relacionados a

"r"

idx <- which(dimnames(tdm)$Terms %in% c("r", "data", "mining"))

tdm[idx, 21:30] %>% [Link]()

# Terminos que cumplen con una frecuencia minima

[Link] <- tdm %>% findFreqTerms(lowfreq = 30) %>% print

# Tabla de frecuencia de terminos por encima de una frecuencia minima

[Link] <- tdm %>% [Link]() %>% rowSums()

[Link] <- [Link] %>% subset([Link] >= 20)

df <- [Link](term = names([Link]), freq = [Link])

## Frecuencia de terminos

library(ggplot2)

ggplot(df, aes(x=term, y=freq)) + geom_bar(stat="identity") +

xlab("Terms") + ylab("Count") + coord_flip() +

theme([Link]=element_text(size=14))

## word cloud

m <- tdm %>% [Link]

# calculate the frequency of words and sort it by frequency

[Link] <- m %>% rowSums() %>% sort(decreasing = T)

# colors

library(RColorBrewer)

pal <- [Link](9, "BuGn")[-(1:4)]

# plot word cloud

library(wordcloud)

wordcloud(words = names([Link]), freq = [Link], [Link] = 3,

[Link] = F, colors = "palegreen3")

## Medicion de nivel de relaci?n entre terminos

tdm %>% findAssocs("r", 0.2)

tdm %>% findAssocs("data", 0.2)

# Clustering Jerarquico
## clustering of terms remove sparse terms

m2 <- tdm %>% removeSparseTerms(sparse = 0.95) %>% [Link]()

# calculate distance matrix

[Link] <- m2 %>% scale() %>% dist()

fit <- [Link] %>% hclust(method = "ward.D")

#ploteo

plot(fit)

fit %>% [Link](k = 3) # cut tree into 6 clusters

groups <- fit %>% cutree(k = 3)

##CLUSTERING DE TERMINOS POR K MEDIAS

## k-means clustering of documents

m3 <- m2 %>% t() # transpose the matrix to cluster documents (tweets)

[Link](122) # set a fixed random seed to make the result reproducible

k <- 6 # number of clusters

kmeansResult <- kmeans(m3, k)

round(kmeansResult$centers, digits = 3)

for (i in 1:k) {

cat(paste("cluster ", i, ": ", sep = ""))

s <- sort(kmeansResult$centers[i, ], decreasing = T)

cat(names(s)[1:5], "\n")

# print the tweets of every cluster

# print(tweets[which(kmeansResult?cluster==i)])

También podría gustarte

Análisis de Tweets para Negocios
Aún no hay calificaciones
Análisis de Tweets para Negocios
8 páginas
Análisis de Discursos Presidenciales de Vizcarra
Aún no hay calificaciones
Análisis de Discursos Presidenciales de Vizcarra
10 páginas
Resoluccion de Ejercicio
Aún no hay calificaciones
Resoluccion de Ejercicio
20 páginas
Taller Análisis de Sentimientos
Aún no hay calificaciones
Taller Análisis de Sentimientos
5 páginas
Documento 8
Aún no hay calificaciones
Documento 8
7 páginas
Documento 8
Aún no hay calificaciones
Documento 8
7 páginas
Guía R: Instalación y Minería de Tweets
Aún no hay calificaciones
Guía R: Instalación y Minería de Tweets
10 páginas
Wa0013.
Aún no hay calificaciones
Wa0013.
7 páginas
Wa0008.
Aún no hay calificaciones
Wa0008.
15 páginas
Análisis Semántico con Text Analytics
Aún no hay calificaciones
Análisis Semántico con Text Analytics
64 páginas
Análisis de Tweets con R para Principiantes
Aún no hay calificaciones
Análisis de Tweets con R para Principiantes
34 páginas
Ejercicio Práctico #3 (Evaluable)
Aún no hay calificaciones
Ejercicio Práctico #3 (Evaluable)
4 páginas
Informe Inteligencia de Mercados
Aún no hay calificaciones
Informe Inteligencia de Mercados
10 páginas
Wa0046.
Aún no hay calificaciones
Wa0046.
8 páginas
Caso1 PLN
Aún no hay calificaciones
Caso1 PLN
14 páginas
Informe Practica Analisis de Sentimientos Rstudio
Aún no hay calificaciones
Informe Practica Analisis de Sentimientos Rstudio
15 páginas
2021 Nicolas Cortes
Aún no hay calificaciones
2021 Nicolas Cortes
45 páginas
Wa0010.
Aún no hay calificaciones
Wa0010.
23 páginas
Agrupamiento Jerárquico de Documentos Textuales
Aún no hay calificaciones
Agrupamiento Jerárquico de Documentos Textuales
18 páginas
Tercer Informe
Aún no hay calificaciones
Tercer Informe
27 páginas
Análisis Textual de Discursos Presidenciales Perú
Aún no hay calificaciones
Análisis Textual de Discursos Presidenciales Perú
9 páginas
Estudio Sobre Tendencias en L Ineas de Investigaci On en Los Trabajos de Grado Del Programa de Estad Istica de La Universidad Del Valle
Aún no hay calificaciones
Estudio Sobre Tendencias en L Ineas de Investigaci On en Los Trabajos de Grado Del Programa de Estad Istica de La Universidad Del Valle
43 páginas
Creación y manipulación de tablas en R
Aún no hay calificaciones
Creación y manipulación de tablas en R
23 páginas
Resumen Extractivo de Documentos. Un Análisis Comparativo de Técnicas de Puntuación
Aún no hay calificaciones
Resumen Extractivo de Documentos. Un Análisis Comparativo de Técnicas de Puntuación
108 páginas
PLANtesisanalisiscuscooooooooooooooo
Aún no hay calificaciones
PLANtesisanalisiscuscooooooooooooooo
11 páginas
Análisis de Texto en Twitter con Python
Aún no hay calificaciones
Análisis de Texto en Twitter con Python
35 páginas
Análisis de Sentimientos en Twitter
Aún no hay calificaciones
Análisis de Sentimientos en Twitter
44 páginas
Proyecto de Análisis de Pokémon con TF-IDF y PCA
Aún no hay calificaciones
Proyecto de Análisis de Pokémon con TF-IDF y PCA
5 páginas
Análisis de Sentimientos en Tweets Españoles
Aún no hay calificaciones
Análisis de Sentimientos en Tweets Españoles
112 páginas
Algoritmo KDD para Investigación Social
Aún no hay calificaciones
Algoritmo KDD para Investigación Social
142 páginas
Escenarios de Análisis de Texto
Aún no hay calificaciones
Escenarios de Análisis de Texto
6 páginas
Análisis de Clustering en WEKA
Aún no hay calificaciones
Análisis de Clustering en WEKA
4 páginas
Guía de R para Análisis de Datos
Aún no hay calificaciones
Guía de R para Análisis de Datos
11 páginas
Herrera María Cbceesta U2 t2
Aún no hay calificaciones
Herrera María Cbceesta U2 t2
11 páginas
Opencv Analisis de Sentimientos
Aún no hay calificaciones
Opencv Analisis de Sentimientos
10 páginas
TPF Natello 2022
Aún no hay calificaciones
TPF Natello 2022
13 páginas
T Ecnicas de Agrupamiento para El Analisis de Datos Cuantitativos y Cualitativos
Aún no hay calificaciones
T Ecnicas de Agrupamiento para El Analisis de Datos Cuantitativos y Cualitativos
53 páginas
Peso en Palabras
Aún no hay calificaciones
Peso en Palabras
8 páginas
Guía RMarkdown para Estadística Social
Aún no hay calificaciones
Guía RMarkdown para Estadística Social
9 páginas
Análisis de Datos por Brandon Salcedo
Aún no hay calificaciones
Análisis de Datos por Brandon Salcedo
18 páginas
Análisis de Sentimientos en Tweets
Aún no hay calificaciones
Análisis de Sentimientos en Tweets
8 páginas
Hiponimos
Aún no hay calificaciones
Hiponimos
40 páginas
38 Text Minig Con R Ejemplo Practico Twitter
Aún no hay calificaciones
38 Text Minig Con R Ejemplo Practico Twitter
42 páginas
Wa0009.
Aún no hay calificaciones
Wa0009.
18 páginas
Clase 6 Herramientas de Big Data para La Gestión Comercial
Aún no hay calificaciones
Clase 6 Herramientas de Big Data para La Gestión Comercial
15 páginas
Clasificación Automática de Textos Utilizando Técnicas de Text Mining Aplicación A Las Glosas de La Encuesta Nacional de Empleo (Ene)
Aún no hay calificaciones
Clasificación Automática de Textos Utilizando Técnicas de Text Mining Aplicación A Las Glosas de La Encuesta Nacional de Empleo (Ene)
27 páginas
Tc3.1 PLN-ML Grupo#2 18,57 20
Aún no hay calificaciones
Tc3.1 PLN-ML Grupo#2 18,57 20
93 páginas
Análisis de Microarrays con R/BioConductor
Aún no hay calificaciones
Análisis de Microarrays con R/BioConductor
7 páginas
Icesi Economic Lecture Notes 9 2020
Aún no hay calificaciones
Icesi Economic Lecture Notes 9 2020
28 páginas
Análisis de datos textuales con DtmVic
100% (1)
Análisis de datos textuales con DtmVic
42 páginas
Minería de Datos (Final)
Aún no hay calificaciones
Minería de Datos (Final)
28 páginas
Análisis Avanzado de Big Data
Aún no hay calificaciones
Análisis Avanzado de Big Data
54 páginas
Guía de Inicio Rápido de R
Aún no hay calificaciones
Guía de Inicio Rápido de R
7 páginas
MGTPN Parte3
Aún no hay calificaciones
MGTPN Parte3
57 páginas
Rstudio
Aún no hay calificaciones
Rstudio
3 páginas
Análisis de Datos en Salud con NLP
Aún no hay calificaciones
Análisis de Datos en Salud con NLP
9 páginas
Pregunta 1 PPT Análisis Grandes Cantidades - 2023
Aún no hay calificaciones
Pregunta 1 PPT Análisis Grandes Cantidades - 2023
29 páginas
TallerUnidad4 BigData
Aún no hay calificaciones
TallerUnidad4 BigData
11 páginas
Tarea Académica - Primer Avance
Aún no hay calificaciones
Tarea Académica - Primer Avance
14 páginas
Guía para Reconfigurar Índice de Tesis
Aún no hay calificaciones
Guía para Reconfigurar Índice de Tesis
4 páginas
Proyecto Urban Park: Planificación y Presupuesto
Aún no hay calificaciones
Proyecto Urban Park: Planificación y Presupuesto
15 páginas
Informe Parcial-Elaboracion y Evaluacion de Proyectos
Aún no hay calificaciones
Informe Parcial-Elaboracion y Evaluacion de Proyectos
45 páginas
Estudio Prefactibilidad Alcohol Gel
Aún no hay calificaciones
Estudio Prefactibilidad Alcohol Gel
80 páginas
Informe Parcial
Aún no hay calificaciones
Informe Parcial
44 páginas
Trabajo Aplicativo - EDT (Grupo 1)
Aún no hay calificaciones
Trabajo Aplicativo - EDT (Grupo 1)
6 páginas
Trabajo Aplicativo - ProjectCharter (Grupo 1)
Aún no hay calificaciones
Trabajo Aplicativo - ProjectCharter (Grupo 1)
6 páginas
Cronograma
Aún no hay calificaciones
Cronograma
31 páginas
Proyectos Inmobiliarios en Constitución
Aún no hay calificaciones
Proyectos Inmobiliarios en Constitución
6 páginas
Estructura de Desglose Del Trabajo (EDT) : 1. Administración Previa
Aún no hay calificaciones
Estructura de Desglose Del Trabajo (EDT) : 1. Administración Previa
5 páginas
Automatización Industria de Una Planta de Alfajores
Aún no hay calificaciones
Automatización Industria de Una Planta de Alfajores
38 páginas
Diseño de Proyecto para La Toma de Decisiones Aplicando Teoría y Principios de Business Intelligence
Aún no hay calificaciones
Diseño de Proyecto para La Toma de Decisiones Aplicando Teoría y Principios de Business Intelligence
13 páginas
Dinámica de La Cadena de Suministro Esbelta de La Empresa Minera Au Plata Mining Group
Aún no hay calificaciones
Dinámica de La Cadena de Suministro Esbelta de La Empresa Minera Au Plata Mining Group
39 páginas
Análisis del Grupo Minero Chicama
Aún no hay calificaciones
Análisis del Grupo Minero Chicama
18 páginas
Simulación y Mejora de Procesos en Starbucks
Aún no hay calificaciones
Simulación y Mejora de Procesos en Starbucks
84 páginas
Atm FSM
Aún no hay calificaciones
Atm FSM
12 páginas
Monitoreo de IPs en Windows
Aún no hay calificaciones
Monitoreo de IPs en Windows
10 páginas
Oferta Académica 2023 en UNETI
Aún no hay calificaciones
Oferta Académica 2023 en UNETI
41 páginas
DL05
Aún no hay calificaciones
DL05
681 páginas
Material de Estudio - Módulo 3
Aún no hay calificaciones
Material de Estudio - Módulo 3
20 páginas
Instalación Driver USB RADWAG Windows
Aún no hay calificaciones
Instalación Driver USB RADWAG Windows
5 páginas
Cuadro Comparativo
Aún no hay calificaciones
Cuadro Comparativo
4 páginas
Procedimiento de Staffing VASS 2021
100% (1)
Procedimiento de Staffing VASS 2021
8 páginas
Grupo - 7 - Caso SolarWinds
Aún no hay calificaciones
Grupo - 7 - Caso SolarWinds
3 páginas
Análisis de Sentimientos en Twitter
Aún no hay calificaciones
Análisis de Sentimientos en Twitter
19 páginas
3.3.4 Arduino 2
100% (1)
3.3.4 Arduino 2
15 páginas
PDF Tribunas de Hormigon Premoldeado2 CLTT
Aún no hay calificaciones
PDF Tribunas de Hormigon Premoldeado2 CLTT
5 páginas
Anticristo Segun San Alfonso M. Ligorio y Otros Santos
Aún no hay calificaciones
Anticristo Segun San Alfonso M. Ligorio y Otros Santos
53 páginas
Guia de Instalacion PBX
Aún no hay calificaciones
Guia de Instalacion PBX
18 páginas
Práctica de NETCONF y YANG en GNS3
Aún no hay calificaciones
Práctica de NETCONF y YANG en GNS3
19 páginas
Comparativa de Arquitecturas Harvard y Von Neumann
Aún no hay calificaciones
Comparativa de Arquitecturas Harvard y Von Neumann
6 páginas
Margen, Artículos y Descuentos
Aún no hay calificaciones
Margen, Artículos y Descuentos
21 páginas
Devolución de Factura de Equipos Médicos
Aún no hay calificaciones
Devolución de Factura de Equipos Médicos
1 página
Manual de Usuario Plazas de Parking
Aún no hay calificaciones
Manual de Usuario Plazas de Parking
12 páginas
11.ofimatica Empresarial II
Aún no hay calificaciones
11.ofimatica Empresarial II
5 páginas
Hackrom Inazuma Eleven GO: Temporal Heroes
Aún no hay calificaciones
Hackrom Inazuma Eleven GO: Temporal Heroes
2 páginas
TS Informatica - Modulo I - Ferreira
Aún no hay calificaciones
TS Informatica - Modulo I - Ferreira
12 páginas
Atajos de Teclado en Excel
Aún no hay calificaciones
Atajos de Teclado en Excel
9 páginas
Manual Baan
Aún no hay calificaciones
Manual Baan
47 páginas
Reporte - 5 Impresión 3D
Aún no hay calificaciones
Reporte - 5 Impresión 3D
3 páginas
El Oficio
Aún no hay calificaciones
El Oficio
6 páginas
Cronograma de Actividades Tarea 4
Aún no hay calificaciones
Cronograma de Actividades Tarea 4
2 páginas
Saldos Iniciales en Exact Globe Next
Aún no hay calificaciones
Saldos Iniciales en Exact Globe Next
2 páginas
Men T 03
Aún no hay calificaciones
Men T 03
2 páginas
Taller Practico Condicionales Cencala
Aún no hay calificaciones
Taller Practico Condicionales Cencala
8 páginas