SMDT
Reporte de estado técnico (Twitter)
¿Qué se ha hecho?
Tweepy
2
ALGORITMOS Realizado en Python. Utiliza la API Key que provee
Twitter. Pero, así mismo limita las consultas.
Tweepy
1
SERVIDOR Realizado también en Python, pero extrae todos los datos
de la interfaz de Twitter, a través de métodos reales de
Scrapping.
¿Cómo funciona Tweepy?
Se configura de la siguiente forma. Para ampliar el rango de tweets, se implementó
un pequeño “hack” cuya función era iterar por
rangos de fechas, cada consulta.
Luego se ejecuta un query, y éste extrae Estos resultados se procesan y se guarda la info.
máximo los 450 más recientes tweets entre una obtenida en una lista de tweets.
fecha y otra, que se ajusten a dicho query.
Pros Velocidad
Contras Limitaciones
Threads
¿Cómo funciona TwitterScrapper? Un Thread es un componente en
programación que se encarga de
ejecutar un grupo de tareas de forma
paralela e independiente al programa
Genera un pool de Threads para obtener paralelamente los Tweets. principal.
Maneja a la vez un grupo de Proxies para no ser identificados por
Twitter. Proxies
Un Proxy es un componente en
programación que se encarga de
Luego se ejecuta un query, y éste extrae todos los Tweets inventar una dirección (IP) de cliente
falsa. De esta manera, se puede
existentes según unos parámetros. conectar de distintos ‘puntos’ a un
mismo servicio engañando al
servidor que atiende las solicitudes.
Estos resultados se procesan y se guarda la info. obtenida en una Para este caso, se usa con Twitter de
forma que éste no detecte que se
lista de tweets. están haciendo miles de consultas
de un sólo lugar en menos de un
minuto.
Pros No hay limitación de consulta.
Contras Velocidad, aparente límite en Proxies.
¿Qué queremos hacer?
¿Cuál es la diferencia entre buscar en Twitter y nuestra propuesta?
¿Qué queremos hacer?
¿Buscar Tweets? Twitter lo hace mejor
¿Recolectarlos? Twitter lo hace mejor
¿Dar Insights? Podemos hacerlo mejor
¿Qué queremos hacer?
NO queremos una herramienta que busque Tweets.
Queremos una herramienta que logre ofrecer a partir de
esos Tweets información clara en forma de Insights.
PROBLEMA SOLUCIÓN
Permitir que los usuarios de forma concurrente exploren
en la base de datos de Twitter de forma directa,
buscando tener toda la información, es algo que
actualmente no hacemos bien.
☹
Cambios necesarios
Obtención de datos
2
ALGORITMOS Debemos considerar la forma en la que obtenemos los datos.
Vamos a eventualmente necesitar usar el convenio por las
limitaciones.
Forma de uso
No buscamos construir un algoritmo de búsqueda, porque estos ya
existen; queremos construir una herramienta que, a partir de estos
algoritmos nos permitan ver información respecto a los temas
escogidos.
Cambios necesarios
De SEARCH a STREAM
De BROWSE a EXPLORE “This is the essential difference between the
two APIs. Search goes back in time and
streaming goes forward. When you first
decide to collect tweets on a subject, you
have nothing to start with. The search API is
La propuesta a futuro es… best used then to fill in the past 7 days for
your subject matter. This is often called
Hacer una sola búsqueda inicial dada una TAXONOMÍA definida. back-filling. With a database caught up to the
present moment, you can then turn on the
streaming API and capture all tweets going
forward.”
Almacenar la información encontrada en nuestras bases de datos. Tomado de…
[Link]
ng-tweets-search-api-vs-streaming-api/
Procesarla.
Implementar otro algoritmo de Streaming que recolecta esta misma
información que necesitamos, pero a medida que ésta surja.
Ofrecer una plataforma, independiente al algoritmo, que permita ver
esta información y resolver las necesidades del usuario con ésta.
Propuesta
De SEARCH a STREAM
De BROWSE a EXPLORE “This is the essential difference between the
two APIs. Search goes back in time and
streaming goes forward. When you first
decide to collect tweets on a subject, you
have nothing to start with. The search API is
best used then to fill in the past 7 days for
your subject matter. This is often called
back-filling. With a database caught up to the
present moment, you can then turn on the
streaming API and capture all tweets going
forward.”
Tomado de…
[Link]
ng-tweets-search-api-vs-streaming-api/