MANEJO DE
PYTHON
BIY7121 MINERÍA DE DATOS
CONTENIDO
01 04
INTRODUCCION RESUMEN
02
NUMPY
03
PANDAS
01
INTRODUCCIÓN
INTRODUCCIÓN
Python es un lenguaje de programación interpretado
cuya filosofía hace hincapié en una sintaxis que
favorezca un código legible.
Se trata de un lenguaje de programación
multiparadigma, ya que soporta orientación a objetos,
programación imperativa y programación funcional (en
menor medida).
INTRODUCCIÓN
Anaconda es una distribución gratuita y de código
abierto de los lenguajes de programación Python y R
para procesamiento de datos a gran escala, análisis
predictivo y computación científica, cuyo objetivo es
simplificar la administración y la implementación de
paquetes.
Anaconda facilita la instalación de todas las bibliotecas
y paquetes que necesita para un proyecto Python de
una sola vez.
Todo lo que tiene que hacer es crear un "entorno
conda" para su proyecto y luego instalar las bibliotecas
requeridas usando el comando "conda install".
INTRODUCCIÓN
Google Colaboratory, comúnmente conocido como
GOOGLE COLAB, es un servicio gratuito en la nube
proporcionado por Google.
Permite a los usuarios escribir y ejecutar código
Python a través del navegador, sin necesidad de
ninguna configuración previa.
Es particularmente popular para ciencia de datos, por
varias razones:
•No requiere configuración
•Colaboración y Compartir
•Acceso gratuito a GPU
•Entorno de Codificación Interactivo
•Control de versiones:
02
NUMPY TÍTULO
Librería NUMPY
NUMPY es una librería de Python especializada
en el cálculo numérico y el análisis de datos,
especialmente para un gran volumen de datos.
Incorpora una nueva clase de objetos
llamados arrays que permite representar
colecciones de datos de un mismo tipo en
varias dimensiones, y funciones muy eficientes
para su manipulación.
La ventaja de Numpy frente a las listas
predefinidas en Python es que el
procesamiento de los arrays se realiza mucho
más rápido (hasta 50 veces más) que las listas,
lo cual la hace ideal para el procesamiento de
vectores y matrices de grandes dimensiones.
Librería NUMPY
La clase objetos ARRAY.
Un array es una estructura de datos de un
mismo tipo organizada en forma de tabla o
cuadrícula de distintas dimensiones.
Las dimensiones de un array también se
conocen como ejes
Librería NUMPY
Creación de arrays
Para crear un array se utiliza la siguiente función de
NumPy
[Link](lista) : Crea un array a partir de la lista o tupla
lista y devuelve una referencia a él. El número de
dimensiones del array dependerá de las listas o tuplas
anidadas en lista:
Para una lista de valores se crea un array de una dimensión, también conocido
como vector.
Para una lista de listas de valores se crea un array de dos dimensiones, también
conocido como matriz.
Para una lista de listas de listas de valores se crea un array de tres dimensiones,
también conocido como cubo.
Y así sucesivamente. No hay límite en el número de dimensiones del array más
allá de la memoria disponible en el sistema.
Librería NUMPY
Acceso a los elementos de un array.
Para acceder a los elementos contenidos en un array se
usan índices al igual que para acceder a los elementos
de una lista, pero indicando los índices de cada
dimensión separados por comas.
Al igual que para listas, los índices de cada dimensión
comienzan en 0.
También es posible obtener subarrays con el operador
dos puntos : indicando el índice inicial y el siguiente al
final para cada dimensión, de nuevo separados por
comas
Librería NUMPY
Operaciones matemáticas con arrays
Existen dos formas de realizar operaciones matemáticas
con arrays: a nivel de elemento y a nivel de array.
Las operaciones a nivel de elemento operan los
elementos que ocupan la misma posición en dos arrays.
Se necesitan, por tanto, dos arrays con las mismas
dimensiones y el resultado es una array de la misma
dimensión.
Los operadores mamemáticos +, -, *, /, %, ** se utilizan
para la realizar suma, resta, producto, cociente, resto y
potencia a nivel de elemento.
Librería NUMPY
Álgebra matricial
Numpy incorpora funciones para realizar las principales
operaciones algebraicas con vectores y matrices.
Por ejemplo, multiplicación entre matrices.
En la imagen, se devuelve el producto matricial de las
matrices a y b siempre y cuando sus dimensiones sean
compatibles.
03
PANDAS
Librería PANDAS
Pandas es una de las principales librerías de
Python, que es un lenguaje de programación
orientado a objetos de alto nivel muy popular entre
los Data Scientists.
Las estructuras más utilizadas en este módulo son
las Series y los DataFrames.
A diferencia de las Series, que son objetos
correspondientes a paneles unidimensionales, los
DataFrames son paneles bidimensionales
compuestos por filas y columnas, que permiten
destacar las relaciones entre las distintas variables
de la serie de datos.
Librería PANDAS
El formato de estas estructuras puede compararse
con los diccionarios de Python. Efectivamente, las
claves son los nombres de las columnas y los
valores son las Series. Su estructura puede
considerarse similar a la de una hoja de cálculo de
Excel.
Cada fila contiene datos específicos de varias
columnas, que son variables. El nombre de las filas
de un DataFrame se llama «index» que, por defecto,
empieza siempre por 0.
Librería PANDAS
Para importar una serie de datos, la librería Pandas
propone un método muy práctico que
es pd.read_csv().
Si el archivo que contiene la serie de datos está en
otro formato que no sea el de Comma Separated
Value, basta con cambiar la terminación del método
por el tipo de archivo correcto.
Por ejemplo, un archivo de Excel se importará de la
siguiente manera: pd.read_excel(). Este método
importa la serie de datos en una estructura
DataFrame.
Librería PANDAS
Cuando se importa la serie de datos, es necesario tener
una visión general del DataFrame.
El primer paso es utilizar el atributo shape, que permite
conocer la dimensión del DataFrame y devolver una
tupla (número_de_filas, número_de_columnas).
Para entender la serie de datos, hay tres métodos muy
útiles para ver las filas del DataFrame :
• El método head() devuelve las cinco primeras filas del
DataFrame, si no se especifica un número entre
paréntesis.
• Por otro lado, el método tail() permite visualizar las
últimas cinco líneas del DataFrame.
Estos dos métodos permiten visualizar el principio y el
final de la serie de datos
Librería PANDAS
Podemos filtrar nuestros datos utilizando el slice.
Por ejemplo, df[:2] devuelve las dos primeras filas de
nuestro DataFrame. No hay que olvidar que el último
número es exógeno al resultado, lo que significa que en
el ejemplo, el slicing devolverá las filas al índice 0 y 1
Librería PANDAS
Como se explicó en la introducción, los DataFrames son
tablas bidimensionales, que corresponden a los ejes de
las filas (eje = 0) y de las columnas (eje = 1). Se pueden
añadir tantas filas o columnas como sea necesario,
especificando el eje en el que queremos añadir estos
nuevos valores.
Lo interesante de los DataFrames es que es muy fácil
recuperar, cambiar, cargar o buscar datos en esta
estructura.
Librería PANDAS
Si el DataFrame tiene diez variables diferentes, se
puede saber cuáles son sus nombres utilizando el
atributo [Link]. Pero cuando la serie de datos
tiene ochocientas columnas, la visualización de los
nombres de las variables no será completa.
Para resolver este problema, se puede utilizar el
método [Link](), que permite almacenar los
nombres de las columnas en una lista de Python.
04
RESUMEN
RESUMEN
En esta presentación, hemos visto:
❑ Introducción a Python
❑ Librería NUMPY
❑ Librería PANDAS