Guía de Referencia de PySpark
Guía de Referencia de PySpark
0
¿Qué es Apache Spark? Catálogo de PySpark (spark.catalog) • Función Distribuida
‒forEach()
• Marco de computación en clúster de código abierto • cacheTable() -forEachPartition()
• Totalmente escalable y tolerante a fallos • borrarCache()
• API simples para Python, SQL, Scala y R • crearTabla() Transformaciones de DataFrame de PySpark
• Aplicaciones de transmisión y por lotes sin interrupciones • crearTablaExterna() • Datos Agrupados
• Bibliotecas integradas para el acceso a datos, transmisión, • baseDeDatosActual ‒cubo()
integración de datos, procesamiento de gráficos, y • eliminarVistaTemporal() ‒groupBy()
análisis avanzado / aprendizaje automático • listarBasesDeDatos() ‒pivot()
• listarTablas() ‒cogroup()
Terminología de Spark • listarFunciones() • Estadísticas
• listarColumnas() ‒aproxCuantile()
• Controlador: el proceso local que gestiona el • isCached()
sesión de chispa y resultados devueltos ‒corr()
• recuperarParticiones() ‒contar()
• Trabajadores: nodos informáticos que realizan • refrescarTabla() ‒cov()
cómputo paralelo • actualizarPorRuta() ‒crosstab()
• Ejecutores: procesos en nodos trabajadores • registrarFunción() ‒describir()
que realiza la computación paralela • establecerBaseDeDatosActual() ‒freqItems()
• La acción es ya sea una instrucción para retornar • eliminarCacheTabla() ‒resumen()
algo al conductor o para salir datos a API de Fuentes de Datos de PySpark • Control de columna / celda
un sistema de archivos o base de datos ‒drop() # elimina columnas
• Lector de entrada / Fuente de transmisión ‒fillna() #alias para na.fillreplace()
• Transformación: es cualquier cosa que no sea un spark.leer
la acción y se realizan de manera perezosa ‒select(), selectExpr()
‒cargar() ‒conColumna()
• Mapa: indica las operaciones que pueden ejecutarse en un ‒esquema() ‒conColumnaRenombrada()
moda independiente de fila ‒tabla() ‒colRegex()
• Escritor de salida / Sumidero de streaming
• Reduce: indica operaciones que tienen • Control de fila
dependencias intra-fila df.escribir
‒bucketBy() ‒asc()
• Shuffle: es el movimiento de datos de ‒insertarEn() ‒asc_nulls_first()
ejecutores para realizar una operación Reduce ‒modo() asc_nulls_last()
• RDD: Conjunto de Datos Distribuido Redundante es ‒modoDeSalida() # transmisión ‒desc()
el formato de datos en memoria legado ‒partitionBy() ‒desc_nulls_first()
• DataFrame: un objeto orientado a objetos flexible ‒guardar() ‒desc_nulls_last()
‒guardarComoTabla() ‒distinto()
estructura de datos que tiene una fila/columna ‒ordenarPor() ‒eliminarDuplicados()
esquema ‒start() # transmisión ‒dropna() #alias para na.drop
• Conjunto de datos: una estructura de datos similar a un DataFrame ‒trigger() # streaming ‒filtro()
que no tiene un esquema de filas/columnas • Entrada / Salida Común ‒límite()
‒csv() • Clasificación
Bibliotecas Spark ‒formato() ‒asc()
• ML: es la biblioteca de aprendizaje automático con ‒jdbc() ‒asc_nulls_first()
herramientas para estadísticas, caracterización, evaluación, ‒json() ‒asc_nulls_last()
‒parquet()
clasificación ‒opción(), opciones() ‒desc()
minería, regresión y recomendación ‒orc() ‒desc_nulls_first()
• GraphFrames / GraphX: es el gráfico ‒desc_nulls_last()
biblioteca de análisis ‒ordenar()/ordenarPor()
• Structured Streaming: es la biblioteca que Streaming estructurado ‒ordenarDentroDeParticiones()
maneja la transmisión en tiempo real a través de micro-
• ConsultaDeTransmisión • Muestreo
lotes y DataFrames ilimitados ‒awaitTermination() ‒muestra()
‒excepción() ‒muestraPor()
Tipos de Datos de Spark ‒explicar() ‒randomSplit()
• Cadenas ‒foreach() • Transformaciones NA (Nulo/Faltante)
‒foreachBatch() ‒na.eliminar()
TipoCadena
• Fechas / Horas id ‒na.fill()
TipoDeFecha está activo ‒na.replace()
‒TipoDeMarcaDeTiempo últimoProgreso • Caché / Punto de control / Canalización
• Numérico nombre ‒punto de control()
TipoDecimal ‒procesarTodoDisponible() ‒puntoDeControlLocal()
TipoDoble progresoReciente persistir()
idDeEjecución
‒TipoFlotante ‒conMarcaDeAgua() # transmisión
‒TipoByte estado ‒toDF()
TipoEntero ‒detener()
Gestor de Consultas en Streaming (spark.streams) ‒transformar()
TipoLargo • • Uniéndose
TipoCorto activo
• Tipos Complejos ‒esperarCualquierTerminación() ‒difundir()
TipoDeArreglo ‒obtener() ‒unir()
TipoDeMapa ‒reiniciarTerminados() ‒crossJoin()
StructType ‒exceptAll()
‒CampoEstructura Acciones de DataFrame en PySpark ‒sugerir()
• Otro • Salida local (conductor) ‒intersect(),intersectAll()
TipoBooleano ‒recoger() ‒restar()
TipoBinario ‒mostrar() ‒unión()
‒TipoNulo (Ninguno) ‒toJSON() ‒unionPorNombre()
‒toLocalIterator() • Python Pandas
Sesión de PySpark (spark) ‒toPandas() ‒aplicar()
• spark.createDataFrame() ‒tomar() ‒pandas_udf()
• spark.range() ‒cola( ‒mapEnPandas()
flujos.chispas • Acciones de estado ‒applyInPandas()
• ‒columnas()
• spark.sql() • SQL
spark.tabla() ‒explicar() ‒createGlobalTempView()
• esLocal()
• spark.udf() ¿Está transmitiendo()
‒crearOReemplazarVistaTemporalGlobal()
• spark.version() ‒crearOReemplazarVistaTemporal()
‒printSchema() ‒createTempView()
• spark.stop() ‒tipos de datos
• Control de particiones ‒registrarFunciónJava()
‒repartir() ‒registrarJavaUDAF()
‒repartirPorRango()
‒coalesce()