0% encontró este documento útil (0 votos)
36 vistas2 páginas

Guía de Referencia de PySpark

Este documento resume los conceptos clave y las API en PySpark 3.0. Cubre los fundamentos de Spark como RDDs, DataFrames y Datasets. También abarca los módulos de PySpark para SQL, streaming, aprendizaje automático y procesamiento de gráficos. Finalmente, resume las transformaciones y acciones comunes de DataFrame para manipular datos, así como la funcionalidad de Spark SQL.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
36 vistas2 páginas

Guía de Referencia de PySpark

Este documento resume los conceptos clave y las API en PySpark 3.0. Cubre los fundamentos de Spark como RDDs, DataFrames y Datasets. También abarca los módulos de PySpark para SQL, streaming, aprendizaje automático y procesamiento de gráficos. Finalmente, resume las transformaciones y acciones comunes de DataFrame para manipular datos, así como la funcionalidad de Spark SQL.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Guía Rápida de Referencia de PySpark 3.

0
¿Qué es Apache Spark? Catálogo de PySpark (spark.catalog) • Función Distribuida
‒forEach()
• Marco de computación en clúster de código abierto • cacheTable() -forEachPartition()
• Totalmente escalable y tolerante a fallos • borrarCache()
• API simples para Python, SQL, Scala y R • crearTabla() Transformaciones de DataFrame de PySpark
• Aplicaciones de transmisión y por lotes sin interrupciones • crearTablaExterna() • Datos Agrupados
• Bibliotecas integradas para el acceso a datos, transmisión, • baseDeDatosActual ‒cubo()
integración de datos, procesamiento de gráficos, y • eliminarVistaTemporal() ‒groupBy()
análisis avanzado / aprendizaje automático • listarBasesDeDatos() ‒pivot()
• listarTablas() ‒cogroup()
Terminología de Spark • listarFunciones() • Estadísticas
• listarColumnas() ‒aproxCuantile()
• Controlador: el proceso local que gestiona el • isCached()
sesión de chispa y resultados devueltos ‒corr()
• recuperarParticiones() ‒contar()
• Trabajadores: nodos informáticos que realizan • refrescarTabla() ‒cov()
cómputo paralelo • actualizarPorRuta() ‒crosstab()
• Ejecutores: procesos en nodos trabajadores • registrarFunción() ‒describir()
que realiza la computación paralela • establecerBaseDeDatosActual() ‒freqItems()
• La acción es ya sea una instrucción para retornar • eliminarCacheTabla() ‒resumen()
algo al conductor o para salir datos a API de Fuentes de Datos de PySpark • Control de columna / celda
un sistema de archivos o base de datos ‒drop() # elimina columnas
• Lector de entrada / Fuente de transmisión ‒fillna() #alias para na.fillreplace()
• Transformación: es cualquier cosa que no sea un spark.leer
la acción y se realizan de manera perezosa ‒select(), selectExpr()
‒cargar() ‒conColumna()
• Mapa: indica las operaciones que pueden ejecutarse en un ‒esquema() ‒conColumnaRenombrada()
moda independiente de fila ‒tabla() ‒colRegex()
• Escritor de salida / Sumidero de streaming
• Reduce: indica operaciones que tienen • Control de fila
dependencias intra-fila df.escribir
‒bucketBy() ‒asc()
• Shuffle: es el movimiento de datos de ‒insertarEn() ‒asc_nulls_first()
ejecutores para realizar una operación Reduce ‒modo() asc_nulls_last()
• RDD: Conjunto de Datos Distribuido Redundante es ‒modoDeSalida() # transmisión ‒desc()
el formato de datos en memoria legado ‒partitionBy() ‒desc_nulls_first()
• DataFrame: un objeto orientado a objetos flexible ‒guardar() ‒desc_nulls_last()
‒guardarComoTabla() ‒distinto()
estructura de datos que tiene una fila/columna ‒ordenarPor() ‒eliminarDuplicados()
esquema ‒start() # transmisión ‒dropna() #alias para na.drop
• Conjunto de datos: una estructura de datos similar a un DataFrame ‒trigger() # streaming ‒filtro()
que no tiene un esquema de filas/columnas • Entrada / Salida Común ‒límite()
‒csv() • Clasificación
Bibliotecas Spark ‒formato() ‒asc()
• ML: es la biblioteca de aprendizaje automático con ‒jdbc() ‒asc_nulls_first()
herramientas para estadísticas, caracterización, evaluación, ‒json() ‒asc_nulls_last()
‒parquet()
clasificación ‒opción(), opciones() ‒desc()
minería, regresión y recomendación ‒orc() ‒desc_nulls_first()
• GraphFrames / GraphX: es el gráfico ‒desc_nulls_last()
biblioteca de análisis ‒ordenar()/ordenarPor()
• Structured Streaming: es la biblioteca que Streaming estructurado ‒ordenarDentroDeParticiones()
maneja la transmisión en tiempo real a través de micro-
• ConsultaDeTransmisión • Muestreo
lotes y DataFrames ilimitados ‒awaitTermination() ‒muestra()
‒excepción() ‒muestraPor()
Tipos de Datos de Spark ‒explicar() ‒randomSplit()
• Cadenas ‒foreach() • Transformaciones NA (Nulo/Faltante)
‒foreachBatch() ‒na.eliminar()
TipoCadena
• Fechas / Horas id ‒na.fill()
TipoDeFecha está activo ‒na.replace()
‒TipoDeMarcaDeTiempo últimoProgreso • Caché / Punto de control / Canalización
• Numérico nombre ‒punto de control()
TipoDecimal ‒procesarTodoDisponible() ‒puntoDeControlLocal()
TipoDoble progresoReciente persistir()
idDeEjecución
‒TipoFlotante ‒conMarcaDeAgua() # transmisión
‒TipoByte estado ‒toDF()
TipoEntero ‒detener()
Gestor de Consultas en Streaming (spark.streams) ‒transformar()
TipoLargo • • Uniéndose
TipoCorto activo
• Tipos Complejos ‒esperarCualquierTerminación() ‒difundir()
TipoDeArreglo ‒obtener() ‒unir()
TipoDeMapa ‒reiniciarTerminados() ‒crossJoin()
StructType ‒exceptAll()
‒CampoEstructura Acciones de DataFrame en PySpark ‒sugerir()
• Otro • Salida local (conductor) ‒intersect(),intersectAll()
TipoBooleano ‒recoger() ‒restar()
TipoBinario ‒mostrar() ‒unión()
‒TipoNulo (Ninguno) ‒toJSON() ‒unionPorNombre()
‒toLocalIterator() • Python Pandas
Sesión de PySpark (spark) ‒toPandas() ‒aplicar()
• spark.createDataFrame() ‒tomar() ‒pandas_udf()
• spark.range() ‒cola( ‒mapEnPandas()
flujos.chispas • Acciones de estado ‒applyInPandas()
• ‒columnas()
• spark.sql() • SQL
spark.tabla() ‒explicar() ‒createGlobalTempView()
• esLocal()
• spark.udf() ¿Está transmitiendo()
‒crearOReemplazarVistaTemporalGlobal()
• spark.version() ‒crearOReemplazarVistaTemporal()
‒printSchema() ‒createTempView()
• spark.stop() ‒tipos de datos
• Control de particiones ‒registrarFunciónJava()
‒repartir() ‒registrarJavaUDAF()
‒repartirPorRango()
‒coalesce()

➢ Soluciones de Migración ➢ Consultoría Técnica


www.wisewithdata.com
➢ Soluciones Analíticas ➢ Educación
Guía rápida de referencia de PySpark 3.0
Funciones del DataFrame de PySpark • Fecha y hora • Colecciones (Arreglos y Mapas)
‒añadir_meses() ‒array()
• Agregaciones (df.groupBy()) ‒fecha_actual() ‒array_contains()
‒agg() ‒timestamp_actual() ‒array_distinct()
‒aprox_count_distinto() ‒date_add(), date_sub() ‒array_except()
‒contar() ‒formato_fecha() ‒array_intersect()
‒contarDistintos() ‒date_trunc() ‒array_join()
‒media() ‒datediff() array_max()
‒min(), max() ‒díadelasemana() ‒array_position()
primero ‒díadelmes() ‒array_remove()
‒agrupando() ‒díadelaño() ‒array_repeat()
‒id_grupo() ‒from_unixtime() ‒array_sort()
‒kurtosis() ‒from_utc_timestamp() ‒array_union()
‒asimetría() hora() ‒arrays_overlap()
‒desviación estándar()
‒desviación estándar poblacional()
‒último_día(),próximo_día() ‒arrays_zip()
minuto() ‒crear_mapa()
‒stddev_muestra()
‒mes() ‒elemento_en()
‒suma() ‒meses_diferencia() ‒aplanar()
‒sumDistinct() trimestre() ‒map_concat()
‒var_pop() ‒segundo() ‒map_entries()
‒var_samp() ‒to_date() ‒map_from_arrays()
‒varianza() ‒to_timestamp() ‒map_from_entries()
• Operadores de columna
‒to_utc_timestamp() ‒map_keys()
‒alias() ‒trunc() -map_values()
‒entre() ‒unix_timestamp() ‒secuencia()
‒contiene() ‒semanaDelAño() ‒mezclar()
‒eqNullSafe() ‒ventana() ‒tamaño()
esNulo() año() ‒cortar()
‒isin() Cadena ‒ordenar_array()
‒isnan() •
‒concat() • Conversión
‒like() ‒concat_ws() ‒base64(), unbase64()
‒rlike() ‒formato_cadena() ‒bin()
‒obtenerElemento()
‒obtenerCampo()
‒initcap() ‒cast()
‒instr() ‒conv()
‒empieza_con(), termina_con()
Matemáticas Básicas ‒longitud() ‒codificar(), decodificar()
• ‒levenshtein() ‒from_avro(), to_avro()
‒abs() ‒localizar() desde_csv()
‒exp(), expm1() minusculas ‒from_json(), to_json()
‒factorial() ‒lpad(), rpad() ‒get_json_object()
‒suelo(), techo() ‒ltrim(), rtrim() ‒hex(), unhex()
mayor ‒superponer()
‒pot() Agregados de Ventana en PySpark
‒regexp_extract()
‒round(), bround() ‒regexp_replace() • Operadores de ventana
‒rand() ‒repetir() ‒sobre()
‒randn() ‒reversa() • Especificación de ventana
‒sqrt(), cbrt() ‒soundex() ‒ordenarPor()
‒log(), log2(), log10(), log1p() ‒dividir() ‒partitionBy()
‒signum() ‒substring() ‒rangoEntre()
• Trigonometría ‒substring_index() ‒rowsBetween()
‒cos(), cosh(), acos() ‒traducir() • Funciones de Clasificación
‒grados() recortar ntile()
‒hipot() Hash ‒percentRank()
‒radianes() •
‒crc32() ‒rank(), denseRank()
‒sin(), sinh(), asin() ‒hash() ‒numero_fila()
‒tan(), tanh(), atan(), atan2() ‒md5() • Funciones Analíticas
• Estadísticas multivariadas ‒cume_dist()
‒sha1(), sha2()
‒corr() ‒xxhash64() ‒lag(), lead()
‒covar_pop() Especial • Funciones de agregado
‒covar_muestra() •
‒col() ‒Todas las funciones de agregado enumeradas
• Lógica Condicional ‒expr() • Ejemplo de Especificación de Ventana
‒coalesce() ‒nombre_archivo_entrada() de pyspark.sql.window import Window
‒nanvl() ‒lit() ventanaEspecificación
de lo contrario()
‒id_incremetal_monótono() Ventana
‒cuando() ‒spark_partition_id() .partitionBy(...) \
• Formateo .ordenarPor(...)
‒formato_cadena() .rowsBetween(inicio, fin) # Especificación de ventana de FILA
‒formatear_número() #o
• Creación de fila .rangoEntre(inicio, fin) #Especificación de Ventana de RANGO
explotar()
‒posexplode(), posexplode_outer() # uso de ejemplo en una transformación de DataFrame
• Inferencia de Esquema df.withColumn('rango', rank(...).over(windowSpec)
‒esquema_de_csv()
‒schema_de_json()
©WiseWithData 2020-Version 3.0-0622

➢ Soluciones de Migración ➢ Consultoría Técnica


www.wisewithdata.com
➢ Soluciones Analíticas ➢ Educación

También podría gustarte