Guía de Referencia de PySpark

Este documento resume los conceptos clave y las API en PySpark 3.0. Cubre los fundamentos de Spark como RDDs, DataFrames y Datasets. También abarca los módulos de PySpark para SQL, streaming, aprendizaje automático y procesamiento de gráficos. Finalmente, resume las transformaciones y acciones comunes de DataFrame para manipular datos, así como la funcionalidad de Spark SQL.

Cargado por

ScribdTranslations

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

36 vistas2 páginas

Guía de Referencia de PySpark

Cargado por

ScribdTranslations

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Guía Rápida de Referencia de PySpark 3.

0
¿Qué es Apache Spark? Catálogo de PySpark (spark.catalog) • Función Distribuida
‒forEach()
• Marco de computación en clúster de código abierto • cacheTable() -forEachPartition()
• Totalmente escalable y tolerante a fallos • borrarCache()
• API simples para Python, SQL, Scala y R • crearTabla() Transformaciones de DataFrame de PySpark
• Aplicaciones de transmisión y por lotes sin interrupciones • crearTablaExterna() • Datos Agrupados
• Bibliotecas integradas para el acceso a datos, transmisión, • baseDeDatosActual ‒cubo()
integración de datos, procesamiento de gráficos, y • eliminarVistaTemporal() ‒groupBy()
análisis avanzado / aprendizaje automático • listarBasesDeDatos() ‒pivot()
• listarTablas() ‒cogroup()
Terminología de Spark • listarFunciones() • Estadísticas
• listarColumnas() ‒aproxCuantile()
• Controlador: el proceso local que gestiona el • isCached()
sesión de chispa y resultados devueltos ‒corr()
• recuperarParticiones() ‒contar()
• Trabajadores: nodos informáticos que realizan • refrescarTabla() ‒cov()
cómputo paralelo • actualizarPorRuta() ‒crosstab()
• Ejecutores: procesos en nodos trabajadores • registrarFunción() ‒describir()
que realiza la computación paralela • establecerBaseDeDatosActual() ‒freqItems()
• La acción es ya sea una instrucción para retornar • eliminarCacheTabla() ‒resumen()
algo al conductor o para salir datos a API de Fuentes de Datos de PySpark • Control de columna / celda
un sistema de archivos o base de datos ‒drop() # elimina columnas
• Lector de entrada / Fuente de transmisión ‒fillna() #alias para na.fillreplace()
• Transformación: es cualquier cosa que no sea un spark.leer
la acción y se realizan de manera perezosa ‒select(), selectExpr()
‒cargar() ‒conColumna()
• Mapa: indica las operaciones que pueden ejecutarse en un ‒esquema() ‒conColumnaRenombrada()
moda independiente de fila ‒tabla() ‒colRegex()
• Escritor de salida / Sumidero de streaming
• Reduce: indica operaciones que tienen • Control de fila
dependencias intra-fila df.escribir
‒bucketBy() ‒asc()
• Shuffle: es el movimiento de datos de ‒insertarEn() ‒asc_nulls_first()
ejecutores para realizar una operación Reduce ‒modo() asc_nulls_last()
• RDD: Conjunto de Datos Distribuido Redundante es ‒modoDeSalida() # transmisión ‒desc()
el formato de datos en memoria legado ‒partitionBy() ‒desc_nulls_first()
• DataFrame: un objeto orientado a objetos flexible ‒guardar() ‒desc_nulls_last()
‒guardarComoTabla() ‒distinto()
estructura de datos que tiene una fila/columna ‒ordenarPor() ‒eliminarDuplicados()
esquema ‒start() # transmisión ‒dropna() #alias para na.drop
• Conjunto de datos: una estructura de datos similar a un DataFrame ‒trigger() # streaming ‒filtro()
que no tiene un esquema de filas/columnas • Entrada / Salida Común ‒límite()
‒csv() • Clasificación
Bibliotecas Spark ‒formato() ‒asc()
• ML: es la biblioteca de aprendizaje automático con ‒jdbc() ‒asc_nulls_first()
herramientas para estadísticas, caracterización, evaluación, ‒json() ‒asc_nulls_last()
‒parquet()
clasificación ‒opción(), opciones() ‒desc()
minería, regresión y recomendación ‒orc() ‒desc_nulls_first()
• GraphFrames / GraphX: es el gráfico ‒desc_nulls_last()
biblioteca de análisis ‒ordenar()/ordenarPor()
• Structured Streaming: es la biblioteca que Streaming estructurado ‒ordenarDentroDeParticiones()
maneja la transmisión en tiempo real a través de micro-
• ConsultaDeTransmisión • Muestreo
lotes y DataFrames ilimitados ‒awaitTermination() ‒muestra()
‒excepción() ‒muestraPor()
Tipos de Datos de Spark ‒explicar() ‒randomSplit()
• Cadenas ‒foreach() • Transformaciones NA (Nulo/Faltante)
‒foreachBatch() ‒na.eliminar()
TipoCadena
• Fechas / Horas id ‒na.fill()
TipoDeFecha está activo ‒na.replace()
‒TipoDeMarcaDeTiempo últimoProgreso • Caché / Punto de control / Canalización
• Numérico nombre ‒punto de control()
TipoDecimal ‒procesarTodoDisponible() ‒puntoDeControlLocal()
TipoDoble progresoReciente persistir()
idDeEjecución
‒TipoFlotante ‒conMarcaDeAgua() # transmisión
‒TipoByte estado ‒toDF()
TipoEntero ‒detener()
Gestor de Consultas en Streaming (spark.streams) ‒transformar()
TipoLargo • • Uniéndose
TipoCorto activo
• Tipos Complejos ‒esperarCualquierTerminación() ‒difundir()
TipoDeArreglo ‒obtener() ‒unir()
TipoDeMapa ‒reiniciarTerminados() ‒crossJoin()
StructType ‒exceptAll()
‒CampoEstructura Acciones de DataFrame en PySpark ‒sugerir()
• Otro • Salida local (conductor) ‒intersect(),intersectAll()
TipoBooleano ‒recoger() ‒restar()
TipoBinario ‒mostrar() ‒unión()
‒TipoNulo (Ninguno) ‒toJSON() ‒unionPorNombre()
‒toLocalIterator() • Python Pandas
Sesión de PySpark (spark) ‒toPandas() ‒aplicar()
• spark.createDataFrame() ‒tomar() ‒pandas_udf()
• spark.range() ‒cola( ‒mapEnPandas()
flujos.chispas • Acciones de estado ‒applyInPandas()
• ‒columnas()
• spark.sql() • SQL
spark.tabla() ‒explicar() ‒createGlobalTempView()
• esLocal()
• spark.udf() ¿Está transmitiendo()
‒crearOReemplazarVistaTemporalGlobal()
• spark.version() ‒crearOReemplazarVistaTemporal()
‒printSchema() ‒createTempView()
• spark.stop() ‒tipos de datos
• Control de particiones ‒registrarFunciónJava()
‒repartir() ‒registrarJavaUDAF()
‒repartirPorRango()
‒coalesce()

➢ Soluciones de Migración ➢ Consultoría Técnica

www.wisewithdata.com
➢ Soluciones Analíticas ➢ Educación
Guía rápida de referencia de PySpark 3.0
Funciones del DataFrame de PySpark • Fecha y hora • Colecciones (Arreglos y Mapas)
‒añadir_meses() ‒array()
• Agregaciones (df.groupBy()) ‒fecha_actual() ‒array_contains()
‒agg() ‒timestamp_actual() ‒array_distinct()
‒aprox_count_distinto() ‒date_add(), date_sub() ‒array_except()
‒contar() ‒formato_fecha() ‒array_intersect()
‒contarDistintos() ‒date_trunc() ‒array_join()
‒media() ‒datediff() array_max()
‒min(), max() ‒díadelasemana() ‒array_position()
primero ‒díadelmes() ‒array_remove()
‒agrupando() ‒díadelaño() ‒array_repeat()
‒id_grupo() ‒from_unixtime() ‒array_sort()
‒kurtosis() ‒from_utc_timestamp() ‒array_union()
‒asimetría() hora() ‒arrays_overlap()
‒desviación estándar()
‒desviación estándar poblacional()
‒último_día(),próximo_día() ‒arrays_zip()
minuto() ‒crear_mapa()
‒stddev_muestra()
‒mes() ‒elemento_en()
‒suma() ‒meses_diferencia() ‒aplanar()
‒sumDistinct() trimestre() ‒map_concat()
‒var_pop() ‒segundo() ‒map_entries()
‒var_samp() ‒to_date() ‒map_from_arrays()
‒varianza() ‒to_timestamp() ‒map_from_entries()
• Operadores de columna
‒to_utc_timestamp() ‒map_keys()
‒alias() ‒trunc() -map_values()
‒entre() ‒unix_timestamp() ‒secuencia()
‒contiene() ‒semanaDelAño() ‒mezclar()
‒eqNullSafe() ‒ventana() ‒tamaño()
esNulo() año() ‒cortar()
‒isin() Cadena ‒ordenar_array()
‒isnan() •
‒concat() • Conversión
‒like() ‒concat_ws() ‒base64(), unbase64()
‒rlike() ‒formato_cadena() ‒bin()
‒obtenerElemento()
‒obtenerCampo()
‒initcap() ‒cast()
‒instr() ‒conv()
‒empieza_con(), termina_con()
Matemáticas Básicas ‒longitud() ‒codificar(), decodificar()
• ‒levenshtein() ‒from_avro(), to_avro()
‒abs() ‒localizar() desde_csv()
‒exp(), expm1() minusculas ‒from_json(), to_json()
‒factorial() ‒lpad(), rpad() ‒get_json_object()
‒suelo(), techo() ‒ltrim(), rtrim() ‒hex(), unhex()
mayor ‒superponer()
‒pot() Agregados de Ventana en PySpark
‒regexp_extract()
‒round(), bround() ‒regexp_replace() • Operadores de ventana
‒rand() ‒repetir() ‒sobre()
‒randn() ‒reversa() • Especificación de ventana
‒sqrt(), cbrt() ‒soundex() ‒ordenarPor()
‒log(), log2(), log10(), log1p() ‒dividir() ‒partitionBy()
‒signum() ‒substring() ‒rangoEntre()
• Trigonometría ‒substring_index() ‒rowsBetween()
‒cos(), cosh(), acos() ‒traducir() • Funciones de Clasificación
‒grados() recortar ntile()
‒hipot() Hash ‒percentRank()
‒radianes() •
‒crc32() ‒rank(), denseRank()
‒sin(), sinh(), asin() ‒hash() ‒numero_fila()
‒tan(), tanh(), atan(), atan2() ‒md5() • Funciones Analíticas
• Estadísticas multivariadas ‒cume_dist()
‒sha1(), sha2()
‒corr() ‒xxhash64() ‒lag(), lead()
‒covar_pop() Especial • Funciones de agregado
‒covar_muestra() •
‒col() ‒Todas las funciones de agregado enumeradas
• Lógica Condicional ‒expr() • Ejemplo de Especificación de Ventana
‒coalesce() ‒nombre_archivo_entrada() de pyspark.sql.window import Window
‒nanvl() ‒lit() ventanaEspecificación
de lo contrario()
‒id_incremetal_monótono() Ventana
‒cuando() ‒spark_partition_id() .partitionBy(...) \
• Formateo .ordenarPor(...)
‒formato_cadena() .rowsBetween(inicio, fin) # Especificación de ventana de FILA
‒formatear_número() #o
• Creación de fila .rangoEntre(inicio, fin) #Especificación de Ventana de RANGO
explotar()
‒posexplode(), posexplode_outer() # uso de ejemplo en una transformación de DataFrame
• Inferencia de Esquema df.withColumn('rango', rank(...).over(windowSpec)
‒esquema_de_csv()
‒schema_de_json()
©WiseWithData 2020-Version 3.0-0622

➢ Soluciones de Migración ➢ Consultoría Técnica

www.wisewithdata.com
➢ Soluciones Analíticas ➢ Educación

También podría gustarte

Saludos Formales e Informales
Aún no hay calificaciones
Saludos Formales e Informales
3 páginas
Attachment 6. SPD Preparation Sheet
Aún no hay calificaciones
Attachment 6. SPD Preparation Sheet
1 página
Plan de Protección Contra Caídas
Aún no hay calificaciones
Plan de Protección Contra Caídas
11 páginas
Especificaciones Técnicas Del YUNENG ZJA6KY
Aún no hay calificaciones
Especificaciones Técnicas Del YUNENG ZJA6KY
12 páginas
ACTIVIDAD 6 AÑO (A y B) INSTRUMENTOS MUSICALES.
Aún no hay calificaciones
ACTIVIDAD 6 AÑO (A y B) INSTRUMENTOS MUSICALES.
3 páginas
Preguntas de Opción Múltiple
Aún no hay calificaciones
Preguntas de Opción Múltiple
32 páginas
Ejercicio de Los Gráficos de Levey-Jennings
Aún no hay calificaciones
Ejercicio de Los Gráficos de Levey-Jennings
1 página
Preparación y Dilución de Soluciones - Experimento 2
Aún no hay calificaciones
Preparación y Dilución de Soluciones - Experimento 2
11 páginas
Modelos de Relación Médico-Paciente
Aún no hay calificaciones
Modelos de Relación Médico-Paciente
4 páginas
El Atomismo Lógico y El Positivismo Lógico
Aún no hay calificaciones
El Atomismo Lógico y El Positivismo Lógico
6 páginas
Actividad de mf.2
Aún no hay calificaciones
Actividad de mf.2
20 páginas
Gestión Enfocada en Resultados
Aún no hay calificaciones
Gestión Enfocada en Resultados
9 páginas
Concepción Mecánica - Análisis Estructural CM
Aún no hay calificaciones
Concepción Mecánica - Análisis Estructural CM
22 páginas
Entrenamiento Mes 1-3-5-7-9-11 Hombre Hipertrofia
Aún no hay calificaciones
Entrenamiento Mes 1-3-5-7-9-11 Hombre Hipertrofia
13 páginas
Una Teoría Del Todo
Aún no hay calificaciones
Una Teoría Del Todo
5 páginas
Clase 3 Inglés Todos Los Planes de Lecciones
Aún no hay calificaciones
Clase 3 Inglés Todos Los Planes de Lecciones
11 páginas
Autobiografía de Un Yogui
Aún no hay calificaciones
Autobiografía de Un Yogui
3 páginas
Charadas - Múltiples Niveles
Aún no hay calificaciones
Charadas - Múltiples Niveles
4 páginas
RDO No. 52 - Ciudad de Parañaque
Aún no hay calificaciones
RDO No. 52 - Ciudad de Parañaque
197 páginas
Gestión de La Cadena de Suministro en Hospitales
Aún no hay calificaciones
Gestión de La Cadena de Suministro en Hospitales
6 páginas
Defensa 2
Aún no hay calificaciones
Defensa 2
5 páginas
Puntos de Exú
Aún no hay calificaciones
Puntos de Exú
4 páginas
SAS Armas Ametralladoras Pesadas DSHK
Aún no hay calificaciones
SAS Armas Ametralladoras Pesadas DSHK
1 página
Enseñanza Colaborativa
Aún no hay calificaciones
Enseñanza Colaborativa
29 páginas
Aspectos Del Habla Conectada
Aún no hay calificaciones
Aspectos Del Habla Conectada
32 páginas
Resumen de "Las Cenizas de Ángela"
Aún no hay calificaciones
Resumen de "Las Cenizas de Ángela"
17 páginas
Identificación de Los Cables Multiplexados
Aún no hay calificaciones
Identificación de Los Cables Multiplexados
32 páginas
El Arte de La Facilitación de Casas
Aún no hay calificaciones
El Arte de La Facilitación de Casas
9 páginas
Bosques, Silvicultura y El Sistema Biofísico
Aún no hay calificaciones
Bosques, Silvicultura y El Sistema Biofísico
81 páginas
Plan de Contingencia Transporte Mercurio
Aún no hay calificaciones
Plan de Contingencia Transporte Mercurio
6 páginas
Ejercicios de Teoremas de Green, Stokes y Gauss
Aún no hay calificaciones
Ejercicios de Teoremas de Green, Stokes y Gauss
4 páginas
Neopremos Sap 2000
Aún no hay calificaciones
Neopremos Sap 2000
23 páginas
Clases Abstractas en Java: Ejemplo y Uso
Aún no hay calificaciones
Clases Abstractas en Java: Ejemplo y Uso
7 páginas
Práctica de Muestreo en Estadística Económica
Aún no hay calificaciones
Práctica de Muestreo en Estadística Económica
23 páginas
Fundamentos de Probabilidad y Teoremas
100% (1)
Fundamentos de Probabilidad y Teoremas
31 páginas
Lógica Formal: Análisis de Argumentos
Aún no hay calificaciones
Lógica Formal: Análisis de Argumentos
8 páginas
Corrosión y Degradación de Materiales
Aún no hay calificaciones
Corrosión y Degradación de Materiales
9 páginas
Ejercicios de Microeconomía y Producción
Aún no hay calificaciones
Ejercicios de Microeconomía y Producción
49 páginas
Capítulo II - Estructura Secuencial
Aún no hay calificaciones
Capítulo II - Estructura Secuencial
29 páginas
Analisis de Viento Norma Venezolana
Aún no hay calificaciones
Analisis de Viento Norma Venezolana
22 páginas
Practica 02 - Analisis de Datos Cualitativos y Cuantitativos
Aún no hay calificaciones
Practica 02 - Analisis de Datos Cualitativos y Cuantitativos
4 páginas
Conceptos Computacionales
Aún no hay calificaciones
Conceptos Computacionales
15 páginas
Practica Quiz
Aún no hay calificaciones
Practica Quiz
4 páginas
Demanda y Oferta en Economía Microeconómica
Aún no hay calificaciones
Demanda y Oferta en Economía Microeconómica
55 páginas
Manual SEO V-Carve Pro 2020
Aún no hay calificaciones
Manual SEO V-Carve Pro 2020
55 páginas
Balance de Materia
100% (2)
Balance de Materia
4 páginas
Estadística Inferencial y Teorema Central
Aún no hay calificaciones
Estadística Inferencial y Teorema Central
55 páginas
Ejercicios de Lógica Proposicional
Aún no hay calificaciones
Ejercicios de Lógica Proposicional
4 páginas
Refrigeradores Termodinamica
Aún no hay calificaciones
Refrigeradores Termodinamica
7 páginas
Análisis Numérico en Ingeniería Ambiental
Aún no hay calificaciones
Análisis Numérico en Ingeniería Ambiental
14 páginas
PTAR La Escalerilla
Aún no hay calificaciones
PTAR La Escalerilla
24 páginas
Mantenimiento Preventivo LF-70: Guía Completa
Aún no hay calificaciones
Mantenimiento Preventivo LF-70: Guía Completa
1 página
Proporcionalidad y Semejanza en Geometría
Aún no hay calificaciones
Proporcionalidad y Semejanza en Geometría
3 páginas
5° Grado Actividad 27 de Abril
Aún no hay calificaciones
5° Grado Actividad 27 de Abril
12 páginas
Tipos de Tareas
Aún no hay calificaciones
Tipos de Tareas
3 páginas
Ejerciciosusb Parte II
0% (1)
Ejerciciosusb Parte II
53 páginas
Doble Capa Eléctrica en Electroquímica
Aún no hay calificaciones
Doble Capa Eléctrica en Electroquímica
7 páginas
Control Estadistico Calidad
Aún no hay calificaciones
Control Estadistico Calidad
22 páginas
Caos y Decisiones Empresariales
0% (1)
Caos y Decisiones Empresariales
10 páginas