0% encontró este documento útil (0 votos)
73 vistas21 páginas

Práctica 2: Preparación de Datos en SAS

La práctica #2 de SAS Studio se centra en la preparación de datos utilizando SAS Viya, donde se guía al usuario a través de la creación de una librería, la carga de un archivo Excel y la creación de flujos para importar y estandarizar datos. Se enfatiza la importancia de corregir formatos de fecha y estandarizar nombres de estados para asegurar la calidad de los datos. Al final, se requiere una conclusión personal sobre lo aprendido durante la práctica.

Cargado por

Rosmaria Paulino
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
73 vistas21 páginas

Práctica 2: Preparación de Datos en SAS

La práctica #2 de SAS Studio se centra en la preparación de datos utilizando SAS Viya, donde se guía al usuario a través de la creación de una librería, la carga de un archivo Excel y la creación de flujos para importar y estandarizar datos. Se enfatiza la importancia de corregir formatos de fecha y estandarizar nombres de estados para asegurar la calidad de los datos. Al final, se requiere una conclusión personal sobre lo aprendido durante la práctica.

Cargado por

Rosmaria Paulino
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Práctica #2 SAS Studio

SAS Studio – Práctica 2 Prepare Data

Complete las siguientes indicaciones, cargue en esta tarea documento en formato PDF con evidencia
(capturas de pantalla) al completar cada punto. Al final del documento agregue una conclusión con
mínimo dos (2) párrafos, explicando con sus palabras lo entendido de esta práctica.

1. Acceda a SAS Viya y luego a la opción Develop Code and Flows:

2. Explore la interfase de usuario de la opción Develop Code and Flows.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

3. Mediante la opción Explorer, ubicada en la columna izquierda de la pantalla, cree su librería en SAS
Studio para almacenar la información con la que estará trabajando.

4. En la opción Explorer cree una nueva carpeta, para agrupar los diferentes objetos que va a ir creando
durante las prácticas.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

5. En la opción Explorer cargue el archivo “Global_Superstore v2.xlsx” el cual contiene las tablas con las
que estaremos trabajando, coloque el archivo en la carpeta creada en el punto anterior.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

6. Cree un Flow (flujo) para importar a su librería las cinco pestañas contenidas en el Excel
“Global_Superstore v2.xlsx”.

Referencia: Revise el siguiente video para conocer sobre la gestión de flujos en SAS Studio.

Build Flows with SAS Studio

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

A continuación, un ejemplo de cómo se ve el flujo ya finalizado.

Los Steps utilizados en este ejemplo fueron: File, Import y Table.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

6.1. Grabe este Flow con el nombre “Flow - Import Global SuperStore Data” en la carpeta creada en
el paso #4 de esta práctica.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7. Como vimos en la Práctica #1 Data Profile, varias de las informaciones contenidas en las tablas
necesitan tratamiento para mejorar su calidad. Veamos en detalle algunos de esos aspectos, iniciando
con la tabla “Orders”.

7.1. Ubique la tabla “Orders” que se encuentra en su librería presione doble click.

7.2. Revisando el contenido de los campos del tipo fecha “Order_Date” y “Ship_Date” vemos que
tienen el formato MMDDYYYY. Este formato no es el utilizado de manera estándar en nuestro
país, por lo que puede ocasionar confusión en análisis futuros con estos campos. Vamos a
cambiar el formato para que las fechas se presenten DDMMYYYY.

7.2.1.Expandimos los campos contenidos en la tabla “Orders” y damos click derecho sobre el
campo “Order_Date” y seleccionamos Properties.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.2.2.Damos click en el boto con la imagen en el parámetro Format y dentro de la pantalla


“Change Format” expandimos la carpeta Date.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.2.3.Dentro de la carpeta Date buscamos el formato que nos interesa DDMMYY y aumentamos
el valor del parámetro Overall width a 10. De esta manera la fecha se presentará con el año
de cuatro (4) dígitos. Al finalizar presionamos el botón OK.

7.2.4.La pantalla Column Properties ahora se debe ver como se muestra en la siguiente imagen.
Presionamos el botón Save.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.2.5.Repetimos los pasos anteriores para cambiar el formato del campo “Ship_Date”. Al finalizar
la data de ambos campos se muestra como sigue:

7.3. Revisemos la data de otro campo, “State” observamos que la información no está estandarizada
para los estados del país United States.

Vemos como algunos registros tienen el estado en formato ISO abreviado y otros lo tienen en
formato ISO completo. Aunque puede parecer un comportamiento normal o poco relevante en
este punto del análisis, más adelante tendremos inconveniente para utilizar esta data, si no la
corregimos.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.1.Veamos en mayor profundidad el contenido de los registros del campo “State”, pero esta
vez, solo para el país United States.

7.3.2.Cree un Flow, adicione la tabla “Orders” y el Step Query.

7.3.3.Conectemos la tabla “Orders” con el Step Query y en este último, seleccionemos los
siguientes campos (Columns).

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.4.En la pestaña de “Filter” agregue el campo “Country” y configure el filtro para el campo país
sea igual a United States.

7.3.5.Presione el botón de “Run” y analice la tabla resultante.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.6.Explorando la data, vemos el estado New York se encuentra escrito bajo diferente estándar
en los registros. Adicionalmente, vemos que no solo el estado de New York presenta este
inconveniente.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.7.Para corregir esta situación, podemos apoyarnos de la función “dqStandardize” la cual


podemos usar mediante un campo calculado en un nuevo Flow (flujo). Para ello creemos un
nuevo Flow, agreguemos la tabla “Orders” y el Step “Calculate Columns”.

7.3.8.Conectamos la tabla “Orders” al Step “Calculate Columns” y en este último agregamos un


nuevo campo calculado.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.9.En el Expression Builder agregamos la función “dqStandardize” con los parámetros


indicados en la siguiente imagen, en el nombre del nuevo campo colocamos “State_STD” y
presionamos el botón de “Save”.

La función dqStandardize sigue la siguiente sintaxis:

• El primer parametro “character-value” es el campo o texto que queremos


estandarizar.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

• El segundo parámetro ”standardization-definition” es como queremos se


estandarice el primer parámetro. A continuación, la lista de valores relevantes
podemos colocar en este segundo parámetro, dependiendo de la necesidad:
o Address
o Business Title
o City
o City - State/Province - Postal Code
o Country
o Country(ISO 2 Char)
o Country(ISO 3 Char)
o Country(ISO Number)
o Country(Region)
o Country(Sub-Region)
o Date(DMY)
o Date(MDY)
o Date(YMD)
o Date/Time (DMY) Basic
o Date/Time (DMY) Extended
o Date/Time (MDY) Basic
o Date/Time (MDY) Extended
o Date/Time (YMD) Basic
o Date/Time (YMD) Extended
o E-mail
o Multiple Space Collapse
o Name
o Number Removal
o Organization
o Phone
o Phone (Electronic)
o Phone (with Country Conde)
o Phone Country Code to Country Name
o Postal Code
o Punctuation Removal
o Space Removal
o State/Province (Abbreviation)
o State/Province (Full Name)
o Symbol Removal
o URL

En este paso estamos usando el valor “State/Province (Full Name)” el cual nos
estandariza el valor resultante con el nombre completo del estado. Para el caso del

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

país United States el estado NY será estandarizado como New York, igual el caso de
TX con Texas y así sucesivamente para todos los casos.

• El tercer parámetro “locale” es el país o región donde se originó la data del primer
parámetro. Pueden ver la lista de valores a utilizar en el tercer parámetro en el
siguiente link:

o ISO Codes

Para este paso estamos usando el valor “ENUSA”, dado que la data queremos
estandarizar se encuentra en este idioma y país “English, United States”.

7.3.10. Ejecutamos nuestro Flow y analizamos la data resultante:

Notamos como al final de la tabla resultante, se agregó el campo “State_STD” y la


información de los estados de United States se encuentra estandarizada presentando el
nombre completo.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.11. Para finalizar la preparación de esta tabla, cambiemos el orden de las columnas para que
el nuevo campo “State_STD” este al lado del campo original “State”. Para ello usemos el
Step “Manage Columns” y lo conectamos con el Step “Calculate Columns”.

7.3.12. Configuramos el Step “Manage Columns” para agregar todos los campos y modificar el
orden.

Pavel Hernández – SAS Studio in SAS Viya


Práctica #2 SAS Studio

7.3.13. Grabamos la información con los ajustes realizados en una nueva tabla “Orders_PD”. Para
ello agregamos el Step “Table”, completamos el parámetro “Library” colocando nuestra
librería. En el parámetro “Table name” colocamos “Orders_PD”. Finalmente conectamos
con la salida del Step “Manage Columns”. Ejecutamos el Flow presionando el botón Run.

7.4. Grabamos el Flow en nuestra carpeta de trabajo con el nombre “Flow - Prepare Data Orders
table”.

Pavel Hernández – SAS Studio in SAS Viya

También podría gustarte