0% encontró este documento útil (0 votos)
31 vistas10 páginas

Depuración de datos en R-Studio

Este documento describe los pasos para depurar una base de datos usando R-Studio. Explica cómo limpiar, segmentar y analizar los datos, reemplazando valores faltantes y creando gráficas para una mejor visualización y análisis de la información.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
31 vistas10 páginas

Depuración de datos en R-Studio

Este documento describe los pasos para depurar una base de datos usando R-Studio. Explica cómo limpiar, segmentar y analizar los datos, reemplazando valores faltantes y creando gráficas para una mejor visualización y análisis de la información.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Universidad de Cuenca

Facultad de Ciencias Químicas


INFORME: Desarrollo de código para la
depuración de datos

NOMBRE:
Jonnathan Alejandro Farez Pillacela
Profesor/a: Rodrigo Guaman

Ecuador- Azuay-Cuenca
13 de abril del 2024
1

1. TITULO: Depuración de una base de datos.

2. OBJETIVO:

 Evaluar la eficiencia del proceso de depuración de datos en mejorar la integridad,


precisión y accesibilidad de la información contenida en la base de datos, y cómo
esto contribuye a una mejor toma de decisiones dentro de la organización.

3. DESSAROLLO

En la actualidad los datos se que son obtenidos de diferentes actividades y procesos de una
empresa, estos datos deben ser depuradas y revisadas, por la razón de que si los datos están
escritos erróneamente se necesita realizar ajustes y para poder tomar una decisión desde la
base de datos del cual esto dependerá mucho para el progreso de la empresa o fabrica.

En este informe se explicará como depurar una base de datos con el uso de la plataforma de
R-Studio, segmentación de datos y también poder graficar los datos para mayor
entendimiento. Por lo que se basara en los siguientes pasos:

1. Revisamos que el documento este en formato CVS (“delimitado por coma” o “punto y
coma”), lo guardamos el documento en una carpeta donde le sea fácil de recordar.

Para mayor facilidad guardar en la parte del escritorio el documento.


2

2. Abrimos el R-Studio, creamos una nueva hoja; creamos una variable para guardar datos
del documento; luego escribimos el siguiente código del cual nos permitirá abrir el
documento dentro del R-Studio. Para abrir el documento vamos en la parte izquierda,
en la barrada de datos tocamos “Sesión” la cual nos permite buscar la carpeta en la que
se guardó el documento CSV y aplastamos “Enter” para abrirlo.

Aplastamos la tecla con ”Dos flechas” para abrir la carpeta del escritorio donde está el
documento CSV y lo aplastamos “Enter” para ejecutarlo.
3

Y terminamos de escribir el código y los terminamos con un “summary ( )” que nos


permite guardar los valores que están dentro del documento CVS.

3. Instalamos el paquete llamado de “MICE” y escribimos “Library ( )” para abrir el


paquete para utilizarlo.

4. Creamos una nueva variable secundaria, la cual, escribimos el siguiente código para
segmentar la base de datos y dependiendo de lo que se necesita analizar del documento
principal:
4

5. Eliminamos las celdas que no se necesita o no son necesarios para el análisis de datos,
escribimos un “summary ( )” para poder guardar los ajustes o cambios que se realizan
y lo ejecutamos:

6. En el siguiente código analizamos que variables necesitan ser ajustadas por falta de
valores o por un mal ingreso de aquellos datos, y en este código ponemos condiciones
para arreglar y no tener problemas, a esos valores que faltan son sustituidos por un
“NA” y los guardamos con un “summary ( )”.
5

7. Instalamos el paquete llamado “modeest” y lo abrimos utilizando un “library” para


ejecutarlo que nos permitirá realizar cálculos de la media aritmética, mediana y moda,
esto se usa por la razón que al tener varios o miles de datos es difícil de realizar estos
cálculos.

8. Una vez ejecutada el paquete, escribimos el siguiente código; en el cual, el código nos
permitirá que las variables que contienen los “NA” por falta de valores, sean sustituidos
por un valor obtenido de la media aritmética, mediana o la moda del total de datos que
6

se tiene en la base de datos y guardamos los datos con un “summary ( )” para no


perderlos y después poderlos analizar.

9. Instalamos el siguiente paquete llamado “fdth” para graficar o tabular datos en una
grafica.

10. Creamos una nueva variable llamado “dist” para poder recoger los valores de la base de
datos y poder representarle en una tabla de valores más simple. Y los ejecutamos con
“ctrl + enter”.
7

Dentro de esta variable se puede encontrar los diferentes valores que se encuentran en la
base de datos y todos aquellos que fueron ajustados o depurados. Estos valores nos
permitirán poder graficar.

11. Escribimos el siguiente código que nos permitirá utilizar los valores de la tabla y poder
mostrar una gráfica que se obtuvo de todo el proceso de depuración y análisis. Esto
valores serán tomadas de la segunda variable creada.
8

12. Por último, el siguiente código ayuda a realizar comparaciones entre dos tablas
diferentes con diferentes datos.

Esta tabla de valores nos permitirá realizar análisis y comparaciones entre dos temas o
categorías diferentes y poder tomar decisiones que puedan beneficiar a la empresa y si
un error se comete, toda la base de datos mostrara diferentes valores que nos son reales
a la realidad y puede llevar a la quiebra de la misma.

Hay que tomar en cuenta si falta una comilla, signo, punto u otro signo puede enviar a error
del sistema ya que no puede leer, este programa es muy utilizado en diferentes empresas o
trabajos con el fin de realizar análisis eficientes de una base de datos.
9

4. CONCLUSIONES

 La depuración de una base de datos es un proceso crucial en la programación con R-


Studio; lo cual, permite limpiar el código de errores para que se pueda ejecutar con
éxito. Los errores o problemas pueden surgir automáticamente después de la
compilación del código y pueden ser difíciles de diagnosticar.

 Hay que tomar en cuenta que arreglar los errores lleva mucho tiempo y después de
múltiples niveles de practica se podrá mejorar; por lo que, la depuración en R se
practica y se aprende a través de advertencias, mensajes y errores.

 Dentro de este programa hay muchos programas que son necesarios de instalar y se
pueden aplicar dentro del mismo; es decir, que, con las librerías adecuadas,
podemos realizar exploraciones de datos eficientes y crear visualizaciones
impactantes que son útiles.

 Podemos decir que R y R-Studio son herramientas poderosas para el análisis de una
base de datos de grandes cantidades recopiladas durante largos periodos.

FIRMA DEL ESTUDIANTE

………Jonnathan.Farez………

También podría gustarte