UNIVERSIDAD DE GUAYAQUIL
“FACULTAD DE CIENCIAS MATEMÁTICAS Y
FÍSICAS”
INGENIERÍA EN SOFTWARE
TEMA: RSTUDIO
INTEGRANTES: GRUPO
-DOMENICA LISBETH BRAVO ALVARADO(LÍDER)
-BONIFAZ CHACÓN JOSÉ XAVIER
-REINOSO JIMÉNEZ AARON RICARDO
-SALVATIERRA PEÑA MICHAEL STEVEN
-BAJAÑA ZAMBRANO DAVID
ASIGNATURA: ESTADÍSTICA II
CURSO: SOF-S-NO-4-4
MSc. ALONSO ANGUIZACA JOSE LUIS
GUAYAQUÍL – 04 DE JUNIO DEL 2022
¿Qué es RStudio?
RStudio es un IDE o entorno de desarrollo integrado. En español, esto significa que RStudio
es un programa para manejar R y utilizarlo de manera más cómoda en algunos aspectos. Es una
interfaz que permite acceder de manera sencilla a toda la potencia de R, y para utilizar RStudio,
se necesita haber instalado R previamente.
RStudio es una aplicación web que permite desarrollar con R y otros lenguajes de
programación orientados al tratamiento de grandes cantidades de datos, estadísticas, etc. Es todo
un completo IDE de desarrollo, pero embutido en una aplicación web, que permite además
integrarse con una serie de herramientas enfocadas en la gestión de proyectos.
R es un lenguaje de programación de código abierto orientado al trabajo con datos y su
análisis estadístico, usado principalmente en el ámbito de la investigación matemática y machine
learning, minería de datos, etc. Es multiplataforma, por lo que se puede usar en cualquier sistema
operativo de escritorio.
Instalación de RStudio
-Para instalar RStudio, primero descargamos R, que sirve para hacer uso de las funcionalidades
de RStudio, aquí vamos hacia la página de R (https://www.r-project.org/), Damos clic en
descargar, después clic en el primer enlace que muestra la página (https://cloud.r-project.org/), y
ahí descargamos R dependiendo que sistema operativo uses. (En mi caso, Windows).
-Una vez instalado R, procedemos a descargar RStudio, y descargamos la versión de ¨Escritorio¨
( https://www.rstudio.com/products/rstudio/download/).
-Procedemos a ejecutar el archivo de RStudio, lo instalamos, seguimos los pasos que nos
indiquen y con eso ya tendríamos RStudio instalado en nuestro ordenador.
Utilidad de RStudio
El mundo de la estadística proporciona relevantes instrumentos para responder de forma
rigurosa a preguntas de investigación y analizar fenómenos en distintas áreas del conocimiento.
Por ejemplo, mediante la estadística inferencial se pueden desprender conclusiones del
comportamiento de una población no observada, a partir de la información empírica
proporcionada por una muestra de dicha población.
A través del software R, se puede obtener una amplia variedad de técnicas estadísticas y
representaciones gráficas en forma relativamente sencilla. R es uno de los lenguajes de
programación más utilizados en investigación por la comunidad estadística.
Además,
Es un lenguaje bastante adecuado para la estadística, ya que permite manipular los datos
rápidamente y de forma precisa.
Se puede automatizar fácilmente, gracias a la creación de scripts que automatizan
procesos, por ejemplo, leer datos o hacer operaciones con los datos, y hacerlo siempre de
forma automática.
Puede leer prácticamente cualquier tipo de datos.
Hasta cierto punto, es compatible con grandes conjuntos de datos.
Tiene capacidades avanzadas de gráficos, por lo que nos permite realizar gráficos y
dashboards de forma que podamos presentar los resultados de forma vistosa.
R-Studio también puede usarse como herramienta forense para la técnica "file carving",
que es un proceso utilizado en informática forense para extraer datos de una unidad de disco u
otro dispositivo de almacenamiento sin la ayuda del sistema de archivos que originalmente creó
el archivo. Es un método que recupera archivos en un espacio no asignado sin ninguna
información de archivo y se utiliza para recuperar datos y ejecutar una investigación forense
digital. También se llama " carving ", que es un término general para extraer datos estructurados
de datos sin procesar, basados en características específicas del formato presentes en los datos
estructurados.
Como técnica forense que recupera archivos basándose simplemente en la estructura y el
contenido del archivo y sin metadatos coincidentes del sistema de archivos, el file carving se
utiliza con mayor frecuencia para recuperar archivos del espacio no asignado en una unidad. El
espacio no asignado se refiere al área de la unidad que ya no contiene ninguna información de
archivo como lo indican las estructuras del sistema de archivos como la tabla de archivos. En el
caso de estructuras del sistema de archivos dañadas o faltantes, esto puede involucrar a toda la
unidad. En palabras simples, muchos sistemas de archivos no ponen a cero los datos cuando los
eliminan. En cambio, simplemente eliminan el conocimiento de dónde está. El file carving es el
proceso de reconstrucción de archivos escaneando los bytes sin procesar del disco y volviéndolos
a ensamblar. Esto generalmente se hace examinando el encabezado (los primeros bytes) y el pie
de página (los últimos bytes) de un archivo.
El file carving es un gran método para recuperar archivos y fragmentos de archivos
cuando las entradas del directorio están dañadas o faltan. Esto es especialmente utilizado por los
expertos forenses en casos penales para recuperar pruebas. En ciertos casos relacionados con la
pornografía infantil, los agentes de la ley a menudo pueden recuperar más imágenes de los discos
duros del sospechoso mediante el uso de técnicas de carving. Otro ejemplo son los discos duros y
los medios de almacenamiento extraíbles que los Navy Seals de los Estados Unidos tomaron del
campus de Osama Bin Laden durante su redada. Los expertos forenses utilizaron técnicas de file
carving para exprimir cada bit de información de este medio.
Podemos afirmar que R es algo más que un lenguaje de programación. El usuario no
programa propiamente, sino que utiliza R interactivamente: ensaya, se equivoca y vuelve a
probar. Solo cuando termina el ciclo y el resultado es satisfactorio, produce un resultado final
que, generalmente, no es un programa, sino un informe.
Se utiliza en todas las fases de análisis de datos:
– Adquisición de los datos de las fuentes disponibles: bases de datos, archivos de texto,
etc.
– Preparación de los datos: eliminación de duplicados, datos incorrectos, valores
extremos, etc.
– Análisis de los datos: construcción de modelos predictivos, de clasificación, de
agrupamiento…
– Comunicación de los resultados: realización de informes para presentación de los
resultados y conclusiones.
– Aplicación de los resultados obtenidos: por ejemplo, utilización de modelos
predictivos desarrollados para en función de una serie de datos históricos (datos de
entrenamiento y test del modelo) predecir ciertas salidas.
R es un lenguaje estadístico, creado por estadísticos que discreparon con la forma en
la que trabajaban otros programas. El lenguaje R promueve el “empoderamiento” del usuario,
que puede controlar todo el proceso del análisis de sus datos. Esto en muchas ocasiones, marca la
diferencia entre un buen y un mal análisis.
Características
Muestra todo en una ventana
Permite abrir varios scripts a la vez
Permite ejecutar código desde script o partes de código con sólo marcarlo.
Presenta resaltado y completado de sintaxis
Muestra el workspace
Muestra el historial
RStudio provee herramientas para que las investigaciones sean reproducibles provee
markdown y knitr para combinar texto, y fragmentos de código (programación literaria).
Muestra los objetos del workspace
Permite el manejo de proyectos con soporte para Git y Subversión
Integra la ayuda
Integra la gestión de librerías además entre ellas se integra con Python y SQL.
Respeta la filosofia de tradicional de consola en R.
Es multiplataforma (Linux, Mac, win,..), y libre: bajatelo, distribuyelo,
modifícalo…: http://rstudio.org/
Se puede ejecutar en el escritorio ('Windows', 'Mac OS X', 'Linux') o incluso a través de
Internet mediante 'RStudio Server'.
Es una IDE especialmente diseñado para R.
IDE construido exclusivo para R
El resaltado de sintaxis, auto completado de código y sangría inteligente.
Ejecutar código R directamente desde el editor de código fuente.
Salto rápido a las funciones definidas.
Colaboración
Documentación y soporte integrado.
Administración sencilla de múltiples directorios de trabajo mediante proyectos.
Navegación en espacios de trabajo y visor de datos.
Potente autoría y depuración.
Depurador interactivo para diagnosticar y corregir los errores rápidamente.
Herramientas de desarrollo extensas.
Autoría con Sweave y R Markdown.
Interfaz de estilo de "Explorador de Windows" estándar.
SO host: Windows 9x, ME, NT, 2000, XP, 2003, Vista, 2008, 7, Windows 2012 Server,
Windows 8 y 8.1.
Recupera datos en equipos remotos a través de la red. Los datos se pueden recuperar en
equipos de la red con Windows, MacOS X, Linux y algunos otros SO de UNIX.
Software de Análisis Estadístico
Análisis multivariante
Análisis predictivo
Control estadístico de procesos
Métricas de rendimiento
Previsión
Simulación estadistica
Visualización de datos
Serie temporal
Análisis de la supervivencia
Análisis de regresión
Funciones
RStudio ofrece todas las herramientas que podemos esperar de un IDE moderno, como
coloreado de sintaxis, ayudas para completado y formateado de código. RStudio es muy popular
en la academia. Es utilizado por investigadores científicos, profesores y estudiantes, y también
por analistas financieros, actuarios y economistas. Ofrece además una plataforma de ejecución
para los programas escritos en R, de modo que se pueden poner en marcha de manera cómoda,
online y sin salir de la propia aplicación.
El entorno de desarrollo integra diversas herramientas adicionales dentro del espacio de
trabajo, como la documentación del lenguaje R, sistemas
de control de versiones (Git y otros), la gestión de
proyectos y visualización de datos, así como un
depurador que permite localizar y corregir errores
en el código. Además, se puede extender
por medio de packages adicionales en función de
las necesidades de los profesionales. Todo ello
funciona en el navegador y por tanto es accesible
desde cualquier lugar, simplemente disponiendo de
un acceso a Internet, lo que permite el trabajo en remoto y la disponibilidad de las herramientas
de análisis de datos, así como cualquiera de los archivos usados, desde cualquier lugar. RStudio
También permite administrar proyectos en los que se trabaja con múltiples tipos de archivos de
código, entre ellos R scripts, Documentos R Markdown, archivos HTML o TeX, y muchos
otros.
Ventajas
RStudio es una GUI, “Graphical user interface” para R (programada en C#), 'multiplataforma' y
de 'código abierto', que aportará algunas 'ayudas'.
Algunas ventajas más (enumeración)
Nos muestra los objetos del workspace.
Nos muestra el historial de comandos.
Integra la ayuda.
Tiene un visor de gráficos que unifica entornos.
Integra un visor de paquetes instalados y/o cargados (library).
Ventajas
Nos permite abrir varios scripts a la vez.
Nos permite ejecutar pedazos de código con sólo marcarlo en los scripts.
Dispone de autocompletado de código
Facilidades para codificar: extract function, coment/uncoment lines, reindent lines…
Ventajas (avanzadas)
Nos permite trabajar con ciertos paquetes de forma muy natural: markdown, knitr (luego
lo veremos).
Depurador de código (breakpoints).
Podemos trabajar con Proyectos.
Presentaciones en HTML5.
Pdf con Sweave.
etc…
Filosofía de paneles
Podemos distribuir los paneles a nuestro gusto.
Paneles
Trabajar con proyectos
ventajas:
Cada proyecto tiene su working directory.
Workspace.
History.
Ficheros indexados.
Git it!.
Proyectos
Git it!
Desventajas
R tiene una vasta documentación de ayuda, descripción de paquetes y de funciones, que
es difícil encontrar información específica en un momento dado.
Los mensajes de error que R nos muestra, no es específica sobre los fallos que estamos
realizando y solo un usuario con cierta experiencia en el uso de R puede saberlo.
R es un lenguaje de programación en línea de comando, lo cual no involucra el uso de
menús como otros programas estadísticos, esto hace que muchas personas que no están
familiarizadas en la programación les resulten muy difícil migrar a R. Pero esto más que
una desventaja es una ventaja, porque al programar entenderás mejor la base de la
estadística y el análisis de datos, comparados con otras personas que no utilizan R.
Así como lo dijo Steve Jobs en una conferencia,
“Cada persona en este país debería saber cómo programar una computadora… porque eso te
enseña a pensar”. Si bien los analistas más experimentados no niegan que es de gran ayuda,
también subrayan sus desventajas, o carencias, principales:
No soporta gráficos en tres dimensiones o dinámicos. El resultado de cada informe puede
ser algo pobre visualmente y bastante anticuado en comparación con el ofrecido por otros
programas.
Su lentitud le resta efectividad y competitividad. Existen lenguajes de programación más
rápidos que ofrecen una capacidad de respuesta más adecuada.
Los algoritmos no están unificados. Cada uno de ellos se almacena en un paquete
distinto, por lo que hay que ir cambiando de opción para leer los datos obtenidos.
Su origen está en S, un lenguaje de programación bastante anticuado que no ha sabido
adaptarse a los tiempos. Otras alternativas, como Python, son más competitivas.
Debido a la acumulación de opciones, aprender a manejarlo totalmente lleva bastante
tiempo y no siempre es fácil de alcanzar este objetivo. No es la mejor opción para
personas que no tienen cierto conocimiento previo de programación. Incluso
programadores expertos cometen errores en su uso al necesitar una formación concreta en
un lenguaje que tiene pocos puntos en común con otros con los que comparte objetivos.
Sus restricciones y su incompatibilidad con otros lenguajes de programación impiden que
se pueda usar para crear aplicaciones web.
Acumula todos los datos en una única carpeta que termina ocupando demasiado espacio
en una memoria física. Esta circunstancia conlleva que sea necesario volcar los datos de
forma periódica para evitar el colapso de los dispositivos de almacenamiento.
No tiene medidas de seguridad, por lo que es muy fácil de vulnerar por parte de los
ciberdelincuentes. Poner en riesgo la información personal de los clientes de una empresa
puede provocar la toma de medidas legales que terminen generando un serio problema
económico.
Su actualización constante conlleva tener que aprender las características de cada
apartado continuamente. Así, el analista de los datos no siempre tendrá la seguridad
necesaria al usar un programa en evolución permanente que puede cambiar de un día para
otro.
Podría afirmarse que el uso de esta alternativa es casi para expertos, pero no es adecuado
olvidar que la capacidad para analizar datos estadísticos es siempre superior a la de otras
opciones. Para dedicarse al análisis de datos es necesario conocer todos los lenguajes de
programación existentes y elegir el que mejor se adapte a los requisitos de cada empresa.
El buen profesional es aquel que se preocupa por recibir una formación acorde al perfecto
desempeño de su labor. Y apostar por una escuela de prestigio que ofrezca un máster específico
impartido por los mejores profesores te dará como resultado la posibilidad de mejorar tu futuro
laboral de inmediato.
Esto abarca aspectos que para algunas plataformas siguen siendo competitivas.
Esto trae como desventaja a Excel.
Menor curva de aprendizaje que R: Excel requiere menos tiempo para llegar a manejar
gran parte de sus funcionalidades que R. Existe una capa de uso y fórmulas muy básicas
que puede usar cualquier persona tras algunas horas de estudio.
Más ágil para el trabajo diario si no existe una gran carga de estadística: es una
obviedad que Excel está mucho más instaurado que R para múltiples funciones del día a
día.
Visualización de datos: las hojas de cálculo pueden convertirse en pantallas de
visualización de datos muy agradables, con gráficos sencillos y datos visualmente
ordenados en tablas con diferentes diseños.
Mayor probabilidad de uso colaborativo: a pesar de no ser código abierto (con las
bondades que ello implica) en el uso de Excel para el entorno laboral, si se vincula a un
servicio en la nube, muchas personas podrán interactuar con dicho proyecto, aportando
datos en el archivo, mejorando fórmulas. Excel está mucho más extendido que R.
Conclusiones
Podríamos aseverar que R tiene muchas ventajas sobre Excel en cuanto nuestros proyectos se
acerquen al Big Data y se necesiten análisis mucho más profundos y complejos en cuanto a
predicciones y prescripciones basadas en la estadística. Manejar R con cierta soltura significará
muchas horas de estudio y de programación, pero una vez interiorizado dicho lenguaje, las
posibilidades a la hora de tratar y visualizar los datos son mucho mayores. El enfoque de R
incluye conceptos como iteración (ejecución de las sentencias ubicadas dentro de un ciclo o
bucle), estructuras de datos y funciones.
Excel navega genial en mares donde existe aritmética, tabulaciones, trabajo diario de oficina,
en especial en al ámbito de la administración (facturas, calendarios…). Gracias a la gama de
funciones que posee, también resulta útil para muchos otros campos, como la creación de ciertas
bases de datos o gráficos con cierta complejidad.
Sea cual sea el programa que utilices, esperamos que este artículo haya sido de ayuda para
comprender cómo puede ayudar el lenguaje de programación R en proyectos y las principales
diferencias que existen frente al archiconocido Excel. Contacta con nosotros para que te
ayudemos en la toma de decisiones basada en datos.