Consecutivo: INF-INV-035-INF-2009/II-III
Pentaho-bi
Autores:
SANDRA MIREYA AGUILAR MAYORGA
JORGE LEONARDO LEMUS
Director Unidad Informática: Henry Martínez Sarmiento
Tutor Investigación: Álvaro Schneider Guevara
Coordinadores: Alvaro Schneider Guevara
Juan Felipe Reyes Rodríguez
Coordinador Servicios Web: Miguel Ibañez
Analista de Infraestructura
y Comunicaciones: Alejandro Bolivar
Analista de Sistemas de
Información: Mesias Anacona Obando
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
BOGOTÁ D.C.
SEPTIEMBRE
2009.
UNI-FO-13 V 1.0
Consecutivo: INF-INV-035-INF-2009/II-III
TÍTULO INVESTIGACIÓN
Director Unidad Informática: Henry Martínez Sarmiento
Tutor Investigación: Álvaro Schneider Guevara
Auxiliares de Investigación:
ALEJANDRO NIETO RAMOS JORGE ALBERTO TORRES VALLEJO
JORGE LEONARDO LEMUS
ANDREA ELIANA BARRERA ARDILA CASTIBLANCO
ANGEL LEONARDO JEREZ CARVAJAL JORGE LUIS FANDIÑO GIRALDO
ANGELA PATRICIA VEGA CABRA JOSE SANTIAGO APARICIO CASTRO
BENJAMIN EDUARDO VENEGAS
VENEGAS JUAN CARLOS TARAPUEZ ROA
CAMILO ALBERTO ZAPATA MARTÍNEZ JULIE ANDREA PADILLA GONZÁLEZ
CINDY LORENA PABÓN GÓMEZ LAURA VANESSA HERNÁNDEZ CRUZ
DANIEL ALEXANDER LINARES PUERTO LILIANA CAROLINA HERRERA PRIETO
DAVID CAMILO SÁNCHEZ ZAMBRANO LUIS ALEJANDRO PICO SILVA
DAVID FELIPE BELTRAN GOMEZ LUIS FERNANDO ALFONSO MUÑOZ
DIANA MARCELA ROJAS TÉLLEZ MÓNICA YOLANDA MOGOLLÓN PLAZAS
DIEGO ARMANDO POVEDA ZAMORA MYRIAM JASMIN GUERRA CÁRDENAS
EDGAR ANDRES GARCIA HERNANDEZ NUBIA ALEJANDRA SEGURA TENJICA
IVÁN ALBEIRO CABEZAS MARTÍNEZ NURY BIBIAN BEJARANO CÁRDENAS
IVAN DARIO BARRETO BERNAL RAUL ANDRES CAMACHO CRUZ
JISSETH TATIANA ANGEL RODRÍGUEZ SANDRA MIREYA AGUILAR MAYORGA
Este trabajo es resultado del esfuerzo de todo el equipo perteneciente a la Unidad
de Informática.
Se prohíbe la reproducción parcial o total de este documento, por cualquier tipo de
método fotomecánico y/o electrónico, sin previa autorización de la Universidad
Nacional de Colombia.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
BOGOTÁ D.C.
SEPTIEMBRE
2009
UNI-FO-13 V 1.0
PENTAHO-BI
TABLA DE CONTENIDO
TABLA DE CONTENIDO....................................................................................................3
1. RESUMEN.....................................................................................................................3
2. ABSTRACT....................................................................................................................4
3. LISTA SINTETICA DE PENTAHO-BI........................................................................4
4. HERRAMIENTAS PARTE II........................................................................................5
5. EXPERIENCIAS..........................................................................................................22
6. CONCLUSIONES........................................................................................................22
7. BIBLIOGRAFIA..........................................................................................................23
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
3
UNI-FO-02 V 1.0
PENTAHO-BI
1. RESUMEN
Pentaho-BI es un software libre que cumple el objetivo de análisis de datos y sirve como
base para toma de decisiones empresariales, una de sus grandes ventajas, se debe a su
versatibilidad y compativilidad en la generación de informes en HTML, Excel entre otros,
de igual forma esta también puede obtener información de otros sistemas de información.
Partiendo de lo anteriormente mencionado, en el mundo actual es de vital importancia que
los sistemas de información sean complementarios, para reducir costos de transacción y de
tiempo, que son importantes para la generación de actividades internas y poder crear
estrategias externas.
Los componentes que conforman la plataforma de Pentaho BI son: Reporting, Analysis,
Dashboard, Data mining e Integración de datos.
Al ver las áreas que hacen parte del Software, podemos decir que es necesario una base
clara con permisos definidos que permitan la buena ulitilización de la herramienta a la
empresa.
2. ABSTRACT
Pentaho-BI is a free software that meets the objective of data analysis and provides a basis
for making business decisions, one of its great advantages due to its versatility and Plug-in
card to generate reports in HTML, Excel, among others, likewise this can also obtain
information from other information systems.
Based on the above, in today's world is of vital importance that information systems are
complementary, to reduce transaction costs and time, which are important for the
generation of internal activities and external strategies to create.
The components inside the Pentaho BI platform are: Reporting, Analysis, Dashboard, Data
mining and data integration.
Upon seeing the areas that are part of the Software, we can say that it is necessary to permit
a clear basis defined that allow good ulitilización tool to the company.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
4
UNI-FO-02 V 1.0
PENTAHO-BI
3. LISTA SINTETICA DE PENTAHO-BI
Pentaho-BI se compone de 5 áreas, dos de estas tienen una división interna como se
observa en la siguiente figura.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
5
UNI-FO-02 V 1.0
PENTAHO-BI
4. HERRAMIENTAS PARTE II
Anteriormente se dieron a conocer las herramientas: Dashboard, Resumen y Analysis, a
continuación se incluirá la integración de datos, aggregation Disigner, pero para poderlas
entender es necesario tener en cuenta algunas palabras clave en el proceso de aprendizaje.
Key Words
Olap: Siglas de On-Line Analytical Process. Esta es una forma de almacenar información
en una base de datos que permite realizar consultas e informes de una forma más efectiva;
existen diferentes tipos de OLAP como los son:
Molap: Multidimensional OLAP. Tanto los datos fuente como los datos agregados o pre
calculados residen en el mismo formato multidimensional, optimiza los informes y
consultas pero requiere mas espacio en el disco y diferente software.
Rolap: Relational OLAP. Tanto los datos pre calculados y agregados como los datos fuente
residen en la misma base de datos relacional.
Holap: Hybrid OLAP: Es una combinación de los dos anteriores. Los datos agregados y
pre calculados se almacenan en estructuras multidimensionales y los de menor nivel de
detalle en el relacional.
Algunas características del OLAP
- Debe ser rápido. No debe transcurrir mucho tiempo entre la necesidad de información y el
resultado.
- Debe tener un lenguaje funcional y de negocio.
- Debe ser de manejo sencillo, con wizards y templates.
- Debe tener potentes posibilidades gráficas.
- Deber generar respuestas medibles para la toma de decisiones.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
6
UNI-FO-02 V 1.0
PENTAHO-BI
VISTA DE LA DESCRIPCION
HERRAMIENTA
Si como usuario no está familiarizado con el diseño total
de la tabla; no se preocupe el asesor global realizara un
Aggregation Designer listado de recomendaciones ya que Pentaho Aggregation
Designer utiliza los datos y el esquema del archivo .XML
para crear estos consejos
1) En la barra de herramientas de que Pentaho
Aggregation Designer haga clic en asesor
“advisor” y especifique sus datos de entrada.
2) Existen dos tipos de datos que tenemos que
almacenar
a. La cantidad máxima de tablas a tratar en el
agregado
3) El tiempo en que se demora Pentaho Aggregation
Designer para realizar su análisis y su respectivo
consejo acerca de la base de datos.
4) Entre mas tiempo corra el asesor es mucho mejor
pues permite unas recomendaciones mas precisas
y un potencial en sus observaciones mas
concretas.
5) En caso que el proceso sea interrumpido se tendrá
la certeza que el asesor entregara la mejor opción
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
7
UNI-FO-02 V 1.0
PENTAHO-BI
encontrada hasta ese momento.
Es un módulo que es necesario instalarlo dentro de
Pentaho. Necesitamos para esto:
Una versión de JAVA SE runtime 1.5 o versiones
mayores
Al menos un (1) gigabyte de memoria física libre.
La Versión mínima de Pentaho BI para que funcione el
módulo es la 1.7, este no es un requisito difícil de cumplir
debido que el software ha tenido grandes avances y ya
esta en versión 3.5.
De esta forma para que funcione debe cumplir con
intervalos de funcionamiento de requerimiento técnico del
equipo, así:
Disco: 1 GB – 10GB CPU: 1
GHz (Single Core) – 1.5 + (Multi-Core)
RAM: 1 GB – 2 GB.
Una vez instalada se ve de la siguiente manera:
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
8
UNI-FO-02 V 1.0
PENTAHO-BI
Teniendo establecido el módulo de Aggregation Designer,
es necesario configurar algunos recursos del módulo para
poder agilizar la relación de información, y disminuir
tiempo de transferencia y definir números de usuarios en
línea.
De esta forma lo primero es la sincronización del modelo
OLAP, mediante este se puede lograr conectar a cualquier
tipo de base de datos a través del motor Modrian.
Para la configuración de este modelo lo primero que
tenemos que hacer es dar clic en conexión, de aquí
emergerá una nueva ventana hecha en lenguaje java.
Hacemoc clic en Configure y Emergerá una nueva
ventana:
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
9
UNI-FO-02 V 1.0
PENTAHO-BI
En esta se encuentra los siguientes campos:
Conection Name Este campo lo podemos nombrar a
libre albedrio sin generar ningún inconveniente
HostName: Es el nombre del servidor o el lugar donde se
encuentra nuestra base de datos.
DataBaseName Nombre de la base de datos a la cual
vamos a consultar.
PortNumberEl número del puerto aparece por defecto.
UserName y Passwords es opcional, aunque es
recomendable para salvaguardar información.
Access Es aconsejable dejar la opción Native.
Entonces recopilando toda la información tenemos:
Para definir una conexión de origen de datos :
1. En la barra de herramientas de agregación de diseño
Pentaho, haga clic en Conexión a abrir la conexión a los
datos
2. Haga clic en Configurar. El cuadro de diálogo
Propiedades de conexión aparece.
3. En el campo Nombre de conexión, escriba un nombre
para su conexión, este es un campo de texto libre. Un
nombre de la conexión define una única conexión.
4. En la lista Tipo de conexión, seleccione una base de
datos.
5. En la lista de acceso, mantenga la opción
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
10
UNI-FO-02 V 1.0
PENTAHO-BI
predeterminada, que debe ser nativo (JDBC).
6. En la sección Configuración, escriba el nombre de host
del servidor de base de datos e en el campo Nombre de
base de datos, escriba el nombre de la base de datos que
está conectando. En el Puerto Número de campo,
introduzca el número de puerto TCP. Opcionalmente, en
el nombre de usuario y contraseña campos,
escriba el nombre de usuario y contraseña que se utiliza
para conectarse a la base de datos.
7. Haga clic en Probar. Si usted escribe en la
configuración es correcta, aparece un mensaje de éxito.
8. Haga clic en Aceptar.
Selección De El Modelo a Optimizar
Después de definir la fuente de datos, debe seleccionar el
cubo que desea utilizar para la definición y la creación de
tablas agregadas.
Para seleccionar el modelo y darle función:
1. En el cuadro de diálogo Conectar a orígenes de datos,
bajo el modelo OLAP, seleccione la base.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
11
UNI-FO-02 V 1.0
PENTAHO-BI
2. Haga clic en los puntos suspensivos (...) para mostrar
un cuadro de diálogo Archivo.
3. Examinar para buscar y seleccionar el archivo de
esquema de Mondrian, a continuación, haga clic en
Aceptar.
4. Haga clic en Aplicar. La lista de cubo se llena con una
lista de los cubos se definen en el esquema.
5. Selecciona el cubo Mondrian que desea optimizar, a
continuación, haga clic en Conectar.
Cuando el Diseñador de Pentaho Aggregation Designer
establece una conexión, se ejecuta la validación de varias
pruebas para asegurar que la estructura de su base de
datos está dispuesta a apoyar las tablas agregadas. La
validación cuadro de diálogo de resumen aparece con una
lista de resultados de la prueba. Si ve un mensaje de error,
póngase en contacto el administrador de base de datos.
Pentaho Data Integration Se elige el catalogo que deseamos integrar al programa;
en este caso vamos a darle clic en sin catalogo. En este
momento arroja un MsgBox con un consejo para mejorar
el funcionamiento del programa
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
12
UNI-FO-02 V 1.0
PENTAHO-BI
Una vez se cierra la ventana de consejos encontramos la
interfaz grafica de Pentaho Data Integration.
Aparece un mensaje de bienvenida que indica el para que,
de esta plataforma en Pentaho BI, la cual consiste en la
integracion de datos a traves de la extraccion,
transformacion y carga de datos (ETL) impulsado a
traves de los metadatos. En esta oportunidad estamos
trabajando con Spoon; si se es usuario por primera vez de
Pentaho Data Integration lo más aconsejable es leer las
guías que aparecen en la ventana de bienvenida. Haciendo
clic en Get Started.
En primer lugar hacemos clic en New/Transformation
En primer lugar se da click en New/Transformation
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
13
UNI-FO-02 V 1.0
PENTAHO-BI
Ahí se encuentra un menú en el panel izquierdo
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
14
UNI-FO-02 V 1.0
PENTAHO-BI
Desplegamos la carpeta con el nombre de Entrada (Datos
de Entrada)
Elegimos el tipo de archivo que deseamos trabajar, para
este caso se utilizara un archivo CSV file input, y lo
arrastramos hasta el panel derecho
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
15
UNI-FO-02 V 1.0
PENTAHO-BI
Ahora se desplega la carpeta Salida
Y se escoge la opción salida tabla, al igual que el archivo
CSV, y se traslada hasta el panel izquierdo.
Con shift y el mouse establecemos las relaciones es asi
que nuestro archivo se observara de la siguiente manera.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
16
UNI-FO-02 V 1.0
PENTAHO-BI
Ahora tendremos que configurar la base de datos a la cual
vamos a trabajar. Para eso vamos a
new/DataBaseConection
Emerge una nueva ventana pidiendonos unos datos los
cuales son de configuracion
Una vez sea configurada la base de datos nos dara un
mensaje de conexión
Hacemos doble clic sobre el icono de entrada “CSV file
input”
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
17
UNI-FO-02 V 1.0
PENTAHO-BI
Emergue una nueva ventana, en esta ventana
ingresaremos la base de datos que queremos agregar
En examinar buscamos el archivo o la base de datos que
queremos agregar, dado que se trata de un archivo
separado por coma, tenemos que mencionar que tipo de
separador tiene para nuestro caso es “;” Hacemos clic en
traer campos yautomaticamente el programa se encarga
de traer el nombre de los campos
Emergue otra ventana, y esta nos propone la opcion de
aconsejar el tipo de campo, el campo predeterminado que
tiene es texto.
Lo que va hacer es mirar los proximos 100 campos y
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
18
UNI-FO-02 V 1.0
PENTAHO-BI
aconsejar el tipo de dato que mas se acople para los datos
que se presentan realizamos clic en Vale, y obtendremos
el siguiente resultado
Este analisis lo hace con la intencion de optimizar la base
de datos, evitar malgastar la capacidad de la memoria
fisica en datos que tal vez nunca se vayan a necesitar.
Esta seria la interfaz como encontrariamos nuestra tabla
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
19
UNI-FO-02 V 1.0
PENTAHO-BI
Finalmente podemos Previsualizar los datos dando clic en
previsualizar
En la ventana emergente escogemos la cantidad de datos a
ver.
Esta es la vista previa de los datos se encuentra en la base.
Esta base posee los mismo recursos que se mencionaron
de reportes anteriormente y puede ser exportada a Excel,
Html, entre otras.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
20
UNI-FO-02 V 1.0
PENTAHO-BI
5. EXPERIENCIAS
Es necesario tener conocimiento solido en bases de datos, por que esto es uno de los
mayores inconvenientes para avanzar en la investigación del software.
A pesar que el Pentaho- BI es software libre no significa que sea gratis la licencia y
en el transcurso de la investigación nos dimos cuenta de esto, la licencia caduco a
los 30 días de su instalación inhabilitando el manejo de los módulos. Aunque los
modulos del servidor siguen en funcionamiento.
Para poder adquirir la licencia se escribió un correo a los distribuidores de Pentaho-
BI, para que nos faciliten la licencia por un tiempo de tres meses, se esta esperando
licencia.
Es importante destacar el canal de solución en línea de Pentaho-BI por la
comunidad, este es #pentaho.
Del canal mencionado anteriormente se desprendió el conocimiento de la
Community Edition, que al instalarla presento inconvenientes y errores de
instalación.
A pesar que actué similar a un ERP es necesario tener en cuenta que hay que
configurarse algunos parámetros en las bases de datos, para que funcione de manera
adecuada.
6. CONCLUSIONES
1. Es necesario contar con bases de datos, cuentas de seguridad de estas con su
correspondiente contraseña.
2. Es importante manejar las bases claras para realizar los procesos mas rápidos.
3. Es visible que es necesario contar con un buen nivel de manejo de bases de datos
para facilitar el trabajo.
4. Un semestre es muy poco tiempo para concluir el análisis de la misma.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
21
UNI-FO-02 V 1.0
PENTAHO-BI
5. Los módulos proporcionados son relacionables, permitiendo obtener información
completa y transparente.
7. BIBLIOGRAFIA
1. [Link]
2. [Link]
3. [Link]
[Link]
4. [Link]
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
22
UNI-FO-02 V 1.0