Mapa
Mapa
Un programa de base de datos es un administrador de datos que puede ayudar a aliviar estas
sobrecargas de información. Las bases de datos hacen posible que todo el mundo pueda almacenar,
organizar, recuperar, comunicar y administrar información de un modo que sería imposible sin una
computadora. Para controlar todo este flujo de información, los usuarios utilizan bases de datos de
todas las formas y tamaños, desde los voluminosos administradores para mainframes que
mantienen las listas de pasajeros de las compañías aéreas hasta los pequeños calendarios incluidos
en cualquier computadora de bolsillo.
Las buenas noticias, es que la información en la punta de sus dedos puede hacer que su vida sea más
rica y eficiente de muy diversas formas. El dinero disponible en cualquier cajero automático, una
reserva instantánea para un vuelo realizada por Internet a cualquier hora del día o una búsqueda
online exhaustiva llevada a cabo en segundos son sólo algunos ejemplos de operaciones que no sería
posible realizar sin las bases de datos.
Las malas noticias: parte de la información almacenada en estas bases de datos son datos de
carácter personal, y su control sobre quién accede a ellos o de qué forma se realiza dicho acceso es
mínimo, por no decir nulo.
Una base de datos es una aplicación (programas para convertir una computadora en una
herramienta productiva). Si un procesador de texto es una máquina de escribir informatizada y una
hoja de cálculo un libro mayor también informatizado, se puede pensar que una base de datos es un
archivador informatizado.
Los programas de bases de datos están diseñados para mantener bases de datos (una colección de
información almacenada en los discos de una computadora). Una base de datos puede ser tan
simple como una lista de nombres y direcciones o tan compleja como un sistema de reservas de
billetes de avión. Una versión electrónica de una agenda telefónica, un fichero de recetas, las
tarjetas de catalogación de una biblioteca, las notas de los alumnos de un colegio o el catálogo con
todos sus CD de música son sólo algunos ejemplos de información que puede almacenarse en una
base de datos.
Las bases de datos hacen más fácil el almacenamiento de grandes cantidades de información. Si sólo
tiene 20 ó 30 discos compactos, lo más lógico sería catalogarlos en un sencillo bloc de notas. Pero si
la cifra aumenta hasta los 2.000 ó 3.000 CD, ese mismo bloc de notas sería inservible. Cuanto mayor
es el volumen de información, mayor es el beneficio de utilizar una base de datos.
Las bases de datos hacen más fácil la labor de recuperar información de forma rápida y flexible. El
tiempo necesario para consultar un número de teléfono de nuestra agenda no debería ser mayor de
un minuto, pero ese mismo trabajo puede hacerse en escasos segundos a través de una base de
datos. Por ejemplo, suponga que tiene un número de teléfono en un trozo de papel y quiere
encontrar el nombre y la dirección de la persona que se lo dio. Este tipo de búsqueda podría llevar
horas si su información está almacenada en una agenda ordenada por nombre; sin embargo, esa
misma búsqueda sería casi instantánea con una base de datos.
Las bases de datos hacen más fácil organizar la información. Los sistemas de almacenamiento en
papel le obligan a ordenar la información de un modo particular. ¿Cómo debería estar ordenado un
catálogo de libros, por autor, por título, por fecha de publicación o por tema? La decisión es muy
importante, ya que, si decide reordenar todo más tarde, gastará una gran cantidad de tiempo. Con
una base de datos, es posible cambiar instantáneamente estos esquemas organizativos.
Las bases de datos hacen más fácil imprimir y distribuir información de muy diversas maneras.
Suponga que tiene que enviar cientos de cartas a sus amigos informándoles de su próxima boda.
Además, teniendo en cuenta que vendrá gente de fuera, tendrá que incluir la dirección del evento
en esas cartas. Una base de datos, usada en combinación con un procesador de textos, puede
imprimir cartas personalizadas en las que se incluyan direcciones extra cuando se necesiten en
mucho menos tiempo del que usted necesitaría para hacer lo mismo a mano. ¡Y con muchos menos
errores! Podría incluso imprimir un informe de invitados ordenados por código postal para planificar
el transporte.
Existe un vocabulario especializado asociado a las bases de datos. Algunos de estos términos tienen
un significado distinto dependiendo de su contexto, y cada persona los utiliza a su manera.
Terminología técnica de las definiciones más utilizadas entre la gente:
Base de datos es una colección de información relacionada almacenada de un modo especial en
una computadora
Programa de base de datos es una herramienta software para organizar las tareas de
almacenamiento y recuperación de esa información. Existen muchos programas que cumplen esta
definición, desde simples agendas a sistemas de inventarios.
Las primeras bases de datos para PC eran simples administradores de ficheros; su labor se reducía a
facilitar a los usuarios el almacenamiento, la organización y la recuperación de información
(nombres, números, precios, etc.) incluida en ficheros de datos estructurados. Este tipo de
administración de datos es realmente una administración de una lista ya que dichos ficheros no eran
más que listas estructuradas. Las hojas de cálculo actuales son capaces de gestionar este tipo de
listas simples. Las bases de datos de hoy en día no están limitadas a una simple administración de
ficheros, y pueden llevar a cabo complejas operaciones que implican a múltiples ficheros de datos.
Una base de datos está compuesta generalmente por una o más tablas. Una tabla es una colección
de información relacionada; mantiene junta esta información del mismo modo que hace la carpeta
de cualquier archivador. Si se utiliza una base de datos para guardar las ventas de una compañía, lo
lógico sería disponer de tablas separadas para las ventas de cada año. En una base de datos de
direcciones, las tablas estarían organizadas para contener información personal o contactos del
trabajo. Es responsabilidad del diseñador de esa base de datos el decidir qué información es la que
debe almacenarse en cada tabla.
Un registro es la información relacionada con una persona, producto o evento. En la base de datos
de libros de una biblioteca, un registro sería el equivalente a la ficha de cada uno de esos libros. En
una libreta de direcciones, un registro son los datos referentes a una persona. Un catálogo de discos
compactos podría tener un registro por CD.
El tipo de información que un campo puede contener viene determinado por su tipo de campo o
tipo de dato. Por ejemplo, el campo autor del registro de una biblioteca debería estar definido como
texto, ya que podría contener texto. El campo que especifica el número de copias de un libro debería
estar definido como un campo numérico, ya que sólo podrá albergar números que podrían usarse
después para calcular totales y fórmulas aritméticas, si fuera necesario. La fecha de préstamo
debería ser un campo fecha. Además de estos tipos estándar, muchas bases de datos permiten
incluir gráficos, fotografías digitalizadas, sonido y vídeos. Los campos calculados contienen fórmulas
similares a las de una hoja de cálculo y muestran valores obtenidos a partir de la información
contenida en otros campos. Por ejemplo, un campo calculado llamado GPA podría contener una
fórmula para calcular la media de las notas de un alumno usando las calificaciones almacenadas en
otros campos. La mayoría de los programas ofrecen más de un modo de ver los datos, y disponen de
vistas de formularios que muestran un registro cada vez, y de vistas de listas, que visualizan varios
registros del mismo modo que hace una hoja de cálculo. En cualquiera de estas vistas, los campos
pueden reorganizarse sin modificar el dato asociado a ellos.
Una vez definida la estructura de nuestra base de datos, es muy sencillo introducir información en
ella; basta con teclear. Pero incluso esta operación podría no ser necesaria si los datos ya se
encuentran en algún otro formato informatizado. La mayoría de los programas de base de datos
pueden importar datos contenidos en ficheros creados por procesadores de texto, hojas de cálculo y
otras bases de datos. Cuando la información cambia o se detectan errores, es posible modificar,
añadir o borrar registros.
Navegación
La parte más complicada del uso de una base de datos es recuperar la información de un modo
correcto. Tenga en cuenta que dicha información tendrá poco valor si no es capaz de acceder a ella.
Una forma de hacerlo es navegar a través de los registros que componen la base de datos de igual
forma que si fueran las hojas de nuestra agenda en papel. La mayor parte de los programas ofrecen
comandos de teclado, botones y otras herramientas para que dicha navegación sea rápida. Como ya
habrá deducido, este tipo de «páginas electrónicas» no ofrecen ninguna ventaja sobre el papel, y
resultan ineficaces cuando se trabaja con bases de datos de gran tamaño. Por suerte, estos
programas incluyen una serie de comandos que facilitan la tarea de obtener la información que
necesite cuando la necesite.
Hay veces en las que es preciso ordenar los datos de un modo que facilite su uso. Por ejemplo, el
fichero de clientes de una empresa de venta por correo debería estar ordenado alfabéticamente por
nombre para una referencia rápida, aunque después debería estarlo por código postal para calcular
los descuentos en los envíos de sus catálogos.
Los comandos de ordenación permiten que los datos se clasifiquen en un orden basado en los
valores de uno o más campos.
Además de mostrar información en la pantalla, los programas de bases de datos generan una gran
variedad de salidas impresas. Las más corrientes son los informes, una lista ordenada de registros y
campos seleccionados en un formato fácil de leer. La mayoría de los informes de negocio ordenan
los datos en tablas con filas para cada uno de los registros y columnas para los campos; y con
frecuencia incluyen también líneas resumen que contienen totales calculados y medias de grupos de
registros.
Los programas de base de datos también pueden usarse para generar etiquetas de correo y cartas
personalizadas. Muchos de ellos no imprimen cartas; simplemente exportan datos, o transmiten los
registros y campos necesarios, a un procesador de textos con capacidades para fusionar correo.
Consultas complejas
Las consultas pueden ser simples o complejas, pero ambas deben ser precisas y sin ambigüedad. Con
las bases de datos apropiadas, las consultas pueden construirse para localizar lo siguiente:
En una base de datos de un hospital, los nombres y direcciones de todos los pacientes de las
plantas quinta y sexta de dicho hospital.
En una base de datos con los horarios de vuelos de aviones, la forma más barata de viajar desde
Boston a San Francisco el martes por la tarde.
En una base de datos de políticos, todos los votantes que contribuyeron con más de 1.000 dólares
en la última campaña electoral y quiénes escribieron para expresar su opinión acerca de las leyes
contra la violencia doméstica.
Todo esto son consultas legítimas, pero no están expresadas de forma que un programa de base de
datos pueda entender. El método exacto de realizar una consulta depende de la interfaz de usuario
del software de base de datos. La mayoría de estos programas permiten que el usuario especifique
las reglas de búsqueda rellenando un cuadro de diálogo o un formulario en blanco. Otros exigen que
el usuario teclee la consulta en un lenguaje de consulta especial que es más preciso que el español.
Por ejemplo:
Muchos programas de base de datos incluyen lenguajes de programación, lo que permite que estas
consultas se incluyan en una aplicación y se ejecuten cuando ésta se cargue. Aunque los detalles del
proceso varían, la lógica subyacente es parecida de un programa a otro.
Los modernos administradores de bases de datos soportan un lenguaje estándar llamado SQL
(Lenguaje de consulta estructurado, Structured Query Language) para la construcción de consultas
complejas. Debido a su gran disponibilidad, los programadores y usuarios avanzados no necesitan
aprender nuevos lenguajes cuando trabajan con sistemas hardware y software diferentes. Por lo
general, los usuarios están aislados de las complejidades de este lenguaje gracias a interfaces de
usuario que permite construir consultas de tipo «apuntar-y-hacer-clic».
Por ejemplo, un directorio telefónico electrónico puede incluir millones de nombres y números de
teléfono en un solo CD-ROM o sitio Web. Gracias a cualquier de estos directorios, es posible localizar
los números de teléfono de personas y empresas en cualquier parte del mundo, aun cuando no sepa
su localización exacta. Es posible localizar el nombre de una persona conociendo su número de
teléfono o su dirección, o generar un listado de todos los dentistas de su ciudad. Posteriormente, y
gracias a otra base de datos especializada como un callejero electrónico, puede localizarlos en un
mapa que se refresca dinámicamente. Muchos de estos callejeros están diseñados para trabajar con
los receptores GPS (Sistema de posicionamiento global, Global Positioning System) incluidos en
portátiles y en computadoras de bolsillo y las de automóviles. Los satélites GPS nutren de
información a los receptores GPS, y el software de posicionamiento utiliza esta información para
ofrecer la localización.
Los GIS (Sistemas de información geográfica, Geographical Information Systems) son algo más que
programas de posicionamiento. Un GIS permite a un negocio combinar tablas de datos como listas
de ventas de clientes con información demográfica procedente de la Oficina del Censo de los EE.UU.
y otras fuentes. Por ejemplo, una compañía de televisión por cable puede localizar los potenciales
clientes que vivan cerca de las líneas ya tendidas. Ya que los GIS pueden mostrar en mapas datos
geográficos y demográficos, permiten que los usuarios vean datos relacionados que, de otro modo,
podrían ser invisibles.
Calendario de citas. Un calendario PIM típico le permite introducir citas y eventos y mostrarlos o
imprimirlos de distintos formatos, en un rango que va desde un día a varios meses. Muchos incluyen
también alarmas con recordatorios y formas de compartir electrónicamente el calendario con otros
usuarios.
Listas de tareas. Muchos PIM permiten que los usuarios introduzcan y organicen listas de tareas a
realizar y de tareas ya realizadas.
Notas varias. Algunos PIM aceptan entradas diarias, notas personales, etc. contactos. Son más
fáciles de comprender y utilizar que los programas de base de datos de propósito general, y más
rápidos y flexibles que sus equivalentes en papel. Para los viajeros, los PIM trabajan especialmente
bien con portátiles y computadoras de bolsillo. De hecho, el mercado PIM ha sido eclipsado por el de
las computadoras de bolsillo y las PDA (Asistente digital personal, Personal Digital Assistants) con
software PIM preinstalado. Por ejemplo, el software incluido en el sistema operativo Palm acepta un
dispositivo para sincronizar en caliente con el software PIM de un PC o un Mac. Este enlace de datos
instantáneo permite tener actualizada información personal dentro y fuera de la oficina.
En muchas organizaciones, los PIM han sido sustituidos por sistemas de información empresariales
como Microsoft Outlook, una parte de Microsoft Office. Estos sistemas permiten a los trabajadores
conectados en una red compartir de forma fácil calendarios y contactos e, incluso, tener correo
electrónico y otras herramientas de comunicación junto con características PIM básicas. Internet
ofrece otra alternativa: varios sitios Web ofrecen software PIM gratuito al que se puede acceder
desde cualquier computadora con conexión a la Red; muchas de estas aplicaciones permiten
también que grupos de trabajo compartan calendarios y otro tipo de información.
E l rango de uso de los programas de base de datos va desde los simples que sólo envían etiquetas
de correo a otros más complejos para el procesamiento masivo de información financiera, y es
importante conocer qué les diferencia y qué les hace iguales.
Muchas bases de datos de usuario y programas PIM no son realmente administradores de bases de
datos en sí mismos; son administradores de ficheros. Un administrador de ficheros es un programa
que permite que los usuarios trabajen con un fichero a la vez.
La mayor parte de colegios prefieren utilizar varias tablas para recoger todos estos datos: una para la
información financiera, otra para las matriculaciones del curso y las notas, etc. Cada una de estas
tablas dispone de un registro único por estudiante. Además, un colegio debe mantener tablas de
matriculaciones por clase en las que exista un registro por cada clase y campos para la información
de cada estudiante matriculado en esa clase. Tres de estas tablas podrían estar organizadas tal y
como se muestra en la figura que acompaña a este texto.
En esta base de datos, cada una de estas tres tablas contienen información básica acerca de cada
estudiante. Estos datos redundantes no sólo ocupan espacio en los dispositivos de almacenamiento
sino que también dificulta la labor de mantenerlos actualizados.
Si un estudiante cambia de domicilio, será preciso actualizar varios ficheros para reflejar este
cambio. Cuantos más cambios se necesiten, más fácil será que se den errores.
Con un DBMS no hay necesidad de almacenar esta información en tablas distintas. La base de datos
puede incluir una tabla básica de estudiantes que contenga la información demográfica única de
cada uno de ellos. Ya que esta información se almacena en una tabla aparte, no será necesario
incluirla en la de datos financieros, la de transcripciones, la de listas de clases o en cualquier otra
tabla. El ID de estudiante, incluido en cada tabla, sirve como campo clave para desbloquear la
información relevante del estudiante cuando se necesite. Este campo ID está, de hecho, compartido
por todas las tablas que usen datos de esta tabla. Si un estudiante cambia de domicilio, la nueva
dirección sólo será necesario almacenarla en un lugar. Las bases de datos organizadas de este modo
reciben el nombre de bases de datos relacionales.
Para la mayoría de los usuarios, un programa de base de datos relacional es el que permite que
diversas tablas se relacionen entre sí de modo que los cambios efectuados en una de ellas se reflejen
automáticamente en las demás. Para los informáticos, el término «base de datos relacional» tiene
una significación técnica que tiene que ver con la estructura subyacente de los datos y las reglas que
especifican cómo deben manipularse dichos datos.
La estructura de una base de datos relacional se basa en el modelo relacional, un modelo
matemático que combina los datos de las tablas. Existen otros sistemas de administración de bases
de datos basados en modelos teóricos diferentes, los cuales tienen sus ventajas e inconvenientes
técnicos. Pero la mayoría de DBMS actuales, incluyendo virtualmente todos los administradores de
base de datos de PC, usan el modelo relacional. Por lo tanto, desde el punto de vista de casi todos
los usuarios de computadoras, la distinción entre la definición popular y técnica de relacional es sólo
académica.
Las bases de datos grandes suelen contener cientos de tablas interrelacionadas. Este laberinto de
información podría abrumar a los usuarios en el caso de que tuvieran que verse las caras
directamente con ellas. Una base de datos bien diseñada tiene diferentes caras para cada tipo de
usuario que la usa.
Los empleados de una tienda minorista no tienen que acceder a todas las piezas de información de
la base de datos de la tienda; sólo necesitan introducir los datos de las ventas en los terminales. Las
bases de datos diseñadas para este tipo de negocio suelen incluir interfaces de terminal sencillas y
claras que sólo ofrezcan al dependiente la información, y la potencia, necesarias para procesar las
transacciones. Los directores, contables, especialistas en procesar datos y los clientes ven las bases
de datos desde puntos de vista diferentes porque necesitan trabajar con los datos de un modo
distinto.
Los primeros administradores de fichero sólo podían realizar un procesamiento por lotes, el cual
obligaba a que los usuarios acumulasen muchas transacciones para alimentar posteriormente la
computadora con procesos de larga duración. Estos sistemas por lotes no estaban capacitados para
proporcionar la respuesta inmediata que exigimos hoy en día.
Hoy en día, las unidades de disco, la memoria barata y el software sofisticado han conseguido que el
procesamiento interactivo sustituya al de por lotes en la mayoría de las aplicaciones. Los usuarios
pueden ahora interactuar con los datos a través de terminales visualizando y cambiando valores en
tiempo real. Estos sistemas se ejecutan normalmente en potentes servidores a los que se accede de
forma remota. Compañías como Oracle, IBM y Microsoft son los creadores de los servidores de base
de datos utilizados por numerosas empresas de todo el mundo.
En los días anteriores a los PC, la mayoría de las bases de datos estaban albergadas en mainframes a
los que sólo podían acceder el personal de procesamiento de la información.
Pero el tradicional acceso estricto a una base de datos centralizada en un mainframe no es la norma.
Algunas corporaciones mantienen copias de todos sus datos en warehouses de datos integrados. En
algunos aspectos, estos almacenes son similares a los sistemas del viejo estilo: eran grandes,
relativamente caros y centralizados. Pero a diferencia de ellos, los warehouses de datos ofrecen a los
usuarios acceso más directo a los datos de la empresa. Los warehouses de datos suelen encontrarse
con frecuencia en empresas de gran tamaño y departamentos gubernamentales.
Algunas compañías usan bases de datos distribuidas en las que los datos están desparramados a
través de redes en diferentes computadoras en vez de encontrarse en un lugar centralizado. Y otras
disponen tanto de bases de datos distribuidas como de warehouses de datos. Desde el punto de
vista del usuario, las diferencias entre ambos acercamientos pueden no ser evidente. El software de
conectividad, llamado a veces middleware, enlaza las máquinas del cliente y el servidor, ocultando la
complejidad inherente a la interacción entre ellas y creando un diseño de tres niveles que separa los
datos de la lógica de programación utilizada para acceder a ellos. A pesar de que el dato se
almacena, se accede y se recupera, el objetivo final es ofrecer un acceso rápido y sencillo a la
información importante.
La tecnología actual permite que las empresas acumulen enormes cantidades de información en una
base de datos. Muchas organizaciones tienen suficiente con recuperar sus datos mediante consultas,
búsquedas e informes. Sin embargo, otras han descubierto oro en sus bases de datos, oro que sólo
puede extraerse a través de una nueva tecnología llamada minería de datos.
Minería de datos
La minería de datos trata del descubrimiento y la extracción de la información que está oculta en
grandes bases de datos. Utiliza métodos estadísticos y tecnología de inteligencia artificial para
localizar tendencias y patrones en los datos que han podido ser pasados por alto en una consulta
normal de base de datos. Por ejemplo, una cadena de tiendas de comestibles utilizaba la minería de
datos para descubrir las diferencias existentes entre los patrones de compra de la mujer y del
hombre de modo que les permitiera crear campañas de publicidad especialmente dirigidas a cada
uno de los sexos (en un anuncio se decía que algunos hombres compraban habitualmente cerveza y
pañales ¡cada viernes!) De hecho, la tecnología de la minería de datos permite a los usuarios
«perforar» en enormes cantidades de datos hasta localizar «vetas» de información útiles.
Alrededor del año 1999 se inició un cambio en las sociedades en cuanto a la manera de generar la
riqueza, que se fue trasladando de los sectores industriales a los sectores de servicios. La mayor
parte de los empleos estarán asociados a la generación, almacenamiento y procesamiento de todo
tipo de información. Los sectores relacionados con las tecnologías de la información y la
comunicación (TIC) desempeñan un papel particularmente importante dentro de esta sociedad.
Algunos sistemas que son sólo parcialmente conocidos, producen una cantidad inmensa de datos,
datos que con frecuencia contienen información valiosa que puede resultar muy útil a ejecutivos de
una empresa, a la hora de la toma de decisiones y de resolver problemas de negocio como:
- Gestión de riesgos
- Segmentación de clientes
- Personalización de la publicidad
- Previsión
Las dimensiones de las bases de datos grandes y sus velocidades de crecimiento, hacen muy difícil al
ser humano su análisis y la extracción de alguna información importante. Aún con el uso de
herramientas estadísticas clásicas esta tarea es casi imposible.
El descubrimiento de conocimiento en base de datos (KDD), que se esplli9cará con mayor exactitud
en el siguiente punto, combina las técnicas tradicionales con numerosos recursos desarrollados en el
área de la inteligencia artificial.
En estos casos habrá una parte del sistema que es conocida y habrá una parte aparentemente de
naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con
el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del
modelo.
Por todo ello, en sistemas donde una parte es conocida y otra de naturaleza aleatoria con el fin de
extraer conocimiento útil y comprensible, previamente desconocido, de grandes cantidades de
datos almacenados en distintos formatos, aparece lo que conocemos como la Minería de Datos (DM,
Data Mining).
La minería de datos se encarga de preparar, sondear y explorar los datos para sacar la información
oculta y útil en ellos. Si los datos son leídos y analizados, pueden proporcionar, en conjunto, un
verdadero conocimiento (futuras tendencias y comportamientos) que ayude en la toma de
decisiones, ya que para el responsable de un sistema, los datos en sí no son lo más relevante, sino la
información que se encierra en sus relaciones, fluctuaciones y dependencias.
Como podemos observar a medida que subimos de nivel el volumen de datos disminuye, puesto que
cuanto más alto estemos en la pirámide, necesitaremos información más específica y procesada. El
data mining trabaja en los niveles superiores buscando patrones, comportamientos, secuencias,
tendencias o asociaciones que puedan generar algún modelo que nos permita comprender mejor el
negocio, a través de una combinación de tareas como: Extracción de datos, limpieza de datos,
selección de características, análisis de resultados,...
El término data mining se considera una etapa dentro de un proceso mayor llamado extracción o
descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD).
Aunque algunos autores usan los términos Minería de Datos y KDD indistintamente, como
sinónimos, existen claras diferencias entre los dos. KDD como se ha comentado es un proceso que
consta de un conjunto de fases, una de las cuales es la minería de datos, por lo tanto se denomina
KDD al proceso completo que incluye pre-procesamiento, minería y post-procesamiento de los
datos.
Como puede observarse la minería de datos es una de las fases del proceso de KDD, como ya se ha
comentado. Algunas de las tareas más frecuentes en procesos de KDD son la clasificación y
clustering, el reconocimiento de patrones, las predicciones y la detección de dependencias o
relaciones entre los datos.
La principal fase del proceso de la minería de datos es el descubrimiento de reglas, las cuales
mostrarán nuevas relaciones entre las variables o excepciones según el negocio que utilice este
proceso. Puede ocurrir que algunas de las reglas descubiertas no puedan ser cambiadas, pero si
modificadas para mejorar su desempeño.
Una vez descubiertas reglas importantes, pueden ser utilizadas para estimar algunas variables de
salida. En esta técnica se complementan las técnicas estadísticas tradicionales con aquellas
provenientes de la inteligencia artificial.
Conceptos adaptativos como los algoritmos genéticos y las redes neuronales, permiten realizar
predicciones más acertadas, especialmente en casos de gran complejidad. Entre las principales
tareas de la minería de datos se encuentran:
1. Tareas descriptivas:
Clasificación: Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos,
donde uno de ellos es el atributo clase. Se busca un modelo que describa el atributo clase como una
función de los atributos de salida. Existen principalmente dos tipos de clasificación:
- Clasificación neuronal.
Asociación: Organizar según relaciones entre atributos (Análisis de la cesta de la compra). Expresa
las afinidades entre elementos siguiendo el modelo de las reglas de asociación XY, facilitando una
serie de métricas como el soporte y confianza.
Regresión: Tarea muy similar a la de clasificación pero con el objetivo de buscar patrones para
determinar su valor único.
2. Tareas Predictivas:
-Predicción neuronal.
Análisis de desviaciones: Busca datos distintos, raros, diferentes en comparación con el resto de
los datos obtenidos.
Análisis de similitud en series temporales: Detecta todas las ocurrencias de secuencias similares en
una colección de series temporales.
Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos,
independientemente de la técnica específica de extracción de conocimiento.
Limpieza o filtrado de datos: En esta fase se filtran los datos con el objetivo de eliminar valores
erróneos o desconocidos, según las necesidades y el algoritmo a utilizar.
- Redondeo
- Agrupación
- Agregación
4. Modelado:
La selección de características reduce el tamaño de los datos, eligiendo las variables más influyentes
del problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de
minería.
Los métodos para la selección de los atributos que más influencia tienen en el problema son
básicamente dos:
- Reglas
- Árboles
- Redes neuronales
También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque
generalmente cada técnica obliga a un pre-procesado diferente de los datos. Normalmente se suele
seguir el procedimiento de prueba y error.
5. Evaluación:
Una vez obtenido el modelo, se procede a su validación; comprobando que las conclusiones
obtenidas son válidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso
de distintas técnicas, se deben comparar los modelos para buscar el que mejor se ajuste al
problema.
Si ninguno de los modelos alcanza los resultados esperados, debe modificarse alguna de las fases
anteriores para generar nuevos modelos. Esta retroalimentación se podrá repetir cuantas veces se
considere necesario hasta obtener un modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con
márgenes de error admisibles) éste ya está listo para su explotación e implantación.
6. Implantación:
5. TÉCNICAS
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en:
Forecasting (Predicción) : Dada una tendencia de los datos se busca cuál será su previsión.
Esta tecnología puede ser desarrollada tanto en software como en hardware y con ella se pueden
construir sistemas capaces de aprender, de adaptarse a condiciones variantes, o inclusive si se
dispone de una colección suficiente grande de datos, predecir el estado futuro de algunos modelos.
Estas técnicas son adecuadas para enfrentar problemas que hasta ahora eran resueltos sólo por el
cerebro humano y resultaban difíciles o imposibles para las máquinas lógicas secuenciales. Un
procesamiento paralelo realizado por un gran número de elementos altamente interconectados, es
la clave de su funcionamiento.
Algunos ejemplos de red neuronal son:
-El Perceptrón.
Este tipo de red neuronal se organiza generalmente en capas, como puede observarse en la
siguiente figura:
Capa de entrada
Capa(s) oculta(s)
Capa de salida
Árboles de decisión: Algoritmo de aprendizaje por inducción supervisada que pretende modelar
los datos de ejemplo mediante un árbol. Un árbol de decisión se describe como un modelo de
predicción utilizado en el ámbito de la inteligencia artificial, ya que dada una base de datos se
construyen diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados
en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolución de un problema.
En este tipo de árbol, los nodos intermedios son los atributos de entrada de los ejemplos
presentados, las ramas representan valores de dichos atributos y los nodos finales son los valores de
la clase.
Para elegir qué atributos y en qué orden aparecen en el árbol, se utiliza una función de evaluación:
ganancia de información. Ejemplos:
-Algoritmo K-medoids.
El conjunto de reglas se considera como una población de “pseudo-organismos”, los cuales al igual
que los biológicos, pueden:
6. APLICACIONES
En este apartado se describirán diferentes aplicaciones de la minería de datos que facilitan los
problemas de negocio y la toma de decisiones:
Detección de fraudes:
Recursos humanos:
La minería de datos también puede ser de gran utilidad en los departamentos de recursos humanos
de cualquier empresa, en la identificación de las características y capacidades de sus mejores
empleados.
La información obtenida mediante estas técnicas puede ayudar al personal de recursos humanos a la
hora de la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados
obtenidos por éstos. Además dicha ayuda ofrecida por la minería de dato (conocimiento), se traduce
en la obtención de ventajas a nivel corporativo, como mejoras en las decisiones corporativas:
desarrollo de planes de producción o gestión de mano de obra
Terrorismo:
La minería de datos es la técnica por la cual la unidad de Able Danger del ejército de los EE.UU. había
identificado al líder de la banda terrorista autora de los atentados del 11 de septiembre de 2001,
Mohammed Atta, y a otros tres secuestradores, como posibles miembros de una célula de Al Qaeda
que operaba en los EE.UU. un año antes del ataque.
Juegos:
Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con
éxito al funcionamiento de estos oráculos.
Genética:
La minería de datos puede ayudar a mejor de esta forma el diagnóstico, prevención y tratamiento de
enfermedades. Generalmente la técnica de minería de datos que se utiliza en este tipo de
aplicaciones se conoce como “reducción de dimensionalidad multifactorial”.
Ingeniería eléctrica:
Las técnicas de minería de datos en este ámbito han sido utilizadas principalmente para monitorizar
las condiciones de las instalaciones de alta tensión.
La finalidad de esta aplicación es obtener información valiosa sobre el estado de aislamiento de los
equipos, vigilar las vibraciones producidas o por ejemplo para analizar los cambios de carga en los
transformadores. Generalmente se usan técnicas encargadas de detectar condiciones anormales
(Análisis de anomalías).
Previsiones de fuga:
En muchas industrias (banca, telecomunicaciones,…) existe un interés comprensible en detectar e
identificar cuanto antes a aquellos clientes que puedan estar pensando en rescindir sus contratos,
para muy probablemente pasarse a la competencia.
Con la ayuda de la minería de datos identificaríamos qué clientes son los más proclives a darse de
baja estudiando sus patrones de comportamiento y comparándolos con clientes que ya han
rescindido su contrato con la empresa, de esta forma se podría actuar realizando ofertas
personalizadas y ofreciendo promociones con el objetivo de retener a dichos clientes.
Bioinformática
El enorme volumen de datos generados por los distintos proyectos denominados genoma
(humano y de otros organismos).
Los nuevos enfoques experimentales, que permiten obtener datos genéticos a gran velocidad,
bien de genomas individuales (mutaciones, polimorfismos) de enfoques celulares (expresión génica).
Uno de los retos de la bioinformática es el desarrollo de métodos que permitan integrar los datos
genómicos para explicar el comportamiento global de la célula viva, minimizando la intervención
humana. Dicha integración, sin embargo, no puede producirse sin considerar el conocimiento
acumulado durante años, producto de la investigación de miles de científicos.
La bioinformática es un área del espacio que representa la biología molecular computacional, que
incluye la aplicación de las computadoras y de las ciencias de la información en áreas como la
geonómica, el mapeo, la secuencia y determinación de las secuencias y estructuras por métodos
clásicos. Las metas fundamentales de la bioinformática son la predicción de la estructura
tridimensional de las proteínas a partir de su secuencia, la predicción de las funciones biológicas y
biofísicas a partir de la secuencia o la estructura, así como simular el metabolismo y otros procesos
biológicos basados en esas funciones.
Web Mining:
Una aplicación especial de la minería de datos es la minería web (o minería de uso de la web, web
mining) que consiste en extraer información y conocimiento útil específicamente de la actividad de
un sitio web: análisis de tráfico (visitas y visitantes), contenidos más accedidos, procedencia, tipo de
usuarios, navegadores y sistemas operativos, reglas de asociación entre páginas (tasa de
conversión)...
Text Mining:
La minería de textos (text mining) es una disciplina englobada dentro de las técnicas de acceso,
recuperación y organización de información y consiste en un conjunto de técnicas que nos permiten
extraer información relevante y desconocida de manera automática dentro de grandes volúmenes
de información textual, normalmente en lenguaje natural y generalmente no estructurada.
La minería de textos permite el descubrimiento de patrones interesantes y nuevos conocimientos en
un conjunto de textos, es decir, su objetivo consiste en descubrir tendencias, desviaciones y
asociaciones entre una gran cantidad de información textual. Esto nos permite encontrar
conocimiento significativo a partir de datos textuales sin estructurar.
La minería de textos extrae información nueva por lo que es algo totalmente distinto a la búsqueda
web, en la cual se busca información ya conocida, no se extrae información nueva.
Una de las principales características de la minería de textos consiste en que la información no está
estructurada, al contrario de lo que ocurre en la minería de datos en la que la información suele
extraerse de una base de datos, por lo que sí está estructurada. Esto hace que la extracción de
información de una base de datos sea más sencilla, ya que las bases de datos están diseñadas para
que sea posible el tratamiento automático de la información.
Las principales áreas de aplicación de las tecnologías de minería de textos cubren dos aspectos:
El descubrimiento de conocimiento
La extracción de información
La minería de textos constituye una herramienta de gran utilidad ya que alrededor de un 80% de la
información de las organizaciones está almacenada en forma de texto no estructurado.
Las técnicas de análisis estadístico, permiten obtener ciertas informaciones útiles, pero no inducir
relaciones cualitativas generales, o leyes, previamente desconocidas; para esto se requieren otras
técnicas de análisis inteligente que están enfocadas a la inducción de conocimiento en bases de
datos: la Minería de Datos (data mining), que pone al alcance del individuo lo que necesita en el
momento preciso para que su actividad se haga efectiva.
Por tanto, la Minería de Datos surge a partir de sistemas de aprendizaje inductivo en ordenadores, al
ser aplicados a bases de datos, y su importancia crece de forma masiva.
Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas
de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este
sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje
PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean
interoperables en distintas plataformas, con independencia del sistema con el que han sido
construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la
información hacen uso de este estándar.
Comprender el dominio de aplicación: este paso incluye el conocimiento relevante previo y las
metas de la aplicación.
Extraer la base de datos objetivo: recogida de los datos, evaluar la calidad de los datos y utilizar
análisis exploratorio de los datos para familiarizarse con ellos.
Preparar los datos: incluye limpieza, transformación, integración y reducción de datos. Se intenta
mejorar la calidad de los datos a la vez que disminuir el tiempo requerido por el algoritmo de
aprendizaje aplicado posteriormente.
Minería de datos: como se ha señalado anteriormente, este es la fase fundamental del proceso.
Está constituido por una o más de las siguientes funciones, clasificación, regresión, clustering,
resumen, recuperación de imágenes, extracción de reglas, etc.
Clasificación: clasifica un dato dentro de una de las clases categóricas predefinidas. Responde a
preguntas tales como, ¿Cuál es el riesgo de conceder un crédito a este cliente? ¿Dado este nuevo
paciente qué estado de la enfermedad indican sus análisis?
Regresión: el propósito de este modelo es hacer corresponder un dato con un valor real de una
variable. Responde a cuestiones como ¿Cuál es la previsión de ventas para el mes que viene? ¿De
qué depende?
Generación de reglas: aquí se extraen o generan reglas de los datos. Estas reglas hacen referencia
al descubrimiento de relaciones de asociación y dependencias funcionales entre los diferentes
atributos. ¿Cuánto debe valer este indicador en sangre para que un paciente se considere grave? ¿Si
un cliente de un hipermercado compra pañales también compra cerveza?
a compartir y distribuir los datos en la red, junto con el aumento de nuevas bases de datos en los
repositorios,
al avance de las arquitecturas de las computadoras y la caída del coste del poder computacional,
permitiendo utilizar métodos computacionalmente intensivos para el análisis de datos,
Geología, minería, agricultura y pesca: identificación de áreas de uso para distintos cultivos o de
pesca o de explotación minera en bases de datos de imágenes de satélites
Ciencias Sociales: Estudio de los flujos de la opinión pública. Planificación de ciudades: identificar
barrios con conflicto en función de valores sociodemográficos.
En la actualidad se puede afirmar que la MD ha demostrado la validez de una primera generación de
algoritmos mediante diferentes aplicaciones al mundo real. Sin embargo, estas técnicas todavía
están limitadas por bases de datos simples, donde los datos se describen mediante atributos
numéricos o simbólicos, no conteniendo atributos de tipo texto o imágenes, y los datos se preparan
con una tarea concreta en mente. Sobrepasar este límite será un reto para conseguir. Señalemos por
último que existen cientos de productos de minería de datos y de compañías de consultoría.
KDNuggets (kdnuggets.com) tiene una lista de estas compañías y sus productos en el campo de la
minería de datos. Pueden resaltarse por su mayor expansión las siguientes: SAS con SAS Script y SAS
Enterprise Miner; SPSS y el paquete de minería Clementine; IBM con Intelligent Miner; Microsoft
incluye características de minería de datos en las bases de datos relacionales; otras compañías son
Oracle, Angoss y Kxen. En la línea del software libre Weka es un producto con mayor orientación a
las técnicas provenientes de la IA, pero de fuerte impacto.
Las intranets permiten que los empleados accedan a bases de datos corporativas utilizando los
mismos navegadores Web y motores de búsqueda que emplean para obtener información en redes
externas. Como las herramientas de Internet evolucionan a grandes pasos, el acceso a las bases de
datos debe hacerse también más sencillo y transparente.
HTML, el lenguaje usado para construir la mayoría de las páginas web, no estaba diseñado para
construir consultas a bases de datos. Sin embargo, el potente lenguaje de descripción de datos
llamado XML sí que fue diseñado con dicho acceso en mente. Los fabricantes de bases de datos
están revisando sus productos para que puedan procesar peticiones en XML. Ya que este lenguaje
puede servir como lenguaje de consulta y como herramienta para la construcción de páginas Web,
es muy probable que cada vez haya más bases de datos disponibles en la Web.
Para muchas empresas, las estrategias de bases de datos web giran alrededor de directorios.
Originalmente, estos elementos no eran más que meros repositorios para nú meros de teléfono,
direcciones y contraseñas de los usuarios, y solían estar enterrados dentro del sistema operativo de
red. Pero el explosivo crecimiento de Internet y del comercio electrónico ha aumentado el papel de
los directorios en muchas organizaciones.
Los directorios pueden usarse para almacenar información básica sobre empleados y clientes,
además de políticas de acceso, perfiles de identidad e información sobre pagos y seguridad. Por lo
general, se encuentran en el corazón de muchos sistemas CRM (Administración de la relación con el
cliente, Customer Relationship Management), un software para la organización y seguimiento de
información sobre clientes.
La Web hace posible que los empleados y los clientes tengan acceso instantáneo a bases de datos,
abriendo unas enormes posibilidades al comercio electrónico. Pero este tipo de base de datos en
tiempo real también aumenta la probabilidad de tener errores en los datos. Una calidad alta en la
información es un factor crítico para el éxito de cualquier negocio en la Red. La mayoría de las bases
de datos de gran tamaño usan rutinas de verificación de datos siempre que éstos se introducen en el
sistema.
Uno de los mayores cambios en la tecnología de base de datos de los próximos años tendrá lugar
bajo la superficie, lugar al que la mayoría de usuario no llega. Por ejemplo, muchos informáticos
creen que el modelo relacional será sustituido en la próxima década por otro orientado al objeto, y
que la mayoría de las bases de datos estarán orientadas al objeto en lugar de ser relacionales. En
lugar de almacenar los registros en tablas y jerarquías, las bases de datos orientadas al objeto
almacenan objetos software que contienen procedimientos (o instrucciones) junto con los datos.
Este tipo de base de datos suelen utilizarse junto con lenguajes de programación orientados a
objeto.
Las bases de datos actuales pueden almacenar de modo eficiente todo tipo de datos numéricos y de
texto. Pero nuestras computadoras son máquinas multimedia que son capaces de trabajar con
dibujos, sonidos, animaciones y video-clips. Las bases de datos multimedia pueden manipular datos
gráficos y dinámicos además de texto y números.
Los profesionales de la multimedia utilizan este tipo de bases de datos para catalogar arte,
fotografías, mapas, video-clips, ficheros de sonido y cualquier otro tipo de material multimedia. Este
tipo de ficheros no suelen almacenarse en bases de datos porque tienen un tamaño muy elevado. En
su lugar, una base de datos multimedia sirve como índice para acceder a todos estos ficheros
individuales.
Vivimos en una era de información, y los datos son una de las monedas de curso legal de nuestro
tiempo. Las empresas y las agencias gubernamentales gastan inmensas cantidades de dinero cada
año para recuperar e intercambiar información sobre usted y sobre mí. Existen más de 15.000 bases
de datos especializadas en marketing que contienen alrededor de dos mil millones de nombres de
clientes junto con una enorme cantidad de información de carácter personal. El cliente americano
típico está, al menos, en unas 25 de estas listas. Y muchas de ellas están organizadas por edad,
ingresos, religión, afiliación política e, incluso, tendencia sexual.
Las bases de datos de marketing son sólo la punta del iceberg. La información crediticia y bancaria,
los registros de impuestos, datos sobre nuestra salud, registros de seguros, contribuciones políticas,
registros de votaciones, compras con tarjetas de crédito, suscripciones a revistas y publicaciones,
llamadas telefónicas, reservas aéreas.
Todo está registrado en las computadoras, y nosotros tenemos poco o ningún control sobre lo que
ocurre con gran parte de esta información.
Para la mayor parte de nosotros, estos datos están fuera de nuestra vista y de nuestra cabeza. Pero
no se puede negar que nuestras vidas están cambiando debido a estas bases de datos. Aquí le
mostramos algunas historias representativas:
Cuando los miembros del Congreso investigaron la relación entre Billy, el hermano del presidente
Jimmy Carter, y el gobierno de Libia, crearon un informe que detallaba, amén de otros temas, el
tiempo exacto y la localización de las llamadas telefónicas que realizó Billy Carter en tres estados
diferentes. Los registros telefónicos, que revelaron con gran detalle las actividades de Billy Carter,
fueron obtenidos de las redes de recopilación de datos de AT&T. Existen registros similares en todas
las compañías telefónicas.
Cuando una oficina crediticia situó erróneamente una condición de bancarrota en el informe de
una pareja de San Luis, los bancos respondieron anulando el crédito que tenían concedido para la
construcción de su negocio, obligándolos realmente a declararse en bancarrota. La pareja demandó
pero perdieron porque las oficinas crediticias están protegidas por ley de responsabilidad financiera
debido a ¡errores de «honestidad»!
Un ladrón de Los Ángeles robó una cartera y utilizó su contenido para crearse una identidad falsa.
Cuando fue arrestado por un robo con asesinato, el crimen fue registrado en las bases de datos de la
policía bajo la personalidad de la persona a la que ese ladrón había robado la cartera. El propietario
legitimo fue arrestado cinco veces en los siguientes 14 meses y tuvo que pasar varios días en prisión
hasta que un juzgado ordenó la eliminación del registro.
Son muchas las formas en las que se puede abusar de las bases de datos que contienen nuestra
información de carácter personal. A veces, las violaciones de nuestra privacidad son debidas a las
actividades de vigilancia de los gobiernos. Otras veces son el resultado del trabajo de empresas
privadas.
Las infracciones a la privacidad pueden deberse a errores sin intención, a acciones estratégicas o a
situaciones malintencionadas. El explosivo crecimiento de los ladrones de identidad (que afecta a
millones de personas cada año) muestra a las claras que la tecnología de base de datos puede ser
una importante herramienta criminal.
Las violaciones a la privacidad no son algo nuevo, y no siempre han tenido que ver con las
computadoras. Los nazis en Alemania, los comunistas en China e, incluso, el comité de la campaña
de Richard Nixon en 1972 practicó vigilancia sin computadoras. Pero el problema de la privacidad
entró en una nueva vertiente en el momento en que aparecieron las computadoras de alta velocidad
y las bases de datos. Los mismos rasgos que hace que las bases de datos sean un mejor método de
almacenamiento de datos que cualquier otro (capacidad de almacenamiento, velocidad de
recuperación, flexibilidad en la organización y fácil distribución de la información) también son los
que ponen en peligro nuestra privacidad.
Las técnicas de minería de datos pueden utilizarse para extraer información sobre individuos y
grupos sin su conocimiento o consentimiento. Y hay que tener en cuenta que una base de datos
puede venderse o usarse fácilmente para un fin diferente al que se utilizó para recopilar esos datos.
La mayoría de las veces, este tipo de actividad pasa inadvertida para el público. Aquí tiene algunos
ejemplos en los que el conocimiento público cambió la política de privacidad:
En 1998, los almacenes farmacéuticos CVS contrataron a Elensys, una empresa de marketing
directo de Massachussets, para enviar unas cartas recordatorias a los clientes que no habían
renovado sus recetas. Mientras que algunos de esos clientes apreciaron en su justa medida el
recordatorio, otros alegaron que se habían utilizado sus datos médicos privados para usos
comerciales. CVS finalizó la práctica como resultado de las protestas.
En muchos estados, el número del permiso de conducir es considerado un dato público que está
disponible para cualquiera que lo pida. En 1998, los gobernantes de Florida aprobaron una norma
para que las fotografías de dichos permisos también fueran públicas. Pero tras una protesta pública,
Florida, junto con otros estados, finalizaron estas prácticas.
En 1999, Amazon.com introdujo los «Purchase Circles», una característica que permitía ver a los
clientes qué libros, CD-ROM, cintas y vídeos eran los más populares entre empresas particulares,
escuelas, organizaciones gubernamentales y ciudades. Amazon nunca ofreció al público información
comercial individualizada,mpero ésta se utilizó para crear perfiles de grupos personalizados. Gracias
a ellos, el sitio Web de Amazon permitía saber, por ejemplo, cuáles eran los libros y vídeos más
populares entre los empleados de Microsoft, los estudiantes de colegio Stephens o los residentes en
Dedham, Massachussets. Como respuesta a las protestas, Amazon decidió dar a sus clientes la
posibilidad de ser excluidos de esos Purchase Circles.
En 1999, la agencia de publicidad online DoubleClick adquirió una firma de marketing directo junto
con su base de datos de cerca de 90 millones de hogares. La compañía tenía la intención de
combinar datos supuestamente anónimos acerca de la actividad Web de una persona con
información personal procedente de la base de datos de clientes, creando así ficheros de datos
plenos de información sobre los clientes. En marzo del año 2000, como respuesta a las demandas de
los clientes y grupos de vigilancia de la privacidad, DoubleClick dio marcha atrás a su plan,
calificando de «gran error» intentar asociar información de ese modo antes de que el gobierno o los
estándares de la industria lo permitieran.
Las agencias de seguridad utilizan el emparejamiento de registros para localizar criminales de todo
tipo, desde evasores de impuestos hasta asesinos en serie. Ya que las agencias crediticias disponen
de todo tipo de datos sobre nosotros, podemos usar las tarjetas de crédito para pedir prestado
dinero en cualquier lugar del mundo en el que estemos. Pero estas ventajas suelen llevar
aparejados, al menos, estos tres problemas:
Los errores en los datos son algo común. Un estudio realizado sobre 1.500 informes de las tres
agencias crediticias más importantes encontró errores en un 43 por ciento de los ficheros.
Los datos pueden llegar a ser inmortales. Como los ficheros suelen copiarse y venderse, es casi
imposible borrar o corregir los registros erróneos con una absoluta seguridad.
Los datos no son seguros. Un informe de Business Week lo demostró en 1989 cuando utilizaron su
computadora para obtener el informe de solvencia del entonces vicepresidente Dan Quayle. Si esto
lo hubiera hecho un experimentado criminal, los daños podrían haber sido impensables.
Las bases de datos plantean una amenaza a nuestra privacidad, aunque no es la única tecnología que
lo hace:
Las redes hacen posible que los datos personales sean transmitidos casi a cualquier parte del
mundo de forma instantánea. Internet es un caldo de cultivo especialmente importante para la
recopilación de datos personales. Y la Web permite que cualquier persona con una computadora
conectada pueda examinar su información personal.
Microsoft’s Passport, una parte de su tecnología .NET, permite recopilar contraseñas, números de
tarjetas de crédito y otro tipo de información de los clientes en una base de datos centralizada y
controlada por Microsoft.
Las tecnologías de monitorización del entorno de trabajo permiten que los directivos de las
empresas conozcan los patrones y hábitos de trabajo de sus empleados.
Las cámaras de vigilancia, cada vez más utilizadas para controlar las violaciones de tráfico y de la
seguridad, pueden combinarse con bases de datos de imágenes para localizar criminales o a
cualquier persona.
Los satélites de vigilancia pueden ofrecer un control total sobre las personas a cualquiera que
pueda pagar su precio.