La Minería de Datos

El descubrimiento de conocimiento en bases de datos o KDD (del inglés Knowledge Database Discovery), es una de las corrientes de investigación que ha tenido un mayor impulso en los últimos años. Es la respuesta natural a la situación creada por la cantidad tan enorme de datos generada. Estos datos son una fuente inestimable de información que puede ser aprovechada por las empresas y organizaciones. En muchas situaciones, dado su volumen, hacen impracticable su análisis por humanos, por cuestiones de tiempo y coste. Como habíamos visto en nuestro boletín anterior, las herramientas OLAP permiten realizar las fases previas a la minería de datos, como son la selección de datos y atributos a analizar, limpieza (eliminación de ruido) y la simplificación de datos (cálculo de agregados de mayor nivel).

Es a partir de este punto donde el KDD entra en juego. Permite descubrir lo que aquí llamaremos conocimiento, a partir de estos datos de más alto nivel que los puramente transaccionales. Las aplicaciones en principio son muchas. Se están utilizando con éxito en muchas áreas, de las que remarcamos las siguientes:

Marketing: Se está utilizando cada vez más el Marketing de bases de datos. En este caso, se realiza un análisis pare agrupar los clientes, del tipo "Si un cliente A ha comprado un producto P1 y P2, y otro cliente B ha comprado un producto P1 entonces a B puede interesarle P2".


Inversión: Se ha utilizado con éxito en el establecimiento de modelos de muchas variables para predecir el comportamiento de diferentes carteras de valores.


Detección de fraude: Se utiliza principalmente por instituciones bancarias para detectar transacciones que puedan ser sospechosas para combatir el blanqueo de dinero.


Ciencia: En numerosísimos campos, pero destacaremos uno a modo de ejemplo que es la investigación de nuevos objetos celestes o estrellas a su agrupamiento en categorías.

Técnicas de minería de datos

Muchas técnicas que se utilizan para realizar el KDD. Entre ellas destacamos:

Clasificación: Hay una serie de clases de objetos con determinados atributos que se conocen a priori y el sistema se encarga de agrupar las instancias identificándolas a tal efecto. Por ejemplo, una entidad financiera, puede agrupar sus clientes en función de si son buenos o malos pagadores, de acuerdo con una serie de parámetros. En este caso, una nueva instancia o cliente, se puede agrupar a priori para determinar el riesgo.


Regresión: Se buscan una serie de parámetros de una serie de modelos para ver cual es el que mejor precide el comportamiento. Por ejemplo una compañía eléctrica puede establecer cual es la correlación entre el consumo de electricidad en distintos periodos en función de la temperatura y así poder predecir el consumo máximo en función de la temperatura.


Agrupamiento (Clustering): Se trata de agrupar los datos en categorías que a priori no son conocidas. Esto técnica (entre otras) se utiliza en el Marketing de base de datos para establecer los grupos y así poder servicios especializados.


Resumen: Se trata de sintetizar la información en informes resumidos que pueden ser útilies a la hora de tomar decisiones.
Modelado de dependencia: Se realiza un análisis multivariable para la detección de correlaciones entre variables. Esto se aplica por ejemplo a la hora de establecer parámetros que puedan predecir el comportamiento a la hora establecer el riesgo de un cliente a la hora de darle un crédito.


Detección de cambio y desviaciones: Para analizar desviaciones en comportamientos, previstos. Ejemplos de utilidad de esta técnica, es el control de la calidad, que detecte cuando ciertos parámetros de calidad se desvían de su norma.

Anticipa Solutions S.L.

 

Aviso Legal | Privacidad

© 2006 Anticipa Solutions SL. Todos los derechos reservados.