|
La Minería de Datos
El descubrimiento de conocimiento en bases de datos
o KDD (del inglés Knowledge Database Discovery), es una de
las corrientes de investigación que ha tenido un mayor impulso
en los últimos años. Es la respuesta natural a la
situación creada por la cantidad tan enorme de datos generada.
Estos datos son una fuente inestimable de información que
puede ser aprovechada por las empresas y organizaciones. En muchas
situaciones, dado su volumen, hacen impracticable su análisis
por humanos, por cuestiones de tiempo y coste. Como habíamos
visto en nuestro boletín anterior, las herramientas OLAP
permiten realizar las fases previas a la minería de datos,
como son la selección de datos y atributos a analizar, limpieza
(eliminación de ruido) y la simplificación de datos
(cálculo de agregados de mayor nivel).
Es a partir de este punto donde el KDD entra en juego.
Permite descubrir lo que aquí llamaremos conocimiento, a
partir de estos datos de más alto nivel que los puramente
transaccionales. Las aplicaciones en principio son muchas. Se están
utilizando con éxito en muchas áreas, de las que remarcamos
las siguientes:
Marketing: Se está utilizando cada
vez más el Marketing de bases de datos. En este caso, se
realiza un análisis pare agrupar los clientes, del tipo "Si
un cliente A ha comprado un producto P1 y P2, y otro cliente B ha
comprado un producto P1 entonces a B puede interesarle P2".
Inversión: Se ha utilizado con éxito en el
establecimiento de modelos de muchas variables para predecir el
comportamiento de diferentes carteras de valores.
Detección de fraude: Se utiliza principalmente por
instituciones bancarias para detectar transacciones que puedan ser
sospechosas para combatir el blanqueo de dinero.
Ciencia: En numerosísimos campos, pero destacaremos
uno a modo de ejemplo que es la investigación de nuevos objetos
celestes o estrellas a su agrupamiento en categorías.
Técnicas de minería de datos
Muchas técnicas que se
utilizan para realizar el KDD. Entre ellas destacamos:
Clasificación: Hay una serie
de clases de objetos con determinados atributos que se conocen a
priori y el sistema se encarga de agrupar las instancias identificándolas
a tal efecto. Por ejemplo, una entidad financiera, puede agrupar
sus clientes en función de si son buenos o malos pagadores,
de acuerdo con una serie de parámetros. En este caso, una
nueva instancia o cliente, se puede agrupar a priori para determinar
el riesgo.
Regresión: Se buscan una serie de parámetros
de una serie de modelos para ver cual es el que mejor precide el
comportamiento. Por ejemplo una compañía eléctrica
puede establecer cual es la correlación entre el consumo
de electricidad en distintos periodos en función de la temperatura
y así poder predecir el consumo máximo en función
de la temperatura.
Agrupamiento (Clustering): Se trata de agrupar los datos
en categorías que a priori no son conocidas. Esto técnica
(entre otras) se utiliza en el Marketing de base de datos para establecer
los grupos y así poder servicios especializados.
Resumen: Se trata de sintetizar la información en
informes resumidos que pueden ser útilies a la hora de tomar
decisiones.
Modelado de dependencia: Se realiza un análisis multivariable
para la detección de correlaciones entre variables. Esto
se aplica por ejemplo a la hora de establecer parámetros
que puedan predecir el comportamiento a la hora establecer el riesgo
de un cliente a la hora de darle un crédito.
Detección de cambio y desviaciones: Para analizar
desviaciones en comportamientos, previstos. Ejemplos de utilidad
de esta técnica, es el control de la calidad, que detecte
cuando ciertos parámetros de calidad se desvían de
su norma.
Anticipa Solutions S.L.
|