miércoles, 3 de febrero de 2010

Minería de Datos

En estos días voy a estar publicando una serie de artículos relacionados con la minería de datos a petición de una fiel lectora de este blog. Esta serie de artículos van a iniciar con un poco de teoría relacionada con este tema, donde daremos una explicación detallada de que es, que técnicas se utilizan, que otras tecnologías se encuentran desarrolladas sobre esta plataforma tecnológica. Los temas que vamos a abarcar son los siguientes:

I - Que es la Minería de Datos?
II - Técnica OLAP/MOLAP.
III - Web Mining.
IV - Business Intelligence.
V - Date Warehouse.
VI - Herramientas Data Mining.
VII -Weka, SPSS, SAS.

Para iniciar los voy a dejar con el primer artículo de esta serie:

Que es la minería de datos?

Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Otra definición de Data Mining es la integración de un conjunto de áreas que tienen como propósitos la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión. El Data Mining esta soportado por tres (3) tecnologías bastante maduras en estos tiempo, como son:
  1. Recolección masiva de datos.
  2. Potentes computadoras con multiprocesadoras.
  3. Algoritmos de minerías de datos.

La minería de datos produce cinco tipos de información:
  1. Asociaciones
  2. Secuencias
  3. Clasificaciones
  4. Agrupamientos
  5. Pronósticos.
La minería de datos se apoya en un grupo de técnicas proveniente de la inteligencia artificial y de la estadísticas, que son algoritmos sofisticados que permiten predecir informaciones a partir de un grupo masivos de datos. Entre estas técnicas tenemos:

Redes Neuronales: este paradigma permite aprender a partir de un conjunto de datos almacenados y de informaciones subjetivas que son provistas a un sistema computacional para producir una salida. Se pueden destacar el percetrón, el percetrón multicapa y las redes de kohonen.
Regresiones Lineales: esta técnica estadística es la mas sencilla de implementar y las mas utilizada para realizar relaciones entre datos.
Arboles de decisiones: son diagramas de construcciones lógicas basados en reglas que sirven para categorizar un serie de decisiones consecutivas.

Las técnicas de minerías de datos son muy utilizados para calcular la tendencia de compras de clientes, muy utilizada en supermercados y empresas de manufacturas. También para poder generar ofertas de productos y servicios y sirven como base para evaluar futuros costos y beneficios.

Existen un sin numero de herramientas de Data Mining, que vamos a tratar en temas posteriores, como son:

SPSS Clementine
SAS Enterprice Miner
Weka

No hay comentarios: