Descubriendo información gracias a la minería de datos en el Big Data (Data Mining)


Debido a que cada vez es posible almacenar más información, es necesario tratar dicha información para llegar a conclusiones sobre la misma.

El objetivo de un proceso de minería de datos se basa en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

Los avances tecnológicos que han permitido que esta información se almacena en grandes cantidades y que pueda ser tratada han sido:
– El menor precio de de los sistemas de almacenamiento
– Incremento de la velocidad de cómputo
– Desarrollo de sistemas de gestión y tratamiento de bases de datos

Gracias a los procesos de Data Mining podemos pasar de unos datos en bruto, realizando sobre ellos un estudio y transformación, obtenemos un volumen de datos menor y con conocimiento  que utilizaremos para la toma de decisiones.

Debido al gran volumen de información no podemos utilizar las técnicas hasta ahora utilizadas, sino que es necesario emplear tecnologías computacionales para automatizar (o semi-automatizar) el proceso de estudio y análisis de los datos a través de inteligencia artificial, aprendizaje automático o inteligencia empresarial.

Análisis Inteligente de Datos

El análisis inteligente de datos es el área que se encarga de la obtención de conocimiento a partir de los datos.

Áreas de aplicación de Análisis Inteligente de datos:

  • Business y finanza: análisis y predicción del mercado.
  • Bio-informática: análisis de bases de datos muy grandes para identificación de propiedades de genes, moléculas, medicamentos…
  • Medicina y salud: gestión de epidemias y enfermedades.
  • Servicios Web: análisis de redes sociales, contenidos online, publicidad online;

 

Proceso de Extracción de conocimiento (KDD)

La Extracción de conocimiento está principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD).

Como podemos ver en esta figura, las etapas del proceso KDD se dividen en 5 fases y son:

  1. Selección de datos. Determinar las fuentes de datos y el tipo de información a utilizar.
  2. Preprocesamiento. Preparación y limpieza de los datos extraídos.
  3. Transformación. Tratamiento preliminar de los datos.
  4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
  5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.

Entre las herramientas utilizadas en Data Mining nos encontramos:

Apache Mahout
http://mahout.apache.org
– Librería Mllib (Machine Learning library) de la plataforma Spark.
https://spark.apache.org/mllib/
https://spark.apache.org/docs/latest/mllib-guide.html

Ejemplo de utilización Apache Mahout:

Generación de recomendaciones de películas mediante Apache Mahout con Hadoop en HDInsight

Creating a User-Based Recommender in 5 minutes

 


Consulta con Abogados especialistas
De forma rápida y segura
Rellene el formulario, le enviaremos la respuesta y solucionará su problema


Miguel Angel Ruz

Emprendedor negocios de Internet y desarrollador Profesor Master EAE Business School Big Data

También te podría gustar...

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *