Procesamiento de datos

La extracción de datos o minería de datos [1] es el conjunto de técnicas y metodologías que tienen por objeto la extracción de información útil a partir de grandes cantidades de datos (ej . bases de datos , data warehouses , etc.), a través de métodos automáticos o semiautomáticos (ej. aprendizaje automático ) y su uso científico, corporativo, industrial u operativo.

Descripción

Para caracterizar la minería de datos , puede ser útil considerar las estadísticas , que de otro modo se pueden definir como la extracción de información útil de conjuntos de datos .

El concepto de minería de datos es similar, pero con una diferencia sustancial: las estadísticas permiten procesar información general sobre una población (por ejemplo , tasas de desempleo , nacimientos ), mientras que la minería de datos se utiliza para buscar correlaciones entre varias variables relacionadas con individuos; por ejemplo, conociendo el comportamiento del cliente medio de una compañía telefónica, se intenta predecir cuánto gastará el cliente medio en un futuro próximo.

Básicamente, la minería de datos es el análisis, desde un punto de vista matemático, realizado sobre grandes bases de datos , normalmente precedido por otras fases de preparación, transformación o filtrado de datos, como la limpieza de datos . El término minería de datos se hizo popular a fines de la década de 1990 como una versión abreviada de la definición anterior; hoy en día la minería de datos tiene un doble valor:

extracción, con técnicas analíticas de última generación, de información implícita y oculta a partir de datos ya estructurados, para hacerla disponible y directamente utilizable;
exploración y análisis, realizados de forma automática o semiautomática, de grandes cantidades de datos para descubrir patrones significativos (patrones o regularidades).

En ambos casos, los conceptos de información y significado están íntimamente ligados al dominio de aplicación en el que se realiza la minería de datos; en otras palabras, un dato puede ser interesante o despreciable según el tipo de aplicación en la que opere.

Este tipo de actividad es crucial en muchas áreas de la investigación científica , pero también en otros sectores (por ejemplo, en el de la investigación de mercados ). En el mundo profesional se utiliza para solucionar diferentes problemas, que van desde la gestión de la relación con el cliente (CRM), pasando por la detección de comportamientos fraudulentos, hasta la optimización de sitios web . [2]

Locales

Los principales factores que contribuyeron al desarrollo de la minería de datos son:

grandes acumulaciones de datos en formato electrónico;
almacenamiento de datos económico ;
los nuevos métodos y técnicas de análisis ( aprendizaje automático ).

Las técnicas de minería de datos se basan en algoritmos específicos . Los patrones identificados pueden ser, a su vez, el punto de partida para hipotetizar y por lo tanto verificar nuevas relaciones causales entre fenómenos; en general, pueden usarse en un sentido estadístico para hacer predicciones sobre nuevos conjuntos de datos.

Un concepto relacionado con la minería de datos es el de aprendizaje automático ; de hecho, la identificación de patrones se puede comparar con el aprendizaje, por parte del sistema de minería de datos, de una relación causal previamente desconocida, que encuentra aplicación en campos como el de los algoritmos heurísticos y la inteligencia artificial . Sin embargo, cabe señalar que el proceso de minería de datos siempre está sujeto al riesgo de revelar relaciones causales que luego resultan ser inexistentes.

Técnicas

Entre las técnicas más utilizadas en este ámbito se encuentran:

agrupamiento ;
redes neuronales ;
árboles de decisión ;
Análisis de asociaciones (identificación de productos comprados en conjunto).

Otra técnica popular para la minería de datos es el aprendizaje por clasificación. Este patrón de aprendizaje parte de un conjunto bien definido de ejemplos de clasificación para casos conocidos, a partir de los cuales se espera deducir una forma de clasificar ejemplos desconocidos. Este enfoque también se denomina "supervisado" , en el sentido de que el esquema de aprendizaje opera bajo la supervisión proporcionada implícitamente por los ejemplos de clasificación para casos conocidos; estos ejemplos, por este motivo, también se denominan ejemplos de entrenamiento , o "ejemplos para entrenar". El conocimiento adquirido mediante el aprendizaje a través de la clasificación se puede representar con un árbol de decisión.

Por lo tanto, la extracción de datos en sí llega al final de un proceso que involucra numerosas fases: se identifican las fuentes de datos; se crea un único conjunto de datos agregados; se realiza un preprocesamiento (limpieza de datos, análisis exploratorios, selección, etc.); los datos se extraen con el algoritmo elegido; los patrones son interpretados y evaluados; el último paso va de los patrones al nuevo conocimiento así adquirido.

Existen varias propuestas y técnicas, cada una con características y ventajas específicas.

Árboles de decisión : clasificación, suma (por ejemplo, por los algoritmos C4.5, CART, ID3 , Entropy , CHAID).
Análisis lógico y programación completa: clasificación, aprendizaje de reglas (ej. LAD).
Teoría de grafos : agrupamiento, clasificación (por ejemplo, B&C).
Redes neuronales (ANN): clasificación (p. ej., redes R&F de función de base radial, Perceptron, monocapa, multicapa, retropropagación, como SNNS y Nevprop).
Métodos bayesianos: regresión, clasificación, aprendizaje bayesiano, red de creencias bayesianas, clasificadores bayesianos, máxima verosimilitud.
Support Vector Machines (SVM): clasificación, reconocimiento de patrones (por ejemplo, RSVM).
Asociación / descubrimiento de patrones: reglas de asociación y dependencias, socios secuenciales (por ejemplo, CN2).

Preprocesamiento

Antes de que pueda usar algoritmos de minería de datos , debe ensamblar un conjunto de datos de destino. Dado que la minería de datos solo puede descubrir modelos que realmente están presentes en los datos, el conjunto de datos de destino debe ser lo suficientemente grande como para contener estos modelos, y al mismo tiempo debe ser lo suficientemente conciso para ser extraído dentro de un límite de tiempo aceptable. [3] Una fuente común de datos es un data mart o almacén de datos. El preprocesamiento es esencial para analizar conjuntos de datos multivariados antes de la extracción de datos. A continuación, se limpia el juego de lentes. La limpieza de datos elimina las observaciones que contienen ruido y las observaciones con datos faltantes.

Ejemplos

¿Qué "es" la minería de datos ?

hacer una búsqueda en la red sobre una palabra clave y clasificar los documentos encontrados según un criterio semántico (por ejemplo "mensajero": nombre del periódico, profesión, etc.);
averiguar qué clientes tienen más probabilidades de comprar determinados productos o campañas publicitarias.

¿Qué "no es" la minería de datos ?

busque un número de teléfono en la lista;
haga una búsqueda en Internet de "vacaciones en Maldivas".

Minería de texto

Es una forma particular de minería de datos en la que los datos consisten en textos en lenguaje natural: en otras palabras, documentos "no estructurados". La minería de texto combina tecnología de lenguaje con algoritmos de minería de datos. El objetivo es siempre el mismo: la extracción de información implícita contenida en un conjunto de documentos.

Ha tenido un desarrollo notable, gracias a los avances en las técnicas de procesamiento del lenguaje natural (PNL en inglés), la disponibilidad de aplicaciones complejas a través de proveedores de servicios de aplicaciones (ASP) y el interés en las técnicas de gestión automática del lenguaje mostrado tanto por académicos como por productores de software. y por los administradores de motores de búsqueda .

Software utilizado

SPSS : SPSS Clementina
SAS : SAS Enterprise Miner y SAS Text Miner
ESTABA
r
Minero de datos de Oracle
Microsoft SQL Server : herramientas de minería de datos DBMS fabricadas por Microsoft
Weka , minería de datos en Java
RapidMiner

Desarrollos recientes

Una de las evoluciones más recientes de la minería de datos es la visualización de datos . Sector especialista de la infografía , la visualización de datos se preocupa no solo de hacer un texto gráficamente inteligible, sino que entra en una relación más directa con la estructuración de bases de datos y la exportación de gráficos a partir de datos.

Otra nueva frontera es la minería de datos sociales , o el análisis de la información generada por las redes sociales en línea , como el análisis de sentimientos .

Aplicaciones

Estudios de mercado

El uso de la minería de datos en la investigación de mercados tiene como objetivo ampliar el conocimiento en el que basar los procesos de toma de decisiones . En el contexto empresarial, la minería de datos se considera parte del proceso que conduce a la creación de un almacén de datos . Es especialmente efectivo para la mejora de la información corporativa que reside en estos grandes repositorios de datos. Para que la información extraída de los datos existentes sea significativa y, por lo tanto, potencialmente útil, debe ser:

válido (es decir, también puede actuar sobre nuevos datos);
previamente desconocido;
comprensible.

En este contexto, un patrón no es más que la representación de las relaciones clave que se descubren durante el proceso de extracción de datos: secuencias repetidas, homogeneidad, aparición de reglas, etc. Por ejemplo, si un patrón muestra que es muy probable que los clientes de un determinado grupo demográfico compren un producto específico, se puede utilizar una consulta selectiva a un almacén de datos de posibles compradores para generar una lista de direcciones promocionales.

El ejemplo clásico que se utiliza a menudo en los cursos universitarios es el de una cadena no especificada de supermercados (probablemente estadounidense) que habría descubierto, analizando los recibos, algo difícil de imaginar de otro modo: las personas que compraban pañales a menudo compraban más cerveza que otras, por lo que poner el cerveza más cara no muy lejos de los pañales podría aumentar las ventas. De hecho, aquellas personas que tenían hijos pequeños pasaban más tardes en casa viendo la tele bebiendo cerveza, sin poder salir con los amigos. Sin embargo, debe señalarse que no está claro de qué cadena de supermercados se trata, y el ejemplo, aunque excelente para fines educativos y muy utilizado también en el periodismo, puede haber sido tan inventado como cierto.

Ley de derechos de autor

Situación en Europa

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras protegidas por derechos de autor (por ejemplo, a través de minería web) sin el permiso del propietario de los derechos de autor no es legal. Cuando una base de datos consta de datos puros en Europa, es posible que no existan derechos de autor, pero pueden existir derechos de base de datos, por lo que la extracción de datos queda sujeta a los derechos de los propietarios de propiedad intelectual protegidos por la Directiva de bases de datos. Siguiendo la recomendación de la revisión de Hargreaves , esto llevó al gobierno del Reino Unido a modificar su ley de derechos de autor en 2014 para permitir la extracción de contenido como una limitación y excepción. [4] El Reino Unido fue el segundo país del mundo en hacerlo después de Japón , que introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la extracción de contenido con fines no comerciales. La ley de derechos de autor del Reino Unido tampoco permite que esta disposición sea anulada por los términos y condiciones contractuales.

La Comisión Europea facilitó el debate de las partes interesadas sobre la extracción de texto y datos en 2013 bajo el título de Licencias para Europa [5] . El enfoque en resolver este problema legal, como la concesión de licencias en lugar de las limitaciones y excepciones, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. [6]

Notas

^ ID de entrada 917359 , en iate.europa.eu . Consultado el 15 de julio de 2022 .
^ Daniele Medri: Big Data & Business: An on-going revolution , en statisticsviews.com , Statistics Views , 21 de octubre de 2013. Consultado el 21 de junio de 2015 (archivado desde el original el 17 de junio de 2015) .
^ Ciencia de datos desde cero. Primeros principios con Python , O'Reilly, 2019, ISBN 9781492041139 .
^ Investigadores del Reino Unido recibieron derecho de minería de datos según las nuevas leyes de derechos de autor del Reino Unido. (Archivado desde el original el 9 de junio de 2014) . Out-Law.com. Consultado el 14 de noviembre de 2014.
^ Licencias para Europa - Diálogo estructurado de partes interesadas 2013 , sobre la Comisión Europea . Consultado el 14 de noviembre de 2014 .
^ Minería de texto y datos: su importancia y la necesidad de cambio en Europa , su Association of European Research Libraries . Consultado el 14 de noviembre de 2014 (archivado desde el original el 29 de noviembre de 2014) .

Bibliografía

P. Cabeña; P. Hadjinian; R. Stadler; J. Verhees; A. Zanasi. Descubriendo la minería de datos desde el concepto hasta la implementación , Prentice Hall PTR 1997
Dulli Susi; Sara Furini; Perón Edmondo. Minería de datos . , Springer Verlag , 2009

Otros proyectos

Wikimedia Commons contiene imágenes u otros archivos sobre minería de datos

Enlaces externos

minería de datos , en Sapienza.it , De Agostini .

( EN ) Minería de datos , en Encyclopedia Britannica , Encyclopædia Britannica, Inc.

( EN ) Trabajos relacionados con la minería de datos , en Open Library , Internet Archive .

archivo de la UCI . : Repositorio de datos de dominio público para experimentos de minería de datos
Grupo de minería de datos . : Consorcio de productores de software para el desarrollo de estándares para minería de datos
Sitio web de Data Base & Data Mining Group , en dbdmg.polito.it .
(IT) Artículo informativo sobre Data Mining and Clustering , en mathematici.it .
(IT) Diccionario de un minuto . Archivado desde el original el 17 de noviembre de 2011. Consultado el 2 de octubre de 2019 . : Minería de datos en un video de un minuto