Procesamiento de datos

La extracción de datos o minería de datos [1] es el conjunto de técnicas y metodologías que tienen por objeto la extracción de información útil a partir de grandes cantidades de datos (ej . bases de datos , data warehouses , etc.), a través de métodos automáticos o semiautomáticos (ej. aprendizaje automático ) y su uso científico, corporativo, industrial u operativo.

Descripción

Para caracterizar la minería de datos , puede ser útil considerar las estadísticas , que de otro modo se pueden definir como la extracción de información útil de conjuntos de datos .

El concepto de minería de datos es similar, pero con una diferencia sustancial: las estadísticas permiten procesar información general sobre una población (por ejemplo , tasas de desempleo , nacimientos ), mientras que la minería de datos se utiliza para buscar correlaciones entre varias variables relacionadas con individuos; por ejemplo, conociendo el comportamiento del cliente medio de una compañía telefónica, se intenta predecir cuánto gastará el cliente medio en un futuro próximo.

Básicamente, la minería de datos es el análisis, desde un punto de vista matemático, realizado sobre grandes bases de datos , normalmente precedido por otras fases de preparación, transformación o filtrado de datos, como la limpieza de datos . El término minería de datos se hizo popular a fines de la década de 1990 como una versión abreviada de la definición anterior; hoy en día la minería de datos tiene un doble valor:

En ambos casos, los conceptos de información y significado están íntimamente ligados al dominio de aplicación en el que se realiza la minería de datos; en otras palabras, un dato puede ser interesante o despreciable según el tipo de aplicación en la que opere.

Este tipo de actividad es crucial en muchas áreas de la investigación científica , pero también en otros sectores (por ejemplo, en el de la investigación de mercados ). En el mundo profesional se utiliza para solucionar diferentes problemas, que van desde la gestión de la relación con el cliente (CRM), pasando por la detección de comportamientos fraudulentos, hasta la optimización de sitios web . [2]

Locales

Los principales factores que contribuyeron al desarrollo de la minería de datos son:

Las técnicas de minería de datos se basan en algoritmos específicos . Los patrones identificados pueden ser, a su vez, el punto de partida para hipotetizar y por lo tanto verificar nuevas relaciones causales entre fenómenos; en general, pueden usarse en un sentido estadístico para hacer predicciones sobre nuevos conjuntos de datos.

Un concepto relacionado con la minería de datos es el de aprendizaje automático ; de hecho, la identificación de patrones se puede comparar con el aprendizaje, por parte del sistema de minería de datos, de una relación causal previamente desconocida, que encuentra aplicación en campos como el de los algoritmos heurísticos y la inteligencia artificial . Sin embargo, cabe señalar que el proceso de minería de datos siempre está sujeto al riesgo de revelar relaciones causales que luego resultan ser inexistentes.

Técnicas

Entre las técnicas más utilizadas en este ámbito se encuentran:

Otra técnica popular para la minería de datos es el aprendizaje por clasificación. Este patrón de aprendizaje parte de un conjunto bien definido de ejemplos de clasificación para casos conocidos, a partir de los cuales se espera deducir una forma de clasificar ejemplos desconocidos. Este enfoque también se denomina "supervisado" , en el sentido de que el esquema de aprendizaje opera bajo la supervisión proporcionada implícitamente por los ejemplos de clasificación para casos conocidos; estos ejemplos, por este motivo, también se denominan ejemplos de entrenamiento , o "ejemplos para entrenar". El conocimiento adquirido mediante el aprendizaje a través de la clasificación se puede representar con un árbol de decisión.

Por lo tanto, la extracción de datos en sí llega al final de un proceso que involucra numerosas fases: se identifican las fuentes de datos; se crea un único conjunto de datos agregados; se realiza un preprocesamiento (limpieza de datos, análisis exploratorios, selección, etc.); los datos se extraen con el algoritmo elegido; los patrones son interpretados y evaluados; el último paso va de los patrones al nuevo conocimiento así adquirido.

Existen varias propuestas y técnicas, cada una con características y ventajas específicas.

Preprocesamiento

Antes de que pueda usar algoritmos de minería de datos , debe ensamblar un conjunto de datos de destino. Dado que la minería de datos solo puede descubrir modelos que realmente están presentes en los datos, el conjunto de datos de destino debe ser lo suficientemente grande como para contener estos modelos, y al mismo tiempo debe ser lo suficientemente conciso para ser extraído dentro de un límite de tiempo aceptable. [3] Una fuente común de datos es un data mart o almacén de datos. El preprocesamiento es esencial para analizar conjuntos de datos multivariados antes de la extracción de datos. A continuación, se limpia el juego de lentes. La limpieza de datos elimina las observaciones que contienen ruido y las observaciones con datos faltantes.

Ejemplos

¿Qué "es" la minería de datos ?

¿Qué "no es" la minería de datos ?

Minería de texto

Es una forma particular de minería de datos en la que los datos consisten en textos en lenguaje natural: en otras palabras, documentos "no estructurados". La minería de texto combina tecnología de lenguaje con algoritmos de minería de datos. El objetivo es siempre el mismo: la extracción de información implícita contenida en un conjunto de documentos.

Ha tenido un desarrollo notable, gracias a los avances en las técnicas de procesamiento del lenguaje natural (PNL en inglés), la disponibilidad de aplicaciones complejas a través de proveedores de servicios de aplicaciones (ASP) y el interés en las técnicas de gestión automática del lenguaje mostrado tanto por académicos como por productores de software. y por los administradores de motores de búsqueda .

Software utilizado

Desarrollos recientes

Una de las evoluciones más recientes de la minería de datos es la visualización de datos . Sector especialista de la infografía , la visualización de datos se preocupa no solo de hacer un texto gráficamente inteligible, sino que entra en una relación más directa con la estructuración de bases de datos y la exportación de gráficos a partir de datos.

Otra nueva frontera es la minería de datos sociales , o el análisis de la información generada por las redes sociales en línea , como el análisis de sentimientos .

Aplicaciones

Estudios de mercado

El uso de la minería de datos en la investigación de mercados tiene como objetivo ampliar el conocimiento en el que basar los procesos de toma de decisiones . En el contexto empresarial, la minería de datos se considera parte del proceso que conduce a la creación de un almacén de datos . Es especialmente efectivo para la mejora de la información corporativa que reside en estos grandes repositorios de datos. Para que la información extraída de los datos existentes sea significativa y, por lo tanto, potencialmente útil, debe ser:

En este contexto, un patrón no es más que la representación de las relaciones clave que se descubren durante el proceso de extracción de datos: secuencias repetidas, homogeneidad, aparición de reglas, etc. Por ejemplo, si un patrón muestra que es muy probable que los clientes de un determinado grupo demográfico compren un producto específico, se puede utilizar una consulta selectiva a un almacén de datos de posibles compradores para generar una lista de direcciones promocionales.

El ejemplo clásico que se utiliza a menudo en los cursos universitarios es el de una cadena no especificada de supermercados (probablemente estadounidense) que habría descubierto, analizando los recibos, algo difícil de imaginar de otro modo: las personas que compraban pañales a menudo compraban más cerveza que otras, por lo que poner el cerveza más cara no muy lejos de los pañales podría aumentar las ventas. De hecho, aquellas personas que tenían hijos pequeños pasaban más tardes en casa viendo la tele bebiendo cerveza, sin poder salir con los amigos. Sin embargo, debe señalarse que no está claro de qué cadena de supermercados se trata, y el ejemplo, aunque excelente para fines educativos y muy utilizado también en el periodismo, puede haber sido tan inventado como cierto.

Ley de derechos de autor

Situación en Europa

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras protegidas por derechos de autor (por ejemplo, a través de minería web) sin el permiso del propietario de los derechos de autor no es legal. Cuando una base de datos consta de datos puros en Europa, es posible que no existan derechos de autor, pero pueden existir derechos de base de datos, por lo que la extracción de datos queda sujeta a los derechos de los propietarios de propiedad intelectual protegidos por la Directiva de bases de datos. Siguiendo la recomendación de la revisión de Hargreaves , esto llevó al gobierno del Reino Unido a modificar su ley de derechos de autor en 2014 para permitir la extracción de contenido como una limitación y excepción. [4] El Reino Unido fue el segundo país del mundo en hacerlo después de Japón , que introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la extracción de contenido con fines no comerciales. La ley de derechos de autor del Reino Unido tampoco permite que esta disposición sea anulada por los términos y condiciones contractuales.

La Comisión Europea facilitó el debate de las partes interesadas sobre la extracción de texto y datos en 2013 bajo el título de Licencias para Europa [5] . El enfoque en resolver este problema legal, como la concesión de licencias en lugar de las limitaciones y excepciones, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. [6]

Notas

  1. ^ ID de entrada 917359 , en iate.europa.eu . Consultado el 15 de julio de 2022 .
  2. ^ Daniele Medri: Big Data & Business: An on-going revolution , en statisticsviews.com , Statistics Views , 21 de octubre de 2013. Consultado el 21 de junio de 2015 (archivado desde el original el 17 de junio de 2015) .
  3. ^ Ciencia de datos desde cero. Primeros principios con Python , O'Reilly, 2019, ISBN 9781492041139 .  
  4. ^ Investigadores del Reino Unido recibieron derecho de minería de datos según las nuevas leyes de derechos de autor del Reino Unido. (Archivado desde el original el 9 de junio de 2014) . Out-Law.com. Consultado el 14 de noviembre de 2014.
  5. ^ Licencias para Europa - Diálogo estructurado de partes interesadas 2013 , sobre la Comisión Europea . Consultado el 14 de noviembre de 2014 .
  6. ^ Minería de texto y datos: su importancia y la necesidad de cambio en Europa , su Association of European Research Libraries . Consultado el 14 de noviembre de 2014 (archivado desde el original el 29 de noviembre de 2014) .

Bibliografía

Artículos relacionados

Otros proyectos

Enlaces externos