Archivo de la etiqueta: Minería de datos

Minería y análisis de datos: Conceptos y algoritmos fundamentales

bookpic

Mohammed J. Zaki, Wagner Meira, Jr., Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, May 2014. ISBN: 9780521766333.

Texto completo

Alternativa

Este libro es un resultado de los cursos de minería de datos en RPI y UFMG. Aunque hay varios buenos libros sobre minería de datos y temas relacionados, sentimos que muchos de ellos son demasiado avanzados. El al publicar este libro era escribir un texto introductorio que se centre en los algoritmos fundamentales de los datos minería y análisis. Establece las bases matemáticas para la minería de datos básicos con conceptos clave explicados cuando se encuentran por primera vez; el libro también trata de construir la intuición detrás de las fórmulas para ayudar a la comprensión.

 

 

 

La excepción para la minería de textos y datos (TDM) en la propuesta de Directiva sobre los derechos de autor en el mercado único digital – Aspectos jurídicos

 

2018-03-06_21-08-09

“The Exception for Text and Data Mining (TDM) in the Proposed Directive on Copyright in the Digital Single Market – Legal Aspects” European Parliament Research Service, February 2018

Texto completo

Este análisis en profundidad, encargado por el Departamento de Política de Derechos de los Ciudadanos y Asuntos Constitucionales del Parlamento Europeo a petición de la Comisión de Asuntos Jurídicos (Comisión JURI), es una contribución al taller sobre “Extracción de textos y datos” celebrado el 22 de febrero de 2018 en Bruselas. En él se analiza la propuesta de la Comisión (que introduce en el artículo 3 una excepción obligatoria a los derechos de autor que permite la extracción de textos y datos de obras protegidas), se evalúan sus efectos positivos y negativos y se formulan algunas sugerencias de posibles mejoras. También se revisan las ventajas de introducir una “cláusula abierta” además de una lista enumerada de excepciones para abordar algunos de los problemas relacionados.

 

¿Qué es la minería de textos, cómo funciona y por qué es útil?

text-mining-101-v2-300x211

TEXT MINING 101
WRITTEN BY OPENMINTED COMMUNICATIONS ON FEBRUARY 21, 2018

Original

 

Este artículo le ayudará a entender lo básico en sólo unos minutos.

 

¿QUÉ ES LA MINERÍA DE TEXTOS?

La minería de textos busca extraer información útil e importante de formatos de documentos heterogéneos, tales como páginas web, correos electrónicos, medios sociales, artículos de revistas, etc. Esto se hace mediante la identificación de patrones dentro de los textos, tales como tendencias en el uso de palabras, estructura sintáctica, etc.

La gente a menudo habla de “minería de texto y datos (TDM)” al mismo tiempo, pero estrictamente hablando la minería de texto es una forma específica de minería de datos que se relaciona con el texto.

¿POR QUÉ LO NECESITAMOS?

La minería de textos tiene muchas aplicaciones. Por ejemplo, la minería de textos puede ayudar a encontrar tecnologías nuevas e innovadoras dentro de ciertos dominios. Es un método muy eficiente para generar nueva información y conocimiento. Esta práctica permite a las empresas reducir el tiempo dedicado a la lectura de textos extensos y extractos literarios. Esto significa que los recursos clave se pueden encontrar con mayor rapidez y eficacia. También permite a los usuarios obtener nueva información que de otro modo sería difícil de encontrar.

¿QUÉ CLASE DE GENTE HACE MINERÍA DE TEXTOS?

La tecnología de la minería de textos es actualmente ampliamente aplicada por una extensa variedad de usuarios, desde organizaciones gubernamentales, instituciones de investigación y empresas para sus necesidades diarias. Estos son algunos ejemplos de uso en diferentes campos:

Investigación: por ejemplo, el descubrimiento de conocimientos, la atención médica y sanitaria: en el pasado, a un investigador humano le lleva mucho tiempo analizar y obtener información relevante. En algunos casos, esta información ni siquiera era accesible. La minería de textos permite a los investigadores encontrar más información y de forma más rápida y eficiente.

Negocios: por ejemplo, las grandes empresas utilizan la minería de textos para ayudar en la toma de decisiones y responder rápidamente a las consultas de los clientes en procesos tales como la gestión de riesgos o el filtrado de currículos

Seguridad: En anti-terrorismo, el análisis de los blogs y otras fuentes de texto en línea se utiliza para prevenir delitos en Internet y luchar contra el fraude.

Diariamente, La minería de texto es usada por los sitios web de correo electrónico para crear métodos de filtrado más confiables y efectivos, para el filtrado de spam, análisis de datos de medios sociales, etc. También para identificar las relaciones entre los usuarios y ciertos productos o para determinar las opiniones de los usuarios sobre temas particulares

¿ES ÚTIL LA MINERÍA DE TEXTOS PARA LA CIENCIA?

Los usos de la minería de textos son virtualmente interminables, pero vamos a centrarnos más en que manera es útil para la ciencia y la investigación. Los científicos se comunican a través de publicaciones científicas y se estima que existen más de 50 millones de revistas (JINHA, A. E. (2010), po lo cual cada vez es más difícil para los investigadores hacer un seguimiento de lo que se publica en su propio campo. Además, hay una enorme afluencia de otros tipos de datos en todas las ciencias, como páginas web, informes de organizaciones públicas (por ejemplo, transcripciones judiciales, actas de reuniones), libros, etc. La minería de textos puede ayudar a resolver este problema y a encontrar nueva información.

ESPERA UN MINUTO, ¿ASÍ ES COMO OBTENGO ESOS ANUNCIOS PERSONALIZADOS?

Como se ha dicho antes, las tecnologías de minería de texto tienen muchas aplicaciones. Entre ellas, se puede utilizar para establecer vínculos entre clientes potenciales y productos con fines de marketing o de otro tipo.

¿CUÁL ES LA DIFERENCIA ENTRE MINERÍA DE TEXTO Y GOOGLE?

Los motores de búsqueda como Google, recuperan todos los documentos que contienen las palabras clave que has especificado. No hay valor añadido a los datos. La minería de textos lleva las cosas un paso más allá al extraer información precisa basada en mucho más que palabras clave. En su lugar, busca entidades o conceptos, relaciones, frases y/o oraciones. Intenta determinar el significado real basado en algoritmos de Procesamiento del Lenguaje Natural (NLP), que le permiten reconocer conceptos similares. Una búsqueda utilizando la minería de texto puede identificar hechos, relaciones e inferencias que no son del todo obvios.

¿CÓMO FUNCIONA, ESTA MINERÍA DE TEXTO Y DATOS?
La extracción de textos puede dividirse en cinco pasos:

 

 

1. Recolección: Recopilación de datos de diferentes recursos, tales como sitio web, correos electrónicos, comentarios de clientes, archivo de documentos. Dependiendo de la aplicación, este proceso puede ser completamente automatizado o guiado por una persona encargada de realizar este proceso.

2. Preprocesamiento: La identificación del contenido y la extracción de características representativas

3. Limpieza de textos: eliminación de cualquier información innecesaria o no deseada, como los anuncios de las páginas.

4. Tokenización: un ordenador sólo “ve” una cadena de caracteres, sin poder identificar, por ejemplo, párrafos, frases o palabras. La Tokenización divide el texto en entidades significativas (palabras, oraciones, etc.) dados los espacios en blanco presentes y las puntuaciones.

5. Extracción de características (también llamada selección de atributos): es el proceso de caracterización.

Un ejemplo puede ilustrar estos cinco pasos:

Imagina que estás vendiendo calendarios de animales. Si deseas saber si es una buena inversión para que  se anuncie en los sitios web de blogs, y por lo tanto, te gustaría conocerqué porcentaje de las entradas en el blog están hablando de los animales.

En primer lugar, es necesario reunir todos los textos de todas las entradas de blog que puedas encontrar. Dado que puede haber cientos de miles de estos textos en Internet, probablemente no quieras descargarlos manualmente, uno por uno. Así que necesitas software para rastrear la web, descargar los artículos que encuentre y organizarlos en una base de datos apropiada.

En segundo lugar, querrás preprocesar el material recolectado para que las siguientes herramientas (discutidas en los pasos 3 a 5) puedan trabajar más eficientemente. Por ejemplo, querrás eliminar anuncios, menús de páginas web, código fuente de las páginas web HTML, etc. A continuación, es posible que desees calcular algunas características (extracción de características) para tu colección de textos. Por ejemplo, es posible que desees conocer el número de palabras de cada mensaje, de modo que pueda rechazar las que son demasiado pequeñas (por ejemplo, 10 palabras) o demasiado grandes (por ejemplo, 10 000 palabras). Tales entradas en su base de datos probablemente no son representativas y pueden ser errores generados por su software utilizado en el primer paso. Para obtener estos recuentos de palabras, primero tendrás que dividir los textos (serie de caracteres) en palabras (tokenización).

En el tercer paso, es posible que desees crear índices. Por ejemplo, para enumerar qué palabras se han encontrado en qué textos. Puedes pensar en esto como el índice de un libro. Sin un índice, es muy difícil localizar la información sobre un tema específico. Pero con un índice, es mucho más fácil y rápido encontrar lo que está buscando. Esto también es cierto para el software que busca palabras en su enorme base de datos blog.

Luego, en el cuarto paso, querrás extraer los textos para extraer alguna información que le ayudará a contestar sus preguntas. En este caso, querrás identificar palabras que se refieran a animales. Un nombre de entidad reconocedora de animales tratará de reconocer cada palabra que se refiera a un animal, como perro, gato, gatito, felino, mamífero, petirrojo americano, Turdus migratorius, etc. También es posible que desees ejecutar lo que se conoce como’ algoritmos sintácticos‘ para identificar qué palabras son sustantivos y cuáles verbos. Se necesitan muchos algoritmos para distinguir, por ejemplo, el uso de cat en “Tengo un gato hermoso” y que “ejecute cat file. txt en su línea de comandos para mostrar el texto.o rechazar “Se movió como una araña” Evidentemente, se necesita mucha inteligencia para llevar a cabo esta tarea con precisión.

A continuación, en el quinto paso, se desea realizar análisis y trazar gráficos. Por ejemplo, puedes requerir una gráfica de barra que muestre el porcentaje de artículos del blog que hablan sobre los animales para cada uno de los diez sitios web de alojamiento de blog más importantes. Con esta información, por ejemplo, puedes convencer a tus colaboradores de que es una buena idea invertir dinero en publicidad para calendarios de animales en whatablog. com.

 

Este artículo fue escrito como parte del proyecto OpenMinTeD por: Jiakang Chang (EMBL-EBI), Christian O’ Reilly (EPFL), Nancy Pontika (Open University) Gareth Owen (EMBL-EBI), Kenneth Haug (EMBL-EBI), Martine Oudenhoven (LIBER)

 

 

Extracción de Conocimiento en Grandes Bases de Datos Utilizando Estrategias Adaptativas

 

extraccion-conocimiento-grandes-bbdd-openlibra

Hasperué, W. (2012). [e-Book]  Extracción de Conocimiento en Grandes Bases de Datos Utilizando Estrategias Adaptativas. La Plata, EDULP, 2012.

 

Texto completo

 

El objetivo general de esta tesis es el desarrollo de una técnica adaptativa para la extracción de conocimiento en grandes bases de datos. Hoy en día, la tecnología posibilita el almacenamiento de enormes volúmenes de información. Por tal motivo, resulta de interés contar con técnicas que permitan, en una primera etapa, analizar tal información y obtener conocimiento que pueda ser expresado como reglas de clasificación. Sin embargo, es de esperar que la información disponible se modifique o incremente a lo largo del tiempo y por lo tanto, en una segunda etapa, sería relevante poder adaptar el conocimiento adquirido a los cambios o variaciones que ocurran en el conjunto de datos original. El aporte de la tesis está centrado en la definición de una técnica adaptativa que permite extraer conocimiento de grandes bases de datos a partir de un modelo dinámico capaz de adaptarse a los cambios de la información, obteniendo así una técnica de minería de datos que sea capaz de generar conocimiento útil, produciendo resultados que sean de provecho al usuario final. Los resultados de esta investigación pueden aplicarse en áreas tales como análisis de suelos, análisis genético, biología, robótica, economía, medicina, detección de fallas en plantas y comunicación de sistemas móviles. En estos casos es importante la obtención de un resultado óptimo, de modo de mejorar la calidad de las decisiones que se toman a partir del procesamiento. Desde el punto de vista informático estos problemas son un desafío interesante debido al volumen y distribución de los datos a analizar (incluso su complejidad) para obtener el conocimiento buscado.

Minería de datos de la web social: Facebook, Twitter, LinkedIn, Google +, GitHub, Amazon.es y otros

51vin54vc5l-_sx258_bo1204203200_

Russell, M. A. (2013). [e-Book] Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More: Amazon.es: , O’Reilly Media, 2013.

Texto completo

¿Cómo se puede aprovechar la gran cantidad de datos de la web social para descubrir quién está haciendo conexiones con quién, lo que están hablando, y dónde se encuentran? Con esta edición ampliada y revisada a fondo, aprenderás cómo recopilar, analizar y resumir los datos de todos los rincones de la web social, incluyendo Facebook, Twitter, LinkedIn, Google +, GitHub, correo electrónico, páginas web y blogs.

La minería de datos y análisis: Conceptos Fundamentales y Algoritmos

bookpic

J., M. and W. M. Zaki, Jr. [e-Book] Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, 2014

Texto completo

Los algoritmos son fundamentales en la minería y análisis de datos, son la base para el campo emergente de la ciencia de datos, que incluye métodos automatizados para analizar los patrones y modelos para todo tipo de datos, con aplicaciones para el descubrimiento científico. Este libro de texto para los cursos de grado y posgrado en minería de datos de alto nivel ofrece una amplia visión en profundidad de la minería de datos, la integración de los conceptos relacionados de aprendizaje de máquinas y las estadísticas. Las partes principales del libro incluyen análisis exploratorio de datos, patrón de la minería, el agrupamiento y clasificación. El libro expone los fundamentos básicos de estas tareas, y también cubre los temas de vanguardia como el análisis de datos de alta dimensión, gráficos complejos y redes. Con su amplia cobertura, la perspectiva algorítmica, y la riqueza de ejemplos, este libro ofrece una orientación sólida en la minería de datos para los estudiantes, investigadores y profesionales por igual.

Características principales: • abarca tanto los métodos básicos como la investigación de vanguardia • enfoque algorítmico con las implementaciones de código abierto • requisitos mínimos: todos los conceptos matemáticos fundamentales • capítulos cortos, independientes con clase a prueba ejemplos y ejercicios que permiten flexibilidad en el diseño de un curso y una fácil referencia • página web complementaria con diapositivas de las clases, videos, ideas de proyectos, y más

Minería de datos en Redes de Información Digital

25078803156_8a8e3666a5_o_d

Lavesson, N., P. Linde, et al. (2013). [e-Book] Mining the Digital Information Network: Proceedings of the 17th International Conference on Electronic Publishing. Amsterdan, IOS Press, 2013.

Texto completo

Electronic publishing is continuously changing; new technologies open new ways for individuals, scholars, communities and networks to establish contacts, exchange data, produce information and share knowledge on a variety of devices, from personal computers to mobile media. There is an urgent need to rethink electronic publishing in order to develop and use new communication paradigms and technologies, and to devise a truly digital format for the future. This book presents the conference proceedings of the ELPUB 2013 conference, held in Karlskrona, Sweden, in June 2013. The main theme of the conference is extracting and processing data from the vast wealth of digital publishing, and the ways to use and reuse this information in innovative social contexts in a sustainable way. The conference brings together researchers and practitioners to discuss data mining, digital publishing and social networks, along with their implications for scholarly communication, information services, e-learning, e-businesses, the cultural heritage sector and other areas where electronic publishing is imperative. The book is divided into three sections: full research articles, full professional articles and extended abstracts. Each section is further subdivided into Data Mining and Intelligent Computing, Publishing and Access and Social Computing and Practices. Focusing on key issues surrounding the development of methods for gathering and processing information, and on the means for making these data useful and accessible, this book will be of interest to the whole digital community.