Archivo de la etiqueta: Minería de textos

Google Books Ngram Viewer: permite explorar la frecuencia de palabras y frases en un corpus de libros digitalizados a lo largo del tiempo.

Google Ngram Viewer

Google Books Ngram Viewer es una herramienta proporcionada por Google que permite explorar la frecuencia de palabras y frases en un corpus de libros digitalizados a lo largo del tiempo. Utiliza la base de datos de Google Books, que incluye millones de libros digitalizados, para generar gráficos que muestran cómo ha cambiado el uso de palabras o frases a lo largo de los años.

Los usuarios pueden ingresar palabras o frases en el buscador de Ngram Viewer y ver gráficos que muestran la frecuencia con la que esas palabras o frases aparecieron en los libros durante un período de tiempo específico. Esto permite a los investigadores y académicos analizar tendencias lingüísticas, cambios culturales y la evolución del lenguaje a lo largo del tiempo.

La herramienta es utilizada en una amplia variedad de campos, incluyendo lingüística, historia, literatura, sociología y más, para estudiar cómo las palabras y frases han cambiado en su uso y significado a lo largo de los siglos.

Voyant Tools: una aplicación web de código abierto para el análisis de textos.

Voyant Tools

Voyant Tools proporciona una interfaz interactiva y fácil de usar que le permite explorar y visualizar sus datos de texto. No requiere conocimientos de programación, por lo que es accesible a usuarios con distintos niveles de conocimientos técnicos. Diseñada para ser utilizada por especialistas en humanidades digitales, estudiantes y el público en general.

Voyant Tools es una herramienta en línea de análisis y visualización de textos que permite a los usuarios explorar y analizar datos textuales. Ofrece diversas funciones y herramientas para ayudar a investigadores, académicos y estudiantes a obtener información de sus corpus de texto. Voyant Tools se utiliza a menudo en los campos de las humanidades digitales, el análisis literario y las ciencias sociales.

Para utilizar Voyant Tools, visita el sitio web oficial voyant-tools.org y pega tu texto directamente en la herramienta o carga un archivo que contenga su texto. A continuación, puede explorar las distintas opciones de análisis y visualizaciones que ofrece Voyant Tools para conocer mejor sus datos textuales.

Algunas de las características destacadas de Voyant Tools incluyen el análisis de frecuencia de palabras, que muestra las palabras más utilizadas en un texto o corpus, y la concordancia, que muestra ejemplos de cómo se utiliza una palabra específica en diferentes contextos. También ofrece visualizaciones como nubes de palabras, que representan gráficamente las palabras más frecuentes, y herramientas de resumen y análisis de corpus para examinar patrones y tendencias en los textos. Con Voyant Tools, puedes realizar una amplia gama de tareas de análisis de texto, incluyendo:

  • Análisis de frecuencia de palabras: Voyant Tools genera una nube de palabras y una lista de frecuencia de palabras para mostrar las palabras más utilizadas en un texto o corpus. Le permite identificar términos y temas clave.
  • Concordancia: Esta función muestra los casos de una palabra seleccionada en su contexto, lo que le permite examinar cómo se utiliza un término concreto a lo largo del texto.
  • Colocación: Muestra palabras que aparecen frecuentemente cerca unas de otras, ayudándole a identificar combinaciones de palabras o frases significativas.
  • Nube de etiquetas: Genera una visualización de nube de palabras, donde el tamaño de cada palabra representa su frecuencia en el texto.
  • Tendencias: Permite ver la frecuencia de las palabras a lo largo del tiempo, ayudándole a analizar cómo cambia el uso del lenguaje en diferentes periodos.
  • Herramientas de resumen: Puede utilizar las Herramientas Voyant para generar resúmenes de documentos, identificar las palabras más distintivas y crear modelos temáticos.
  • Análisis de corpus: Puede cargar múltiples textos en Voyant Tools y analizarlos colectivamente, comparando el uso de palabras en diferentes documentos.

Voyant: recurso de código abierto para la visualización de datos para el análisis de textos.

Voyant

https://beta.voyant-tools.org/

Voyant Tools es una aplicación de código abierto basada en la web para realizar análisis de textos. Sirve de apoyo a la lectura e interpretación de textos o corpus, especialmente por parte de los académicos de las humanidades digitales, pero también por parte de los estudiantes y el público en general. Puede utilizarse para analizar textos en línea o subidos por los usuarios

Voyant es un popular recurso de código abierto para la visualización de datos para el análisis de textos. Voyant es un popular recurso de código abierto para la visualización de datos para el análisis de textos. Puedes copiar texto de obras de dominio público del Proyecto Gutenberg y pegarlo en el sitio web de Voyant y ver los datos que analiza en una variedad de formatos como nubes de palabras, gráficos y más. Voyant es un popular recurso de código abierto para la visualización de datos para el análisis de textos.

Voyant «fue concebido para mejorar la lectura a través de análisis de texto ligeros como listas de frecuencia de palabras, gráficos de distribución de frecuencias y visualizaciones KWIC». Su interfaz está compuesta por paneles que realizan estas variadas tareas analíticas. Estos paneles también pueden incrustarse en textos web externos (por ejemplo, un artículo web podría incluir un panel Voyant que creara una nube de palabras a partir de él). El libro Hermeneutica: Computer-Assisted Interpretation in the Humanities muestra diferentes enfoques para el análisis de textos utilizando Voyant.

Creación de conocimientos jurídicos a partir de la minería de datos

Building Legal Literacies for Text Data Mining” . UC Berkeley Library, 2021

PDF

ePub

MOBI

El verano pasado se organizó en el instituto Building Legal Literacies for Text Data Mining un encuentro de una semana de duración con 32 investigadores y profesionales de las humanidades digitales, con el objetivo de capacitarlos para navegar con confianza por la ley, la política, la ética y el riesgo dentro de los proyectos de minería de datos de texto (TDM) de las humanidades digitales. Building Legal Literacies for Text Data Mining (Building LLTDM) fue posible gracias a una subvención del National Endowment for the Humanities.

El libro explora las alfabetizaciones jurídicas tratadas durante el Instituto virtual Building Legal Literacies for Text Data Mining, incluidos los derechos de autor (tanto de la legislación estadounidense como internacional), las medidas de protección tecnológica, la privacidad y las consideraciones éticas. Se describe detalladamente cómo se desarrollo en impartió el instituto de 4 días, y también se ofrecen ideas para organizar sesiones de alfabetización más breves. Por último, ofrecemos reflexiones y conclusiones sobre el Instituto.

La excepción para la minería de textos y datos (TDM) en la propuesta de Directiva sobre los derechos de autor en el mercado único digital – Aspectos jurídicos

 

2018-03-06_21-08-09

“The Exception for Text and Data Mining (TDM) in the Proposed Directive on Copyright in the Digital Single Market – Legal Aspects” European Parliament Research Service, February 2018

Texto completo

Este análisis en profundidad, encargado por el Departamento de Política de Derechos de los Ciudadanos y Asuntos Constitucionales del Parlamento Europeo a petición de la Comisión de Asuntos Jurídicos (Comisión JURI), es una contribución al taller sobre «Extracción de textos y datos» celebrado el 22 de febrero de 2018 en Bruselas. En él se analiza la propuesta de la Comisión (que introduce en el artículo 3 una excepción obligatoria a los derechos de autor que permite la extracción de textos y datos de obras protegidas), se evalúan sus efectos positivos y negativos y se formulan algunas sugerencias de posibles mejoras. También se revisan las ventajas de introducir una «cláusula abierta» además de una lista enumerada de excepciones para abordar algunos de los problemas relacionados.

 

¿Qué es la minería de textos, cómo funciona y por qué es útil?

text-mining-101-v2-300x211

TEXT MINING 101
WRITTEN BY OPENMINTED COMMUNICATIONS ON FEBRUARY 21, 2018

Original

 

Este artículo le ayudará a entender lo básico en sólo unos minutos.

 

¿QUÉ ES LA MINERÍA DE TEXTOS?

La minería de textos busca extraer información útil e importante de formatos de documentos heterogéneos, tales como páginas web, correos electrónicos, medios sociales, artículos de revistas, etc. Esto se hace mediante la identificación de patrones dentro de los textos, tales como tendencias en el uso de palabras, estructura sintáctica, etc.

La gente a menudo habla de «minería de texto y datos (TDM)» al mismo tiempo, pero estrictamente hablando la minería de texto es una forma específica de minería de datos que se relaciona con el texto.

¿POR QUÉ LO NECESITAMOS?

La minería de textos tiene muchas aplicaciones. Por ejemplo, la minería de textos puede ayudar a encontrar tecnologías nuevas e innovadoras dentro de ciertos dominios. Es un método muy eficiente para generar nueva información y conocimiento. Esta práctica permite a las empresas reducir el tiempo dedicado a la lectura de textos extensos y extractos literarios. Esto significa que los recursos clave se pueden encontrar con mayor rapidez y eficacia. También permite a los usuarios obtener nueva información que de otro modo sería difícil de encontrar.

¿QUÉ CLASE DE GENTE HACE MINERÍA DE TEXTOS?

La tecnología de la minería de textos es actualmente ampliamente aplicada por una extensa variedad de usuarios, desde organizaciones gubernamentales, instituciones de investigación y empresas para sus necesidades diarias. Estos son algunos ejemplos de uso en diferentes campos:

Investigación: por ejemplo, el descubrimiento de conocimientos, la atención médica y sanitaria: en el pasado, a un investigador humano le lleva mucho tiempo analizar y obtener información relevante. En algunos casos, esta información ni siquiera era accesible. La minería de textos permite a los investigadores encontrar más información y de forma más rápida y eficiente.

Negocios: por ejemplo, las grandes empresas utilizan la minería de textos para ayudar en la toma de decisiones y responder rápidamente a las consultas de los clientes en procesos tales como la gestión de riesgos o el filtrado de currículos

Seguridad: En anti-terrorismo, el análisis de los blogs y otras fuentes de texto en línea se utiliza para prevenir delitos en Internet y luchar contra el fraude.

Diariamente, La minería de texto es usada por los sitios web de correo electrónico para crear métodos de filtrado más confiables y efectivos, para el filtrado de spam, análisis de datos de medios sociales, etc. También para identificar las relaciones entre los usuarios y ciertos productos o para determinar las opiniones de los usuarios sobre temas particulares

¿ES ÚTIL LA MINERÍA DE TEXTOS PARA LA CIENCIA?

Los usos de la minería de textos son virtualmente interminables, pero vamos a centrarnos más en que manera es útil para la ciencia y la investigación. Los científicos se comunican a través de publicaciones científicas y se estima que existen más de 50 millones de revistas (JINHA, A. E. (2010), po lo cual cada vez es más difícil para los investigadores hacer un seguimiento de lo que se publica en su propio campo. Además, hay una enorme afluencia de otros tipos de datos en todas las ciencias, como páginas web, informes de organizaciones públicas (por ejemplo, transcripciones judiciales, actas de reuniones), libros, etc. La minería de textos puede ayudar a resolver este problema y a encontrar nueva información.

ESPERA UN MINUTO, ¿ASÍ ES COMO OBTENGO ESOS ANUNCIOS PERSONALIZADOS?

Como se ha dicho antes, las tecnologías de minería de texto tienen muchas aplicaciones. Entre ellas, se puede utilizar para establecer vínculos entre clientes potenciales y productos con fines de marketing o de otro tipo.

¿CUÁL ES LA DIFERENCIA ENTRE MINERÍA DE TEXTO Y GOOGLE?

Los motores de búsqueda como Google, recuperan todos los documentos que contienen las palabras clave que has especificado. No hay valor añadido a los datos. La minería de textos lleva las cosas un paso más allá al extraer información precisa basada en mucho más que palabras clave. En su lugar, busca entidades o conceptos, relaciones, frases y/o oraciones. Intenta determinar el significado real basado en algoritmos de Procesamiento del Lenguaje Natural (NLP), que le permiten reconocer conceptos similares. Una búsqueda utilizando la minería de texto puede identificar hechos, relaciones e inferencias que no son del todo obvios.

¿CÓMO FUNCIONA, ESTA MINERÍA DE TEXTO Y DATOS?
La extracción de textos puede dividirse en cinco pasos:

 

 

1. Recolección: Recopilación de datos de diferentes recursos, tales como sitio web, correos electrónicos, comentarios de clientes, archivo de documentos. Dependiendo de la aplicación, este proceso puede ser completamente automatizado o guiado por una persona encargada de realizar este proceso.

2. Preprocesamiento: La identificación del contenido y la extracción de características representativas

3. Limpieza de textos: eliminación de cualquier información innecesaria o no deseada, como los anuncios de las páginas.

4. Tokenización: un ordenador sólo «ve» una cadena de caracteres, sin poder identificar, por ejemplo, párrafos, frases o palabras. La Tokenización divide el texto en entidades significativas (palabras, oraciones, etc.) dados los espacios en blanco presentes y las puntuaciones.

5. Extracción de características (también llamada selección de atributos): es el proceso de caracterización.

Un ejemplo puede ilustrar estos cinco pasos:

Imagina que estás vendiendo calendarios de animales. Si deseas saber si es una buena inversión para que  se anuncie en los sitios web de blogs, y por lo tanto, te gustaría conocerqué porcentaje de las entradas en el blog están hablando de los animales.

En primer lugar, es necesario reunir todos los textos de todas las entradas de blog que puedas encontrar. Dado que puede haber cientos de miles de estos textos en Internet, probablemente no quieras descargarlos manualmente, uno por uno. Así que necesitas software para rastrear la web, descargar los artículos que encuentre y organizarlos en una base de datos apropiada.

En segundo lugar, querrás preprocesar el material recolectado para que las siguientes herramientas (discutidas en los pasos 3 a 5) puedan trabajar más eficientemente. Por ejemplo, querrás eliminar anuncios, menús de páginas web, código fuente de las páginas web HTML, etc. A continuación, es posible que desees calcular algunas características (extracción de características) para tu colección de textos. Por ejemplo, es posible que desees conocer el número de palabras de cada mensaje, de modo que pueda rechazar las que son demasiado pequeñas (por ejemplo, 10 palabras) o demasiado grandes (por ejemplo, 10 000 palabras). Tales entradas en su base de datos probablemente no son representativas y pueden ser errores generados por su software utilizado en el primer paso. Para obtener estos recuentos de palabras, primero tendrás que dividir los textos (serie de caracteres) en palabras (tokenización).

En el tercer paso, es posible que desees crear índices. Por ejemplo, para enumerar qué palabras se han encontrado en qué textos. Puedes pensar en esto como el índice de un libro. Sin un índice, es muy difícil localizar la información sobre un tema específico. Pero con un índice, es mucho más fácil y rápido encontrar lo que está buscando. Esto también es cierto para el software que busca palabras en su enorme base de datos blog.

Luego, en el cuarto paso, querrás extraer los textos para extraer alguna información que le ayudará a contestar sus preguntas. En este caso, querrás identificar palabras que se refieran a animales. Un nombre de entidad reconocedora de animales tratará de reconocer cada palabra que se refiera a un animal, como perro, gato, gatito, felino, mamífero, petirrojo americano, Turdus migratorius, etc. También es posible que desees ejecutar lo que se conoce como’ algoritmos sintácticos‘ para identificar qué palabras son sustantivos y cuáles verbos. Se necesitan muchos algoritmos para distinguir, por ejemplo, el uso de cat en «Tengo un gato hermoso» y que «ejecute cat file. txt en su línea de comandos para mostrar el texto.o rechazar «Se movió como una araña» Evidentemente, se necesita mucha inteligencia para llevar a cabo esta tarea con precisión.

A continuación, en el quinto paso, se desea realizar análisis y trazar gráficos. Por ejemplo, puedes requerir una gráfica de barra que muestre el porcentaje de artículos del blog que hablan sobre los animales para cada uno de los diez sitios web de alojamiento de blog más importantes. Con esta información, por ejemplo, puedes convencer a tus colaboradores de que es una buena idea invertir dinero en publicidad para calendarios de animales en whatablog. com.

 

Este artículo fue escrito como parte del proyecto OpenMinTeD por: Jiakang Chang (EMBL-EBI), Christian O’ Reilly (EPFL), Nancy Pontika (Open University) Gareth Owen (EMBL-EBI), Kenneth Haug (EMBL-EBI), Martine Oudenhoven (LIBER)