Archivo de la categoría: Noticias

Un año después de que la Biblioteca Pública de Vancouver eliminara las multas considera que su efecto fue muy positivo

vancouversun. «A Year after Vancouver Public Library Eliminated Fines, Here’s How Many Books Are Now Overdue», 5 de septiembre de 2023. https://vancouversun.com/news/local-news/vancouver-public-library-eliminated-fines-heres-how-many-books-overdue.

La eliminación de las multas implica una disminución de los ingresos anuales de varios cientos de miles de dólares, aunque los encargados de la biblioteca aseguran que esta historia tiene un desenlace positivo. Un año después de otorgar amnistía a los usuarios que no devolvían los libros a tiempo, la Biblioteca Pública de Vancouver informa de un leve incremento en la cantidad de personas que no retornan los libros prestados.

La Biblioteca Pública de Vancouver (VPL) decidió eliminar las multas por retraso a partir de junio de 2022 como parte de una iniciativa destinada a «reducir las barreras al acceso al servicio bibliotecario y promover la equidad». En la actualidad, la biblioteca tiene alrededor de 47,000 artículos catalogados como vencidos o extraviados, lo que equivale al 18% de los 269,000 artículos prestados. Esto representa un ligero aumento con respecto al 15% de artículos vencidos o extraviados registrados en 2019, que fue el último año completo antes del inicio de la pandemia de COVID-19. La colección de la VPL consta de aproximadamente 2,3 millones de artículos.

Según Scott Fraser, el gerente de marketing y comunicaciones de la VPL, «el impacto en nuestras finanzas ha sido mínimo». La pérdida de ingresos por multas atrasadas representa alrededor del 1% del presupuesto total de la VPL, que asciende a 59 millones de dólares. Fraser afirmó que «desde una perspectiva de beneficio social, el impacto ha sido muy positivo». Los usuarios se sienten más bienvenidos en la biblioteca y han expresado su gratitud por el servicio sin multas.

En 2020, la junta de la biblioteca solicitó la aprobación del ayuntamiento para implementar esta «iniciativa sin multas» y ajustó su presupuesto anual a lo largo de tres años para compensar la pérdida de ingresos por multas atrasadas, que ascendía a 625,000 dólares. Este monto representa menos del 0.1% del presupuesto operativo total de la ciudad para 2022, que alcanza los 1,750 millones de dólares.

Si un artículo prestado no se devuelve en un plazo de 23 días después de su fecha de vencimiento, se aplica un cargo por artículo perdido en la cuenta del usuario de la biblioteca. El sitio web de la VPL también indica que los titulares de carnés pueden perder sus privilegios de préstamo si tienen más de 10 artículos atrasados.

El presupuesto de Vancouver para 2022 revela que la biblioteca informó de los «niveles más altos de satisfacción entre todos los servicios de la Ciudad de Vancouver». A pesar de una caída en el uso de la colección durante la pandemia de COVID-19 en 2020, el año 2021 registró un aumento en la utilización de la biblioteca, superando los niveles previos a la pandemia.

La Biblioteca del Congreso digitaliza la Haggadah de Washington y otros 33 manuscritos medievales

COLLECTION
Hebraic Manuscripts

La Biblioteca del Congreso ha hecho públicos unos 230 manuscritos recién digitalizados escritos en hebreo y lenguas similares como el judeoárabe, el judeo-persa y el yiddish. Se trata de 34 manuscritos fechados entre los siglos XI y XVI.

La colección, disponible en línea para investigadores y público por primera vez, incluye La Hagadá de Pascua, también conocida como la «Hagadá de Washington«, creada en 1478 por Joel ben Simeón, un escriba hebreo que trabajó tanto en Italia como en Alemania, y hoy está considerado uno de los mejores artistas judíos de la época.

El proyecto digital completo, financiado por la Fundación David Berg, ofrece una colección muy diversa de materiales de los siglos XI al XX, que incluye responsa o decisiones y comentarios rabínicos, poesía, magia judía y medicina popular.

«La generosidad de la Fundación Berg ha permitido a la Biblioteca del Congreso alcanzar un objetivo largamente perseguido: hacer aún más accesible a los investigadores su rica colección de manuscritos hebreos», declaró Lanisa Kitchiner, jefa de la División de África y Oriente Medio. «La colección refleja una extraordinaria tradición manuscrita de incalculable valor para la investigación. Su existencia y presencia en línea son a la vez una inspiración y una invitación a admirar, comprometerse, aprovechar y hacer avanzar las contribuciones judías a la humanidad desde el siglo X en adelante.»

La Italia de los siglos XVII y XVIII está particularmente bien representada en la colección, con numerosos manuscritos sobre diversos temas, entre ellos poesía nupcial en judeoitaliano y un corpus considerable sobre la Cábala. En conjunto, los manuscritos recién digitalizados ofrecen una visión rica y a menudo íntima de la vida judía a lo largo de los siglos.

Entre las obras medievales más destacadas de la colección se encuentran:

¿Es legal y justo el uso de contenidos protegidos por derechos de autor en modelos de IA

Los modelos de inteligencia artificial se basan en gran medida en contenidos de alta calidad creados por seres humanos, a menudo sujetos a protección por derechos de autor. Sin estos recursos, el rendimiento del modelo sería deficiente. Surge la pregunta de si es legal utilizar obras protegidas por derechos de autor durante la fase de entrenamiento en el desarrollo de un modelo de inteligencia artificial.

Los modelos de IA de gran envergadura, como el GPT-4 de OpenAI, el PaLM 2 de Google y el Llama 2 de Meta, se han construido en parte utilizando una amplia gama de fuentes, que incluyen millones de libros, artículos, conversaciones y otros contenidos disponibles en Internet. Esta práctica ha generado disputas legales por parte de algunos creadores de estos contenidos, quienes argumentan violaciones de derechos de autor, mientras que otros buscan ser compensados por sus contribuciones.

Sin embargo, surge la pregunta de cómo se puede evaluar el valor de un dato específico cuando un modelo de IA ha absorbido una gran parte de lo que ha sido publicado en Internet durante la última década o incluso más. Benedict Evans, analista tecnológico, resalta este desafío en un reciente artículo sobre IA al señalar que el modelo no distingue entre un libro o sitio web en particular, sino que requiere acceso a «todos» los libros y «todos» los sitios web. Esto plantea un dilema, ya que el retiro de contenidos por parte de una empresa no solucionaría el problema si todas lo hicieran.

El concepto de «apalancamiento de datos», como lo describe el profesor Vincent, destaca la importancia de que las comunidades comprendan el valor de sus datos para los modelos de IA, lo que les permitiría negociar de manera más efectiva la compensación por su contribución. Si se puede determinar que el conjunto de todos los libros, por ejemplo, es responsable de una parte significativa del rendimiento de un modelo de IA como ChatGPT, entonces es posible asignar un valor adecuado a esa contribución.

En este contexto, se presenta SILO, un nuevo modelo lingüístico desarrollado por investigadores de instituciones como la Universidad de Washington en Seattle, la UC Berkeley y el Allen Institute for AI. SILO se creó con el objetivo general de minimizar riesgos legales al eliminar datos sensibles, pero también se ha desarrollado una metodología para evaluar la contribución específica de datos a los resultados de un modelo de IA. Esto podría abrir la puerta para que los propietarios de datos reciban el reconocimiento adecuado, o incluso una compensación directa, cada vez que sus datos contribuyan a las predicciones de un modelo. Como se demuestra, el rendimiento de los modelos se ve afectado significativamente si se entrenan solo con texto de bajo riesgo, como libros o documentos gubernamentales sin derechos de autor, debido a las limitaciones en tamaño y cobertura de dominio.

Basado en: Barr, Alistair. «“Data Leverage” and the Harry Potter Test: How Much Is a Single Book Worth to a Giant AI Model?» Business Insider. Accedido 4 de septiembre de 2023. https://www.businessinsider.com/data-leverage-harry-potter-test-putting-value-data-ai-models-2023-8.

Bibliotoxicología: el fenómeno de los «libros envenenados»

Sanders, Doug. «Bibliotoxicology», 25 de julio de 2023. https://blogs.libraries.indiana.edu/craiglab/2023/07/25/bibliotoxicology/.

Recientemente ha aumentado la concienciación sobre el fenómeno de los «libros envenenados»: es decir, libros que contienen pigmentos compuestos de metales pesados que se sabe que son peligrosos para la salud humana. Los pigmentos a base de mercurio, plomo, cromo y arsénico son generalmente los elementos que se sabe que están presentes en las encuadernaciones -se utilizan para colorear la tela que cubre el libro, el cuero y/o el papel-, principalmente en el siglo XIX (sobre todo entre 1840 y 1860), y muy probablemente de origen editorial europeo o estadounidense.

Doug Sanders, conservador de papel del Departamento de Conservación de las Bibliotecas de la Universidad de Indiana, trabaja activamente en la identificación y elaboración de políticas relativas a este problema. Desde la antigüedad se sabe que los metales pesados tienen efectos tóxicos, pero no fue hasta la década de 1860 cuando se empezó a investigar formalmente sobre la salud. Ahora sabemos que una exposición prolongada puede provocar diversos efectos cancerígenos, sobre el sistema nervioso y circulatorio, y que existen tratamientos eficaces. Un grupo internacional de conservadores, bibliotecarios, higienistas industriales y científicos de la conservación está redactando un documento de orientación para informar mejor a nuestros colegas sobre estos temas.

El verde de Scheele y el verde esmeralda son dos pigmentos específicos que actualmente son objeto de mucho trabajo en las bibliotecas, ambos compuestos que contienen cobre-arsénico. Ambos son colores bastante enigmáticos y probablemente fueron recibidos con gran interés cuando aparecieron en el mundo de la encuadernación a mediados del siglo XIX. Un color simulado de verde esmeralda ocupa la parte superior de esta entrada del blog. Sin embargo, estos colores tuvieron una vida relativamente corta -sólo unas décadas- antes de que se conocieran sus peligros y dejaran de utilizarse. Curiosamente, el verde esmeralda siguió utilizándose como raticida, a menudo bajo el seudónimo de verde París. En febrero de 2023, se sabía que 146 títulos contenían este pigmento. Los pigmentos que contienen metales pesados también están presentes en mapas, pinturas, manuscritos medievales iluminados y otros objetos de nuestro patrimonio cultural colectivo.

¿Cómo se identifican estos pigmentos?

Hay varios métodos disponibles para ayudar a obtener una identificación positiva. La microscopía, la espectroscopia láser Raman y las pruebas puntuales con reactivos químicos son métodos que se pueden utilizar y que un conservador suele conocer. Sin embargo, el método que voy a utilizar es la espectroscopia de fluorescencia de rayos X (XRF). El FRX proporciona un resultado rápido, no destructivo y en gran medida inequívoco.

¿Qué hacer a partir de ahora?

Además, es necesario establecer procedimientos de almacenamiento, recuperación y manipulación para que el personal y los usuarios puedan seguir accediendo a estos materiales de lectura de forma segura, con un riesgo mucho menor para la salud. Si el libro está en buen estado, el riesgo es principalmente de ingestión (más que de inhalación). Es probable que los procedimientos incluyan la manipulación con guantes, el lavado posterior y la limitación del contacto directo entre el libro y el mobiliario de la sala de lectura, los carros de las estanterías, etc. En resumen, podemos seguir apreciando los libros, pero con algunos cuidados y reducción de riesgos de sentido común. Es probable que el proyecto se amplíe a otras colecciones y bibliotecas del sistema de Bibliotecas de IU. Es importante tener en cuenta que los peligros para la salud están a nuestro alrededor y que aprendemos a mitigarlos a diario mediante enfoques inteligentes de gestión de riesgos. Curiosamente, los museos de historia natural y las colecciones arqueológicas han tratado con toxinas (normalmente en forma de antiguas aplicaciones de pesticidas) en sus colecciones durante muchos años y tienen mucho que compartir con nosotros en términos de desarrollo de políticas.

Manifiesto sobre los datos abiertos de ODI


Open Data Institute (ODI) es una organización sin fines de lucro que se dedica a promover y facilitar el uso de datos abiertos en todo el mundo. Fue fundada en 2012 en el Reino Unido por Sir Tim Berners-Lee y Nigel Shadbolt, dos figuras influyentes en el campo de la tecnología y la web semántica.

La misión del ODI es abogar por la apertura y accesibilidad de los datos, lo que implica que los datos deben estar disponibles para ser utilizados y compartidos de manera libre y sin restricciones innecesarias. Esto no solo incluye datos gubernamentales, sino también datos de diversas fuentes, como empresas, organizaciones sin fines de lucro y más.

El ODI trabaja en colaboración con gobiernos, empresas y otras instituciones para promover políticas y prácticas de datos abiertos. Proporciona capacitación, recursos y apoyo para ayudar a las organizaciones a comprender y aprovechar los datos abiertos de manera efectiva. Además, el ODI promueve la investigación, la innovación y la creación de herramientas y tecnologías que faciliten el uso y la compartición de datos abiertos.

MANIFIESTO

El Manifiesto del Open Data Institute (ODI) es una declaración fundamental que establece los principios y valores centrales de la organización en relación con los datos abiertos y su impacto en la sociedad:

INFRAESTRUCTURA: Los sectores y las sociedades deben invertir y proteger la infraestructura de datos en la que confían. Los datos abiertos son el fundamento de esta infraestructura vital emergente.

CAPACIDAD: Todos deben tener la oportunidad de comprender cómo se pueden usar y se están usando los datos. Necesitamos alfabetización en datos para todos, habilidades en ciencia de datos y experiencia en el uso de datos para ayudar a resolver problemas.

INNOVACIÓN: Los datos deben inspirar y alimentar la innovación. Pueden permitir que empresas, startups, gobiernos, individuos y comunidades creen productos y servicios, impulsando el crecimiento económico y la productividad.

EQUIDAD: Todos deben beneficiarse de manera justa de los datos. El acceso a los datos y la información promueve la competencia justa y los mercados informados, y capacita a las personas como consumidores, creadores y ciudadanos.

ÉTICA: Las personas y las organizaciones deben usar los datos de manera ética. Las decisiones tomadas sobre qué datos se recopilan y cómo se utilizan no deben ser injustas, discriminatorias ni engañosas.

COMPROMISO: Todos deben poder participar en hacer que los datos funcionen para todos nosotros. Las organizaciones y comunidades deben colaborar en cómo se utilizan y se accede a los datos para ayudar a resolver sus problemas.

¿Puede algo generado con IA ser realmente brillante?

Levy, Steven. «AI Can’t Read Books. It’s Reviewing Them Anyway». Wired. Accedido 30 de agosto de 2023. https://www.wired.com/story/plaintext-ai-chatgpt-book-reviews/.

Ahora que todos hemos tenido experiencia con grandes modelos lingüísticos, sus limitaciones son demasiado visibles. Sí, pueden escribir. Pero su prosa no explota en la mente como lo hacen las palabras de Jennifer Egan, Emily St. John Mandel o David Foster Wallace. Sí, saben hacer música. Pero Taylor Swift y Kendrick Lamar duermen muy bien por las noches. Y sí que saben resumir la historia con rapidez y pulcritud, pero no con la perspicacia de Barbara Tuchman o Ron Chernow. Sin embargo, los LLM no han hecho más que empezar. Seguramente mejorarán.

¿Pero cuánto mejor? Hemos visto múltiples casos en los que la IA ha conquistado regiones que se creían impenetrables para los robots, desde el ajedrez hasta el LSAT. ¿Podría hacer lo mismo en las artes creativas? Últimamente estoy obsesionado con esa pregunta. ¿Puede algo generado con IA ser realmente brillante?

Las «reseñas» de dos o tres frases generadas por ChatGPT sólo se basaban en el texto de la cubierta y en algunas reseñas de Amazon. Los avatares no tenían acceso al texto real del libro, «por razones de copyright». Dado que la mayoría de los críticos prefieren poner los ojos en las páginas del libro que están juzgando, estos comentarios generados por la IA no parecen ser críticas reales. De hecho, son como borradores promocionales lanzados por el amigo de un amigo que no se ha molestado en leer el libro ni en preguntar de qué trata.

Lo que aún no tengo claro es si una IA podría emitir juicios tan frescos y perspicaces como las reseñas de Senior y otros críticos de élite. Para esas personas, el acto de leer evoca ecos de sus propias vidas y desencadena procesos de pensamiento que conducen a sus observaciones. Senior duda que esto pueda ocurrir con un robot. «No veo cómo la IA puede recrear la experiencia de leer un libro, que es lo que hacen los mejores críticos», afirma. ChatGPT no puede superar la revisión de libros de Jennifer Senior, pero puede ayudar a los estudiantes a falsificar sus tareas. Los profesores se las ingenian para solucionarlo.

RealChar es una plataforma basada en IA que permite a cualquiera simular que chatea en tiempo real con personajes públicos como Elon Musk, Sam Altman, o Steve Jobs

 RealChar.ai

RealChar es una nueva plataforma basada en personajes que permite a los ciudadanos chatear en tiempo real, mediante texto y voz, con personajes públicos imaginativos y realistas. Algunos de estos personajes son Elon Musk, Sam Altman, Bruce Wayne, Loki, Steve Jobs y muchos más.

Estos personajes no son una versión abstracta de las figuras públicas reales, sino que emplean la personalidad, los conocimientos y la voz de la persona real. Esto permite a los usuarios preguntar a personas como Sam Altman, CEO de OpenAI, o Elon Musk sus opiniones sobre proyectos, ideas o cualquier otra cosa que el usuario desee. Estas opiniones no serán las de la persona real, obviamente, pero se acercarán lo más posible dado el análisis de los datos disponibles públicamente del individuo.

Los personajes disponibles en RealChar no se limitan a los creadores de la herramienta. Más bien, a través de su versión local de la herramienta, cada individuo puede crear su propio personaje, ya sea una figura pública, un ser querido o él mismo.

RealChar sólo tiene dos semanas de vida y nació de la iniciativa de personas motivadas que querían acercar el poder de la inteligencia artificial al público.

Cualquiera puede entrar en el sitio web y chatear, o incluso llamar a uno de los personajes desarrollados. Además, RealChar permite elegir un personaje «seleccionado de la comunidad» con el que uno tiene la posibilidad de chatear con personajes que fueron desarrollados por el público utilizando la plataforma RealChar o crear el suyo propio.

RealChar, a diferencia de muchos grandes modelos lingüísticos (LLM), como ChatGPT, que sólo se actualiza hasta 2021, utiliza fuentes de datos en directo para alimentar al personaje con información actualizada y en tiempo real, con la que el usuario puede interactuar con el personaje

Intimidación educativa: cómo la legislación sobre «derechos de los padres» socava la libertad de aprender

Educational Intimidation: How ‘Parental Rights’ Legislation Undermines the Freedom to Learn”. PEN America, 2023

Texto completo

«Intimidación educativa: How ‘Parental Rights’ Legislation Undermines the Freedom to Learn» examina el aumento de lo que PEN America ha denominado «proyectos de ley de intimidación educativa», una categoría de legislación que tiene el efecto de incitar a la autocensura en las escuelas a través de mecanismos indirectos, en lugar de edictos directos. Bajo el pretexto de promover los «derechos de los padres», se han presentado casi 400 de estos proyectos de ley que corren el riesgo de facultar a los ideólogos para intervenir en las decisiones curriculares y extracurriculares de los profesores, bibliotecarios y administradores escolares, anulando el juicio de los educadores y las opiniones de la mayoría.

Estos proyectos de ley intimidatorios son distintos de las «órdenes de mordaza educativas», una clase de proyectos de ley documentados anteriormente por PEN America que prohíben directamente lo que se puede enseñar en las aulas, centrándose en debates sobre raza, racismo, género, aspectos de la historia estadounidense y otros conceptos «prohibidos» o «divisivos». Los proyectos de ley intimidatorios agravan la crisis de la educación pública, provocando un efecto amedrentador a través de nuevas herramientas que amplían radicalmente las vías para que los padres solitarios, los funcionarios del gobierno y los ciudadanos supervisen y ejerzan control sobre las decisiones pedagógicas.

  • En los últimos tres años, PEN América ha sido testigo de la propagación de legislación a nivel estatal cuyas disposiciones se entienden mejor como formas de intimidación educativa.
  • Estos proyectos de ley de intimidación educativa no constituyen formas directas de censura o prohibiciones curriculares. Pero facilitan las condiciones para un clima de frialdad en la educación pública al ampliar radicalmente las vías para que los padres, los funcionarios del gobierno y los ciudadanos intervengan en las decisiones curriculares y extracurriculares en las escuelas públicas K-12.
  • La posibilidad de que los padres inspeccionen los planes de estudios y se opongan a ellos ya se concede habitualmente en los sistemas de enseñanza pública, pero la actual avalancha de disposiciones mejora o amplía estas oportunidades de formas que están diseñadas para incitar a las escuelas y a los educadores a la autocensura.
  • Estos proyectos de ley permiten restricciones generales sobre libros o planes de estudio para todos los estudiantes y, en última instancia, potencian un asalto ideológico a la educación pública al tiempo que desempoderan a otros padres y anulan sus preferencias.
  • Un subconjunto cada vez mayor de proyectos de ley de intimidación educativa tiene como objetivo restringir la representación y expresión LGBTQ+ en las escuelas públicas en particular, desalentando las discusiones sobre género y sexualidad, prohibiendo el uso de pronombres preferidos, e inculcando mecanismos de notificación obligatoria para que los padres sean alertados de los cambios percibidos en la identidad de género u orientación sexual de los estudiantes. De este modo, se presiona a los educadores para que controlen y vigilen la expresión de los alumnos.

¿Qué es el crowdsourcing del patrimonio cultural?

El crowdsourcing del patrimonio cultural es un enfoque colaborativo que involucra a la comunidad en general en la recopilación, preservación y promoción del patrimonio cultural de una región, grupo étnico o comunidad. El patrimonio cultural se refiere a las expresiones culturales que son significativas para un grupo de personas, ya sea a nivel local, regional o global. Esto puede incluir elementos tangibles como monumentos, artefactos y edificios, así como elementos intangibles como tradiciones, historias orales y prácticas culturales.

El crowdsourcing del patrimonio cultural en línea, también conocido como producción entre iguales basada en el procomún y cocreación, invita a las personas, normalmente voluntarios, a mejorar las descripciones de los elementos de las bibliotecas, archivos y museos (LAM) mediante el etiquetado, la transcripción y la aportación de conocimientos de primera mano.

El crowdsourcing se basa en la idea de que muchas manos pueden lograr más que unas pocas. En el contexto del patrimonio cultural, esto significa que las comunidades y el público en general pueden contribuir de diversas maneras a la preservación y difusión de la herencia cultural. Algunas formas comunes de crowdsourcing en el ámbito del patrimonio cultural incluyen:

  1. Digitalización de archivos y documentos: Permitir a las personas contribuir escaneando y digitalizando documentos históricos, fotografías antiguas y otros materiales relevantes.
  2. Etiquetado y descripción: Invitar a las personas a etiquetar y describir objetos, imágenes o documentos para mejorar su catalogación y accesibilidad en bases de datos en línea.
  3. Transcripción de documentos históricos: Muchos archivos históricos tienen documentos escritos a mano que pueden ser difíciles de leer. El crowdsourcing puede ayudar a transcribir estos documentos para hacerlos más accesibles y buscables.
  4. Georreferenciación: Agregar información geográfica a fotografías antiguas o documentos para mostrar cómo era una ubicación en el pasado.
  5. Narrativas y testimonios personales: Invitar a las personas a compartir sus propias historias y experiencias relacionadas con el patrimonio cultural, lo que puede enriquecer la comprensión general de su significado.
  6. Identificación de objetos y lugares desconocidos: Pedir a la comunidad que identifique objetos o lugares desconocidos en fotografías o imágenes antiguas.
  7. Creación de contenido multimedia: Animar a la comunidad a crear contenido multimedia, como videos, podcasts o exhibiciones virtuales, que cuenten historias relacionadas con el patrimonio cultural.
  8. Traducción y localización: Invitar a personas que hablan diferentes idiomas a traducir materiales o descripciones para llegar a una audiencia más amplia.
  9. Participación en proyectos de investigación: Permitir que investigadores y entusiastas colaboren en proyectos de investigación relacionados con el patrimonio cultural.

Desde 2015, ha habido un notable aumento en la adopción del crowdsourcing para la preservación del patrimonio cultural. Durante este período, se ha vuelto común el uso de diversas herramientas y plataformas que han facilitado este enfoque colaborativo. Ejemplos de estas plataformas incluyen el generador de proyectos gratuito en Zooniverse.org, la plataforma de transcripción por suscripción FromThePage, PyBossa, Scripto para Omeka, MicroPasts, así como redes sociales como Flickr.

Por ejemplo, la Biblioteca del Congreso lanzó la plataforma Concordia, la cual sentó las bases para el proyecto «By the People». Estas plataformas han abordado proyectos que abarcan diversas eras históricas, idiomas, regiones y temáticas. Como resultado, millones de individuos de diferentes rincones del mundo se han involucrado en estas iniciativas colaborativas.

Los proyectos que se ejecutan en estas plataformas pueden tener diferentes alcances de participación. Algunos están diseñados para atraer a grupos específicos de individuos con conocimientos lingüísticos especializados u otros perfiles específicos. Por otro lado, existen proyectos completamente abiertos, accesibles para cualquier persona conectada a Internet que tenga el tiempo y el interés para contribuir.

El crowdsourcing del patrimonio cultural puede ser especialmente útil para ampliar la base de conocimiento y participación en la preservación de la historia y la cultura. Sin embargo, es importante abordar cuestiones éticas como la apropiación cultural y asegurarse de que las contribuciones sean respetuosas y precisas.

SeamlessM4T: un modelo de IA capaz de transcribir y traducir cerca de 100 idiomas

SeamlessM4T

SeamlessM4T, el primer modelo de traducción de IA multimodal y multilingüe todo en uno que permite a las personas comunicarse sin esfuerzo a través del habla y el texto en diferentes idiomas.

En su afán por desarrollar una inteligencia artificial capaz de comprender una amplia gama de dialectos, Meta ha creado un modelo de IA, SeamlessM4T, capaz de traducir y transcribir cerca de 100 idiomas en texto y voz.

Disponible en código abierto junto con SeamlessAlign, un nuevo conjunto de datos de traducción, Meta afirma que SeamlessM4T representa un «avance significativo» en el campo de la conversión de voz y texto en IA.

«Nuestro modelo único proporciona traducciones a la carta que permiten a las personas que hablan diferentes idiomas comunicarse de manera más eficaz», escribe Meta en una entrada de blog compartida con TechCrunch. «SeamlessM4T reconoce implícitamente los idiomas de origen sin necesidad de un modelo separado de identificación de idiomas».

SeamlessM4T es una especie de sucesor espiritual de Meta’s No Language Left Behind, un modelo de traducción automática de texto a texto, y de Universal Speech Translator, uno de los pocos sistemas de traducción directa de voz a voz compatible con el idioma hokkien. Y se basa en Massively Multilingual Speech, el marco de Meta que ofrece reconocimiento del habla, identificación de idiomas y tecnología de síntesis del habla en más de 1.100 idiomas.

  • Reconocimiento de voz en casi 100 idiomas
  • Traducción de voz a texto para casi 100 idiomas de entrada y salida
  • Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 36 (incluido el inglés) de salida
  • Traducción de texto a texto en casi 100 idiomas
  • Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (incluido el inglés) de salida