
Los modelos de lenguaje grandes (LLMs), como ChatGPT 4o, pueden facilitar la conversión de documentos científicos, especialmente archivos en LaTeX, hacia formatos accesibles que cumplan con los estándares de accesibilidad para personas con discapacidad visual.
La necesidad de esta transformación radica en superar las limitaciones del formato visual (como negritas o centrados) que dificulta el uso de tecnologías asistivas como lectores de pantalla. A diferencia del formato visual, el formato lógico —como usar comandos específicos de LaTeX (\title{}, \section{}, \author{})— permite una estructura semántica reconocible tanto para humanos con discapacidad como para máquinas
Durante un hackatón de tres días organizado por la Chan Zuckerberg Initiative en septiembre de 2024, los autores probaron un método zero-shot: sin entrenamiento específico, ChatGPT intentaba convertir archivos con formato visual en otros más estructurados y accesibles. Los resultados fueron mixtos: aunque en algunos casos logró reemplazar adecuadamente elementos como título, autores o secciones mediante comandos LaTeX semánticos, muchas veces alternó estilos visuales por comandos incorrectos, alterando el contenido, generando errores de compilación o incluso sustituyendo autores entre documentos no relacionados.
Ante estos desafíos, los investigadores identificaron que los LLMs requerían supervisión humana constante y prompts más precisos. En particular, la generación de un diálogo iterativo permitió mejorar los resultados; sin embargo, la fiabilidad seguía siendo insuficiente para implementaciones a gran escala sin revisión adicional
Como alternativa más prometedora, se propone entrenar un modelo personalizado: partir de un corpus de documentos accesibles correctamente etiquetados, generar versiones con formato visual, y entrenar al modelo para revertir ese proceso de forma precisa. Este enfoque podría superar las limitaciones observadas en el enfoque zero-shot actual








