
Selected Digitized Books collection
Esta es una colección creciente de libros seleccionados y otros materiales de las Colecciones Generales de la Biblioteca del Congreso que se han puesto a disposición abiertamente. La mayoría de los materiales de esta colección se publicaron en los Estados Unidos antes de la década de 1930 y están en inglés. La colección presenta miles de obras de ficción, incluidos libros destinados a niños, adultos jóvenes y otras audiencias. También hay algunos materiales en idiomas extranjeros que se publicaron en otros países.
Este conjunto de datos comprende 166 218 archivos .txt y JSON que contienen texto completo de 90 414 libros en la colección de libros digitalizados seleccionados de loc.gov. El texto se creó como parte de los flujos de trabajo de digitalización utilizando tecnologías de reconocimiento óptico de caracteres (OCR). El conjunto de datos se creó utilizando la API JSON/YAML de loc.gov para obtener los metadatos y una aplicación de gestión de datos y procesamiento de flujo de trabajo interno para extraer el texto completo asociado de un LCCN. Los metadatos comprenden todos los libros digitalizados seleccionados.
Los libros de esta colección son de dominio público y son libres de usar y reutilizar.
Línea de crédito: Biblioteca del Congreso