Guía para principiantes sobre la ciencia de datos

 

787de5aae7b9a5ced13c1219f7fccea2

 

A Beginner’s Guide To Data Science: Start your self-learning journey into the world of data right now. 

Oleksii Kharkovyna

Ver completo

Cuando Aristóteles y Platón estaban debatiendo apasionadamente si el mundo es material o ideal, ni siquiera adivinaron el poder de los datos. En la actualidad, los datos dominan el mundo y la Ciencia de los Datos va ganando terreno, aceptando los retos del tiempo y ofreciendo nuevas soluciones algorítmicas. No es de extrañar, ya que cada vez resulta más atractivo no sólo observar todos esos movimientos, sino también formar parte de ellos.

Sin embargo,casi todos somos unos recién llegados a esta materia, ¿Eso significa que tenemos  un largo camino por recorrer para ser un experto? ¿Es necesario pasar por toda una serie de intentos y fracasos antes de alcanzar la confianza total en este trabajo? Probablemente, sí. Pero con este post, se trata de facilitar esta tarea. La forma más efectiva de aprender con los pasos más necesarios.

Paso 0. ¿Qué es qué?

Bueno, en términos generales, la ciencia de datos no es un ámbito determinado o único, es como una combinación de varias disciplinas que se centran en el análisis de datos y la búsqueda de las mejores soluciones basadas en ellos. Inicialmente, esas tareas eran realizadas por especialistas en matemáticas o estadística, pero luego los expertos en datos comenzaron a utilizar el aprendizaje automático y la inteligencia artificial, lo que agregó la optimización y la informática como un método para analizar los datos. Este nuevo enfoque resultó ser mucho más rápido y eficaz, por lo que fue muy popular.

Por lo tanto, la popularidad de la ciencia de datos radica en el hecho de que abarca la recopilación de grandes conjuntos de datos estructurados y no estructurados y su conversión a un formato legible por el ser humano, incluyendo la visualización, el trabajo con métodos estadísticos y analíticos – aprendizaje automático y profundo, análisis de probabilidades y modelos predictivos, redes neuronales y su aplicación para la resolución de problemas reales.

Inteligencia Artificial, Aprendizaje Automático, Aprendizaje Profundo y Ciencia de Datos – indudablemente, estos términos principales son los más populares hoy en día. Y aunque de alguna manera están relacionados, no son lo mismo. Así que, antes de pasar a la siguiente etapa, es obligatorio diferenciarlos.

  • La Inteligencia Artificial es el ámbito que se centra en la creación de máquinas inteligentes que funcionan y reaccionan como los humanos. El estudio de la IA se remonta a 1936, cuando Alan Turing construyó las primeras máquinas que funcionaban por IA. A pesar de ser una historia bastante larga, hoy en día la IA en la mayoría de las áreas aún no es capaz de reemplazar completamente a un ser humano. Y la competencia de la IA con los humanos en el ajedrez, y la encriptación de datos son dos caras de la misma moneda.
  • El aprendizaje automático es una herramienta de creación para extraer conocimientos de los datos. En el aprendizaje automático los modelos pueden basarse en datos de manera independiente o en etapas.
  • El aprendizaje profundo es la creación de redes neuronales multicapa en áreas en las que se necesita un análisis más avanzado o rápido y en las que el aprendizaje automático tradicional no puede hacer frente. La «profundidad» proporciona más de una capa oculta de redes de neuronas que realizan cálculos matemáticos.
  • Big Data – trabaja con grandes cantidades de datos, a menudo no estructurados. Las características específicas de la esfera son herramientas y sistemas capaces de soportar grandes cargas.
  • La ciencia de datos es la adición de significado a las matrices de datos, la visualización, la recopilación de ideas y la toma de decisiones basadas en estos datos. Los especialistas de campo utilizan algunos métodos de aprendizaje automático y Big Data – computación en nube, herramientas para crear un entorno de desarrollo virtual y mucho más. Las tareas de Data Science se resumen bien en este diagrama de Venn creado por Drew Conway

 

Entonces, ¿qué es Data Scientist? Aquí está todo lo que necesitas saber al respecto:
detección de anomalías, por ejemplo, comportamiento anormal del cliente, fraude;
marketing personalizado – boletines personales por correo electrónico, sistemas de recomendación;

  • Previsiones métricas – indicadores de rendimiento, calidad de las campañas publicitarias y otras actividades;
  • Sistemas de puntuación: procesan grandes cantidades de datos y ayudan a tomar una decisión;
  • interacción básica con el cliente – respuestas estándar en salas de chat, asistentes de voz, clasificación de cartas en carpetas.

Para realizar cualquiera de las tareas anteriores es necesario seguir ciertos pasos:

  • Recolección Busque los canales en los que puede recopilar datos y cómo obtenerlos.
  • Comprobado. Validación, eliminación de anomalías que no afectan al resultado, pero confunden con análisis posteriores.
  • Análisis. El estudio de los datos, la confirmación de los supuestos, las conclusiones.
  • Visualización. Presentación en una forma que sea simple y comprensible para la percepción de una persona – en gráficos, diagramas.
  • Actuar. Tomar decisiones basadas en los datos analizados, por ejemplo, sobre el cambio de la estrategia de marketing, aumentando el presupuesto para cualquier actividad de la empresa.

 

Paso 1. Estadística, Matemáticas, Álgebra Lineal

El conocimiento matemático fundamental es importante para poder analizar los resultados de la aplicación de algoritmos de procesamiento de datos. Hay ejemplos de ingenieros relativamente fuertes en el aprendizaje de máquinas sin este tipo de formación, pero esto es más bien la excepción.

Si la educación universitaria ha dejado muchas lagunas, el libro The Elements of Statistical Learning de Hastie, Tibshirani y Friedman. En este libro, las secciones clásicas del aprendizaje automático se presentan en términos de estadísticas matemáticas con cálculos matemáticos rigurosos. A pesar de la abundancia de formulaciones y pruebas matemáticas, todos los métodos van acompañados de ejemplos prácticos y ejercicios.

El mejor libro en este momento para entender los principios matemáticos que subyacen a las redes neuronales – Deep Learning de Ian Goodfellow. En la introducción, hay una sección entera sobre todas las matemáticas que se necesitan para una buena comprensión de las redes neuronales. Otra buena referencia son lasRedes Neuronales y el Aprendizaje Profundo de Michael Nielsen– esto puede no ser un trabajo fundamental, pero será muy útil para entender los principios básicos.

 

Paso 2. Programación (Python)

De hecho, una gran ventaja sería familiarizarse inmediatamente con los fundamentos de la programación. Pero como se trata de un proceso que requiere mucho tiempo, puede simplificar un poco esta tarea. ¿Cómo? Todo es muy sencillo. Empieza a aprender un lenguaje y enfócate en todos los matices de la programación a través de la sintaxis de ese lenguaje.

Pero aún así, es difícil prescindir de algún tipo de guía general. Por esta razón, recomiendo prestar atención a este artículo:  Software Development Skills for Data Scientists: Increíble artículo sobre importantes habilidades sociales para la práctica de la programación.

Por ejemplo, le aconsejo que preste atención a Python. En primer lugar, es perfecto para que los principiantes aprendan, tiene una sintaxis relativamente simple. En segundo lugar, Python combina la demanda de especialistas y es multifuncional.

 

Paso 3. Aprendizaje automático

El aprendizaje automático permite entrenar a los ordenadores para que actúen de forma independiente, de modo que no tengamos que escribir instrucciones detalladas para realizar determinadas tareas. Por esta razón, el aprendizaje automático es de gran valor para casi cualquier área, pero antes que nada, por supuesto, funcionará bien donde existe la ciencia de datos.

 

Paso 4. Minería de datos y visualización de datos

La minería de datos es un proceso analítico importante diseñado para explorar datos. Es el proceso de analizar patrones ocultos de datos de acuerdo a diferentes perspectivas para su categorización en información útil, la cual es recolectada y ensamblada en áreas comunes, tales como almacenes de datos, para un análisis eficiente, algoritmos de minería de datos, facilitando la toma de decisiones de negocios y otros requerimientos de información para finalmente reducir costos y aumentar los ingresos.

 

Paso 5. Experiencia práctica

Estudiar sólo la teoría no es muy interesante, hay que probar la práctica. El principiante de Data Scientist tiene algunas buenas opciones para esto:

Utiliza Kaggle, un sitio web dedicado a la ciencia de datos. Constantemente organiza concursos de análisis de datos en los que puedes participar. También hay un gran número de conjuntos de datos abiertos que puede analizar y publicar sus resultados. Además, puede ver los guiones publicados por otros participantes (en Kaggle, estos guiones se llaman Kernels) y aprender de la experiencia exitosa.

 

Paso 6. Confirmación de la cualificación

Después de que hayas estudiado todo lo que necesita para analizar los datos y probar con tareas abiertas y concursos, a continuación, empieza a buscar un trabajo. Por supuesto, sólo dirás cosas buenas, pero tienes derecho a dudar de tus palabras. A continuación, se mostrarán, por ejemplo, confirmaciones independientes:

Perfil avanzado en Kaggle. Kaggle tiene un sistema de rangos, puedes progresar desde principiante hasta gran maestro. Para participar con éxito en concursos, la publicación de guiones y debates, puede obtener puntos que le permitan aumentar la puntuación. Además, el sitio muestra en qué competiciones has participado y cuáles son tus resultados.

Los programas de análisis de datos pueden ser publicados en GitHub u otros repositorios abiertos, y todos los interesados pueden familiarizarse con ellos. Incluyendo a los representantes del empleador, que realizarán una entrevista con usted.

 

Ver completo

 

 

 

Los dispositivos activados por voz en España

 

1230130

¿Sabes cómo suena tu marca? La voz, una revolución.  Estado del audio y la voz en España. Madrid: SEIN, 2019

Texto completo

Cada persona tiene una voz única. También las marcas. La irrupción de las interfaces de voz cambia por completo la forma de relacionarnos con nuestros dispositivos y, con ello, la interacción con empresas e instituciones. Saber escuchar y hablar es hoy más importante que nunca.

Las interfaces de voz de los nuevos altavoces inteligentes y otros dispositivos como los teléfonos móviles modifican, y modificarán cada vez más, el ecosistema digital y, por tanto, la forma de solicitar y ofrecer productos y servicios. La voz se convierte en la nueva gran interfaz transversal.

¿Realizar una consulta? Voz. ¿Pedir comida a domicilio? Voz. ¿Pagar la compra? Voz. ¿Por qué no?

Más de la mitad de los internautas españoles, un 50,5%, “habla” con un asistente de voz, ya sea a través de un altavoz inteligente, el móvil o el coche.

El 6,2% de los internautas españoles ya tiene un altavoz inteligente en su hogar solo un año después de su llegada al mercado local.

La mayoría de los usuarios emplean los altavoces para tareas sencillas como escuchar música (90,3% de los usuarios de altavoces inteligentes), consultar el tiempo (84,1%), hacer preguntas generales (70,8%) y conocer las noticias (66,4%). Mientras realizan tareas del hogar (72,6%) y al despertarse o antes de salir de casa (46,9%) son los momentos preferidos para ello

A medida que las máquinas entienden mejor lo que escuchan, más oportunidades tienen las empresas de aprovechar estos nuevos puntos de contacto. Las nuevas formas de interacción exigen dar un paso más. Se trata de crear voces únicas y reconocibles, pero también eficaces y consistentes; que garanticen una experiencia satisfactoria.

Un nuevo informe de la ALA denuncia la fijación abusiva de precios, la denegación y el retraso de las ventas de libros electrónicos a las bibliotecas por parte de los principales editores

 

feat-image

 

BEFORE THE U.S. HOUSE OF REPRESENTATIVES
COMMITTEE ON THE JUDICIARY
COMPETITION IN DIGITAL MARKETS
October 15, 2019

informe

Más sobre  ,  ,

The American Library Association (ALA) denuncia a Amazon, Macmillan en respuesta a una investigación del Congreso sobre la competencia en los mercados digitales, por ello publicó un informe el 24 de octubre explicando que las prácticas actuales de los editores y distribuidores de   y contenido en los mercados digitales limitan la capacidad de las bibliotecas para prestar servicios básicos. El informe fue presentado en respuesta a una investigación del Comité de la Cámara de Representantes de los Estados Unidos sobre el Subcomité Judicial de Derecho de la Competencia, Comercial y Administrativo. Subraya las prácticas de empresas como Amazon y Macmillan Publishers «que amenazan el derecho de los estadounidenses a leer qué y cómo eligen y ponen en peligro otras libertades fundamentales de la Primera Enmienda», según una declaración emitida por la Asociación. El informe insta a los legisladores a frenar lo que ALA denomina prácticas anticompetitivas de los agentes del mercado digital.

 

Materiales de formación para estudiantes de grado

 

alfin

Materiales de formación para estudiantes de grado. Madrid: Rebiun, 2019

Acceder

 

En esta página encontraréis material formativo que capacita en competencia digital a los estudiantes de grado. Podéis adaptar el material a vuestras necesidades y características para ofrecer cursos en línea o de aprendizaje mixto en vuestra universidad.

El objetivo es integrar de forma progresiva la Competencia digital en los diferentes estudios de la universidad como estrategia educativa para el desarrollo de capacidades válidas para toda la vida.

El material se estructura según el Marco de competencia digital para estudiantes de grado: adaptación de DIGCOMP (1) que consta de 5 áreas, con 21 competencias en total. Para cada competencia, se ofrece material autoformativo basado en metodología MOOC:

a) Un vídeo de presentación de un problema relacionado con la competencia a desarrollar que debe resolver un estudiante y que sirva como “gancho” para seguir los materiales formativos
b) Una serie de presentaciones en formato Drive con los conocimientos que un estudiante debe adquirir sobre la competencia. Los aspectos que cada universidad debe personalizar están marcados con resaltado en amarillo
c) Un cuestionario con una serie de preguntas sobre los conocimientos adquiridos

(1) DIGCOMP: A Framework for Developing and Understanding Digital Competence in Europe 

 

 

 

ROR, el ORCID de las instituciones de investigación

 

ror.org_land_rgb

ROR

Organization Registry Community

 

ROR es un proyecto dirigido por la comunidad para desarrollar un identificador abierto, sostenible, utilizable y único para cada organización de investigación en el mundo.

 

La comunidad de investigación académica depende de una serie de identificadores abiertos y sistemas de infraestructura de metadatos que facilitan los procesos de comunicación científica. Los identificadores de contenido (DOI) y los identificadores de contribuyentes (ORCID) son infraestructura fundamental para la comunidad. Pero falta una parte de la infraestructura: actualmente no existe una infraestructura abierta gestionada por las partes interesadas para identificar las organizaciones de investigación y sus metadatos asociados.

ROR significa «Registro de Organizaciones de Investigación», es un proyecto dirigido por la comunidad para desarrollar un identificador abierto, sostenible, utilizable y único para cada organización de investigación en el mundo. Cuando hablamos de ROR, nos referimos alternativamente o, a veces, simultáneamente a un proyecto, una capa de infraestructura, un registro de identificador, un elemento de metadatos y / o una comunidad de personas.

El alcance de ROR es el «caso de uso de afiliación»: descripción adecuada de las relaciones entre contribuyentes, contribuciones, patrocinadores de investigación, editores y empleadores. Usa «afiliación» para describir cualquier relación formal entre un investigador y una organización asociada con los investigadores, incluyendo, entre otros, su empleador, educador, financiador o sociedad académica. Define «organización de investigación» como cualquier organización que realiza, produce o gestiona la investigación.

La visión de un registro de organizaciones de investigación con identificaciones únicas y metadatos asociados consta de las siguientes características requeridas:

  • Identificaciones únicas y persistentes para organizaciones de la comunidad de investigación.
  • Las identificaciones resuelven la información sobre la entidad: legible por humanos y máquinas
  • API abierta / negociación de contenido
  • Facilidad administrativa para corregir, administrar y cruzar datos, incluido el modelo de afirmación y la sincronización con otros proveedores de PID
  • Volcado de datos públicos
  • Conjunto de metadatos comunes y uniformes

 

El registro ROR se lanzó en enero de 2019. Los orígenes de ROR están en la iniciativa OrgID, en el que 17 organizaciones diferentes (que representaban a editoriales, bibliotecas, proveedores de plataformas, servicios de metadatos y otras partes interesadas) trabajaron juntas para definir una visión para un registro de identificadores de organizaciones liderado por la comunidad

Actualmente posee registros de cerca de 100,000 organizaciones, todas con ID de ROR únicas y metadatos asociados. Además del registro en sí, existen herramientas e interfaces para trabajar con datos ROR, como una búsqueda frontal , una API abierta , un reconciliador que funciona con OpenRefine para limpiar datos de afiliación desordenados y más.

 

 

Allí donde se queman los libros, se acaba quemando personas»

 

3b126adf47c34993ea1d5e3564ca9f37

 

«Allí donde se queman los libros, se acaba quemando personas»

Heinrich Heine, poeta y ensayista alemán del siglo XIX.

 

Christian Johann Heinrich Heine es considerado uno de los poetas románticos alemanes más importantes. Nacido en una familia de judíos alemanes asimilados en 1797, el padre de Heine era comerciante y la madre hija de un médico. Después de que el negocio de su padre fracasara, Heine fue enviado a Hamburgo para dedicarse a los negocios, pero pronto se dedicó al derecho. En ese momento, se prohibió a los judíos el acceso a ciertas profesiones, una de las cuales era la docencia universitaria, una profesión a la que Heine se sentía atraído. Se licenció en Derecho en 1825 y se convirtió del judaísmo al protestantismo el mismo año – más tarde describió su conversión como «el billete de admisión a la cultura europea», y pasó gran parte de su vida luchando con los elementos incompatibles de sus identidades alemana y judía.

En 1835, las autoridades alemanas prohibieron su trabajo y el de otros asociados con el movimiento progresista de la joven Alemania; pero Heine continuó comentando sobre la política y la sociedad alemana por el resto de su vida desde su exilio en Francia, regresando a Alemania sólo una vez en secreto.

En 1933, los ejemplares de los libros de Heine estaban entre los muchos que se quemaban en la Opernplatz de Berlín. Para conmemorar el evento, una de las líneas más famosas de la obra de Heine de 1821 Almansor está ahora grabada en el sitio: «Dort, wo man Bücher verbrennt, verbrennt man am Ende auch Menschen.» («Donde queman libros, al final también quemarán a los seres humanos»). En la obra, se hace referencia a la quema del Corán durante la Inquisición española en un esfuerzo por erradicar a los árabes de la Península Ibérica, que había sido un importante centro de la cultura islámica medieval. Más sobre  ,

De:

Julio Alonso Arevalo. Los libros, la lectura y los lectores a través de la literatura y las artes. Buenos Aires : Alfagrama Ediciones, 2019

Disponible en España en Canoa Libros

 

El bibliotecario salmantino Jesús Alonso Regalado ganador del premio I Love My Librarian 2019 de la ALA

 

 

ed38f0111fa1af7eab15b18b4c655d5e

 

Jesús Alonso-Regalado
University Libraries, University at Albany, SUNY
Albany, New York

 

El bibliotecario salmantino Jesús Alonso Regalado, es el ganador de uno de los premios I Love My Librarian otorgado por la Asociación Americana de Bibliotecas (ALA) y votado por los propios usuarios para reconocer las buenas prácticas y el buen hacer de los profesionales de la biblioteca.

 

Jesús Alonso Regalado es bibliotecario temático de Department of History, the Department of Latin American, Caribbean and Latina/o Studies, (LACS) y del Department of Languages, Literatures and Cultures (LLC) en Albany, SUNY de  Estados Unidos. Estudió Filología Hispánica y Documentación en la Facultad de Traducción y Documentación de la Universidad de Salamanca. Sólo 10 bibliotecarios de Estados Unidos reciben hoy  el premio I Love My Librarian Award 2019. Él es reconocido por su liderazgo e impacto en la vida de los estudiantes y profesores.

El Premio I Love My Librarian alienta a los usuarios de la biblioteca a reconocer los logros de bibliotecarios excepcionales públicos, escolares, universitarios, comunitarios o universitarios. Cada año se seleccionan 10 bibliotecarios. Cada bibliotecario recibe un premio en efectivo de 5,000 dólares, una placa y un estipendio de viaje para asistir a una ceremonia de reconocimiento y recepción en su honor,  que este año será en Filadelfia.

Cada nominado debe ser un bibliotecario con una maestría de un programa acreditado por la American Library Association en estudios de bibliotecas e información. Además, los nominados deben estar trabajando actualmente en los Estados Unidos en una biblioteca pública, una biblioteca en un colegio o universidad acreditada de dos o cuatro años o en una escuela acreditada K-12.

Jesús Alonso-Regalado, fue nominado por los profesores Alejandra Bronfman e Ilka Kressner que destacaron que como bibliotecario del Department of History, the Department of Latin American, Caribbean and Latina/o Studies, (LACS) y del Department of Languages, Literatures and Cultures (LLC), participa activamente en los cursos de métodos básicos para estudiantes de pregrado y postgrado y ayuda a todos los profesores a conseguir materiales para la enseñanza y la investigación. También ayuda a todos en la gestión de sus presencias en línea y en el manejo de bases de datos bibliográficas. Anima a los profesores a desarrollar una «lista de deseos» de colecciones de fuentes primarias, y luego busca esas colecciones a medida que se dispone de fondos.

Los nominadores destacaron que Jesús Alonso-Regalado apoya la enseñanza y el aprendizaje a través de la información de alfabetización y su compromiso con el Acceso Abierto. El dedica su tiempo libremente mientras sirve como un salvavidas para los estudiantes que luchan con las grandes cantidades de información digital e impresa disponible en la biblioteca y en línea. A través de su programa «Bibliotecario con un café con leche«, Jesús Alonso-Regalado trabaja con los estudiantes para identificar los recursos de investigación y les enseña un valor incalculable. Jesús trabaja con los estudiantes para identificar los recursos de investigación y les enseña un valor incalculable. habilidades de investigación con un café. También trabaja para asegurar que todos los estudiantes tengan acceso a los libros de texto. y otra información independientemente de su capacidad de pago.

El profesorado también se beneficia de su pasión por crear una conexión entre las fuentes de información y la los usuarios finales. Alonso-Regalado ayuda en los programas de investigación del profesorado a través de sus habilidades de referencia excepcionales y amplios conocimientos de los medios de comunicación en francés y español. También aboga por fondos para de las colecciones, incluyendo los esfuerzos para comprar una variedad de colecciones de películas después de que el la universidad perdió el acceso a más de 5.000 películas tras cancelar su servicio de streaming.

Jesús también es el responsable de custodiar los  diarios del escritor Gonzalo Torrente Ballester (1910-1999) que incluyen reflexiones políticas y que el novelista donó en 1967 cuando ejerció de profesor en la la Universidad de Albany.

 

Radio Planeta Biblioteca a con Jesús Alonso Regalado.

Alfabetización Informacional en bibliotecas universitarias en Estados Unidos. Planeta Biblioteca 2017/12/20

Tendencias de las Bibliotecas universitarias en Estados Unidos

Bibliotecario con un café con leche

 

16d032f3f374f38b9bf83f67faa9181d

Julio Alonso Arévalo con Jesús Alonso Regalado en la 30 Feria del Libro de Guadalajara FIL (México) 2016

 

 

Ciencia de Datos, Aprendizaje automático e Inteligencia Artificial en Bibliotecas

 

machine-learning-and-ai-libraries

 

Padilla, Thomas.  “Responsible Operations: Data Science, Machine Learning, and AI in Libraries”. Ohio: OCLC Research, 2019

Texto completo

El informe tiene por objeto ayudar a trazar el compromiso de la comunidad bibliotecaria con la ciencia de datos, el aprendizaje automático y la inteligencia artificial (IA), y fue desarrollado en asociación con un grupo asesor compuesto por más de 70 bibliotecarios y profesionales de universidades, bibliotecas, museos, archivos y otras organizaciones.

Esta agenda de investigación presenta un conjunto interdependiente de desafíos técnicos, organizativos y sociales que deben abordarse en el camino hacia el compromiso de la biblioteca con la gestión de los datos de investigación, el aprendizaje automático y la inteligencia artificial.

Los desafíos se organizan en siete áreas de investigación:

  • Compromiso con las operaciones responsables
  • Descripción y descubrimiento
  • Métodos y datos compartidos
  • Colecciones de Máquinas-Accionables
  • Desarrollo de la Fuerza Laboral
  • Servicios de ciencias de la información
  • Mantener la colaboración interprofesional e interdisciplinaria

Las organizaciones pueden utilizar el informe para argumentar a favor de abordar los desafíos, y las recomendaciones proporcionan un excelente punto de partida para la discusión y la acción.

 

Metodología de curación de datos de investigación con la herramienta OpenRefine

 

c4176d84c3fed661bc703225e6c685d0

Metodología de limpieza de datos con la herramienta de OpenRefine. Ciudad de México, México: CONACYT, 2016

 

Texto completo

 

En los últimos años la disponibilidad de datos abiertos ha sido de gran ayuda para analistas e investigadores en diversas áreas y ámbitos. Sin embargo, a pesar de la disponibilidad de la información, a menudo esta no es fácilmente utilizable, debido a errores e inconsistencias (hablando en términos técnicos) que posee, o la diversidad de formatos en los cuales se puede encontrar. Es otras palabras, es muy común que los datos encontrados en internet estén sucios o se encuentren en formatos incompatibles. Por lo tanto, antes de que la información sea utilizable, es necesario que sea sometida a un proceso de limpieza. Es posible encontrar diversas herramientas en línea gratuitas o de paga que sirvan al propósito de limpieza de datos, sin embargo, la gran mayoría son poco prácticas.

OpenRefine (anteriormente, Google Refine), es una herramienta de código abierto que puede ayudar a convertir datos sucios en datos limpios y utilizables de manera sencilla. OpenRefine se ejecuta como un servidor web en el ordenador del usuario, de tal manera que no se consumen muchos recursos del mismo. Este utiliza un navegador web como su interfaz, para que los datos se guarden en el ordenador local. Una gran ventaja que posee es que es capaz de manejar volúmenes grandes de información.

 

OpenRefine – Guía básica para curar datos de investigación

 

openrefine

SiB Colombia (2019). OpenRefine – Guía básica, Limpieza de datos sobre biodiversidad. Sistema de Información sobre Biodiversidad de Colombia, Bogotá D.C., Colombia, 22 p.

Texto completo

 

OpenRefine (anteriormente Google Refine) es una herramienta que dispone de un conjunto de características para trabajar con datos tabulares que mejoran la calidad general de un conjunto de datos. Se trata de una aplicación que se ejecuta fuera de tu ordenador como un pequeño servidor web, al que se accede desde un navegador web. Debe pensar en OpenRefine como una aplicación web personal y de acceso privado. Es similar a las aplicaciones de hoja de cálculo ( y puede trabajar con formatos de archivo de hoja de cálculo) , sin embargo , se comporta más como un base de datos.

OpenRefine es utilizado por científicos, investigadores de datos, analistas de negocios, periodistas de datos y administradores de repositorios digitales en una variedad de disciplinas, los cuales necesitan datos utilizables y limpios. A pesar de no ser una herramienta complicada, si el usuario desea obtener el mayor provecho de OpenRefine, tendrá que aprender las principales características y herramientas con las cuales dispone.