Guía para principiantes sobre la ciencia de datos

 

787de5aae7b9a5ced13c1219f7fccea2

 

A Beginner’s Guide To Data Science: Start your self-learning journey into the world of data right now. 

Oleksii Kharkovyna

Ver completo

Cuando Aristóteles y Platón estaban debatiendo apasionadamente si el mundo es material o ideal, ni siquiera adivinaron el poder de los datos. En la actualidad, los datos dominan el mundo y la Ciencia de los Datos va ganando terreno, aceptando los retos del tiempo y ofreciendo nuevas soluciones algorítmicas. No es de extrañar, ya que cada vez resulta más atractivo no sólo observar todos esos movimientos, sino también formar parte de ellos.

Sin embargo,casi todos somos unos recién llegados a esta materia, ¿Eso significa que tenemos  un largo camino por recorrer para ser un experto? ¿Es necesario pasar por toda una serie de intentos y fracasos antes de alcanzar la confianza total en este trabajo? Probablemente, sí. Pero con este post, se trata de facilitar esta tarea. La forma más efectiva de aprender con los pasos más necesarios.

Paso 0. ¿Qué es qué?

Bueno, en términos generales, la ciencia de datos no es un ámbito determinado o único, es como una combinación de varias disciplinas que se centran en el análisis de datos y la búsqueda de las mejores soluciones basadas en ellos. Inicialmente, esas tareas eran realizadas por especialistas en matemáticas o estadística, pero luego los expertos en datos comenzaron a utilizar el aprendizaje automático y la inteligencia artificial, lo que agregó la optimización y la informática como un método para analizar los datos. Este nuevo enfoque resultó ser mucho más rápido y eficaz, por lo que fue muy popular.

Por lo tanto, la popularidad de la ciencia de datos radica en el hecho de que abarca la recopilación de grandes conjuntos de datos estructurados y no estructurados y su conversión a un formato legible por el ser humano, incluyendo la visualización, el trabajo con métodos estadísticos y analíticos – aprendizaje automático y profundo, análisis de probabilidades y modelos predictivos, redes neuronales y su aplicación para la resolución de problemas reales.

Inteligencia Artificial, Aprendizaje Automático, Aprendizaje Profundo y Ciencia de Datos – indudablemente, estos términos principales son los más populares hoy en día. Y aunque de alguna manera están relacionados, no son lo mismo. Así que, antes de pasar a la siguiente etapa, es obligatorio diferenciarlos.

  • La Inteligencia Artificial es el ámbito que se centra en la creación de máquinas inteligentes que funcionan y reaccionan como los humanos. El estudio de la IA se remonta a 1936, cuando Alan Turing construyó las primeras máquinas que funcionaban por IA. A pesar de ser una historia bastante larga, hoy en día la IA en la mayoría de las áreas aún no es capaz de reemplazar completamente a un ser humano. Y la competencia de la IA con los humanos en el ajedrez, y la encriptación de datos son dos caras de la misma moneda.
  • El aprendizaje automático es una herramienta de creación para extraer conocimientos de los datos. En el aprendizaje automático los modelos pueden basarse en datos de manera independiente o en etapas.
  • El aprendizaje profundo es la creación de redes neuronales multicapa en áreas en las que se necesita un análisis más avanzado o rápido y en las que el aprendizaje automático tradicional no puede hacer frente. La “profundidad” proporciona más de una capa oculta de redes de neuronas que realizan cálculos matemáticos.
  • Big Data – trabaja con grandes cantidades de datos, a menudo no estructurados. Las características específicas de la esfera son herramientas y sistemas capaces de soportar grandes cargas.
  • La ciencia de datos es la adición de significado a las matrices de datos, la visualización, la recopilación de ideas y la toma de decisiones basadas en estos datos. Los especialistas de campo utilizan algunos métodos de aprendizaje automático y Big Data – computación en nube, herramientas para crear un entorno de desarrollo virtual y mucho más. Las tareas de Data Science se resumen bien en este diagrama de Venn creado por Drew Conway

 

Entonces, ¿qué es Data Scientist? Aquí está todo lo que necesitas saber al respecto:
detección de anomalías, por ejemplo, comportamiento anormal del cliente, fraude;
marketing personalizado – boletines personales por correo electrónico, sistemas de recomendación;

  • Previsiones métricas – indicadores de rendimiento, calidad de las campañas publicitarias y otras actividades;
  • Sistemas de puntuación: procesan grandes cantidades de datos y ayudan a tomar una decisión;
  • interacción básica con el cliente – respuestas estándar en salas de chat, asistentes de voz, clasificación de cartas en carpetas.

Para realizar cualquiera de las tareas anteriores es necesario seguir ciertos pasos:

  • Recolección Busque los canales en los que puede recopilar datos y cómo obtenerlos.
  • Comprobado. Validación, eliminación de anomalías que no afectan al resultado, pero confunden con análisis posteriores.
  • Análisis. El estudio de los datos, la confirmación de los supuestos, las conclusiones.
  • Visualización. Presentación en una forma que sea simple y comprensible para la percepción de una persona – en gráficos, diagramas.
  • Actuar. Tomar decisiones basadas en los datos analizados, por ejemplo, sobre el cambio de la estrategia de marketing, aumentando el presupuesto para cualquier actividad de la empresa.

 

Paso 1. Estadística, Matemáticas, Álgebra Lineal

El conocimiento matemático fundamental es importante para poder analizar los resultados de la aplicación de algoritmos de procesamiento de datos. Hay ejemplos de ingenieros relativamente fuertes en el aprendizaje de máquinas sin este tipo de formación, pero esto es más bien la excepción.

Si la educación universitaria ha dejado muchas lagunas, el libro The Elements of Statistical Learning de Hastie, Tibshirani y Friedman. En este libro, las secciones clásicas del aprendizaje automático se presentan en términos de estadísticas matemáticas con cálculos matemáticos rigurosos. A pesar de la abundancia de formulaciones y pruebas matemáticas, todos los métodos van acompañados de ejemplos prácticos y ejercicios.

El mejor libro en este momento para entender los principios matemáticos que subyacen a las redes neuronales – Deep Learning de Ian Goodfellow. En la introducción, hay una sección entera sobre todas las matemáticas que se necesitan para una buena comprensión de las redes neuronales. Otra buena referencia son lasRedes Neuronales y el Aprendizaje Profundo de Michael Nielsen– esto puede no ser un trabajo fundamental, pero será muy útil para entender los principios básicos.

 

Paso 2. Programación (Python)

De hecho, una gran ventaja sería familiarizarse inmediatamente con los fundamentos de la programación. Pero como se trata de un proceso que requiere mucho tiempo, puede simplificar un poco esta tarea. ¿Cómo? Todo es muy sencillo. Empieza a aprender un lenguaje y enfócate en todos los matices de la programación a través de la sintaxis de ese lenguaje.

Pero aún así, es difícil prescindir de algún tipo de guía general. Por esta razón, recomiendo prestar atención a este artículo:  Software Development Skills for Data Scientists: Increíble artículo sobre importantes habilidades sociales para la práctica de la programación.

Por ejemplo, le aconsejo que preste atención a Python. En primer lugar, es perfecto para que los principiantes aprendan, tiene una sintaxis relativamente simple. En segundo lugar, Python combina la demanda de especialistas y es multifuncional.

 

Paso 3. Aprendizaje automático

El aprendizaje automático permite entrenar a los ordenadores para que actúen de forma independiente, de modo que no tengamos que escribir instrucciones detalladas para realizar determinadas tareas. Por esta razón, el aprendizaje automático es de gran valor para casi cualquier área, pero antes que nada, por supuesto, funcionará bien donde existe la ciencia de datos.

 

Paso 4. Minería de datos y visualización de datos

La minería de datos es un proceso analítico importante diseñado para explorar datos. Es el proceso de analizar patrones ocultos de datos de acuerdo a diferentes perspectivas para su categorización en información útil, la cual es recolectada y ensamblada en áreas comunes, tales como almacenes de datos, para un análisis eficiente, algoritmos de minería de datos, facilitando la toma de decisiones de negocios y otros requerimientos de información para finalmente reducir costos y aumentar los ingresos.

 

Paso 5. Experiencia práctica

Estudiar sólo la teoría no es muy interesante, hay que probar la práctica. El principiante de Data Scientist tiene algunas buenas opciones para esto:

Utiliza Kaggle, un sitio web dedicado a la ciencia de datos. Constantemente organiza concursos de análisis de datos en los que puedes participar. También hay un gran número de conjuntos de datos abiertos que puede analizar y publicar sus resultados. Además, puede ver los guiones publicados por otros participantes (en Kaggle, estos guiones se llaman Kernels) y aprender de la experiencia exitosa.

 

Paso 6. Confirmación de la cualificación

Después de que hayas estudiado todo lo que necesita para analizar los datos y probar con tareas abiertas y concursos, a continuación, empieza a buscar un trabajo. Por supuesto, sólo dirás cosas buenas, pero tienes derecho a dudar de tus palabras. A continuación, se mostrarán, por ejemplo, confirmaciones independientes:

Perfil avanzado en Kaggle. Kaggle tiene un sistema de rangos, puedes progresar desde principiante hasta gran maestro. Para participar con éxito en concursos, la publicación de guiones y debates, puede obtener puntos que le permitan aumentar la puntuación. Además, el sitio muestra en qué competiciones has participado y cuáles son tus resultados.

Los programas de análisis de datos pueden ser publicados en GitHub u otros repositorios abiertos, y todos los interesados pueden familiarizarse con ellos. Incluyendo a los representantes del empleador, que realizarán una entrevista con usted.

 

Ver completo