La Universidad de Michigan a través de Coursera ofrece la Especialización en Ciencia de Datos Aplicada con Python que consta de 5 cursos. La especialización tiene como objetivo la aplicación de técnicas de análisis estadístico, aprendizaje automático, visualizaciones, análisis de textos y redes sociales con la ayuda de herramientas como pandas, matplotlib, scikit-learn, nltk, y networkx.

data science coursera

El primer curso es Introducción a la Ciencia de Datos con Python dictado por Christopher Brooks. El principal tema de estudio es el módulo pandas y la manipulación de los dataframes. La primera semana es acerca de el uso básico de python y es muy fácil para los que ya están familiarizados con este lenguaje.

La segunda semana se ocupa de las estructuras de datos principales de pandas que son las series y las tablas de datos (dataframes) y cómo consultarlas y seleccionarlas. También se discute la forma de trabajar con datos faltantes.

La tercera semana ahonda más en el tema de las tablas de datos. Se estudia el agrupamiento y la fusión de tablas, la manipulación de series de tiempo y la creación de tablas dinámicas. Los ejercicios de esta semana son particularmente difíciles para el que apenas está aprendiendo pandas. Yo tuve que recurrir a la documentación oficial de pandas para poder completar la tarea de programación. La parte de la documentación que resultó más útil fueron los tutoriales y especialmente los Ejercicios para nuevos usuarios que se pueden encontrar en la documentación de pandas.

La cuarta semana es un proyecto para aplicar todo lo aprendido: limpiar datos, usar de series de tiempo y adicionalmente aplicar de algunas técnicas estadísticas. Aquí se menciona el cuarto paradigma que es el descubrimiento de nuevas relaciones y la creación de nuevo conocimiento debido al uso de la computación intensiva y el análisis de datos.

Como una introducción al módulo pandas de python, este curso es un buen inicio y prepara el camino para temas más avanzados como aprendizaje automático y análisis estadístico. La única advertencia en este curso es que la complejidad del tema escala de forma dramática de la semana 2 a la semana 3, lo que requiere consultar muchas fuentes, tutoriales y documentación.

Los otro cuatro cursos de la especialización son:

  • Gráficos, Diagramas y Representación de Datos Aplicados en Python.
  • Aprendizaje Automático Aplicado con Python.
  • Minería de Textos en Python.
  • Análisis Aplicado de Redes Sociales con Python.