Reseña del curso "Introducción a la Ciencia de Datos" de Coursera
La Universidad de Michigan a través de Coursera ofrece la Especialización en Ciencia de Datos Aplicada con Python que consta de 5 cursos. La especialización tiene como objetivo la aplicación de técnicas de análisis estadístico, aprendizaje automático, visualizaciones, análisis de textos y redes sociales con la ayuda de herramientas como pandas, matplotlib, scikit-learn, nltk, y networkx.

El primer curso es Introducción a la Ciencia de Datos con Python dictado por Christopher Brooks. El principal tema de estudio es el módulo pandas y la manipulación de los dataframes. La primera semana es acerca de el uso básico de python y es muy fácil para los que ya están familiarizados con este lenguaje.
La segunda semana se ocupa de las estructuras de datos principales de pandas que son las series y las tablas de datos (dataframes) y cómo consultarlas y seleccionarlas. También se discute la forma de trabajar con datos faltantes.
La tercera semana ahonda más en el tema de las tablas de datos. Se estudia el agrupamiento y la fusión de tablas, la manipulación de series de tiempo y la creación de tablas dinámicas. Los ejercicios de esta semana son particularmente difíciles para el que apenas está aprendiendo pandas. Yo tuve que recurrir a la documentación oficial de pandas para poder completar la tarea de programación. La parte de la documentación que resultó más útil fueron los tutoriales y especialmente los Ejercicios para nuevos usuarios que se pueden encontrar en la documentación de pandas.
La cuarta semana es un proyecto para aplicar todo lo aprendido: limpiar datos, usar de series de tiempo y adicionalmente aplicar de algunas técnicas estadísticas. Aquí se menciona el cuarto paradigma que es el descubrimiento de nuevas relaciones y la creación de nuevo conocimiento debido al uso de la computación intensiva y el análisis de datos.
Como una introducción al módulo pandas de python, este curso es un buen inicio y prepara el camino para temas más avanzados como aprendizaje automático y análisis estadístico. La única advertencia en este curso es que la complejidad del tema escala de forma dramática de la semana 2 a la semana 3, lo que requiere consultar muchas fuentes, tutoriales y documentación.
Los otro cuatro cursos de la especialización son:
- Gráficos, Diagramas y Representación de Datos Aplicados en Python.
- Aprendizaje Automático Aplicado con Python.
- Minería de Textos en Python.
- Análisis Aplicado de Redes Sociales con Python.