Prueba
Objetivo General del Curso
Al finalizar el curso, el estudiante debe ser capaz de comprender, describir, analizar, diseñar, planificar, utilizar y aplicar los conceptos de aprendizaje supervisado, no supervisado, aprendizaje por refuerzo y aprendizaje profundo en la solución de problemas con pequeños y grandes volúmenes de datos en diferentes campos del saber. Todo ello para promover una formación integral y el desarrollo de habilidades críticas, comunicativas, colaborativas e innovadoras.
Objetivos Específicos
Al final del curso, el estudiante estará en capacidad de:
- Explicar y analizar los fundamentos teóricos de los diferentes modelos asociados a las técnicas de aprendizaje (supervisado, no supervisado, aprendizaje por refuerzo, aprendizaje profundo).
- Diseñar modelos básicos (desde cero) para técnicas de aprendizaje e implementar modelos complejos con librerías existentes (TensorFlow, Scikit-learn, Keras, PyTorch, etc.) para resolver problemas con datos de diversas áreas como biología, química, ciencias sociales, física, economía, etc.
- Diferenciar entre modelos de clasificación y predicción.
- Emplear técnicas de minimización para optimizar modelos.
- Identificar el sesgo y la varianza en los datos, y analizar cómo afectan y cómo se puede mejorar un modelo.
- Realizar exploración de datos para identificar patrones y plantear hipótesis que puedan ser rechazadas o aceptadas.
- Evaluar las métricas de los modelos y el impacto del procesamiento de los datos.
- Crear y presentar visualizaciones de los datos: preprocesamiento y resultados de un modelo.
- Construir pipelines de preprocesamiento de datos y entrenamiento de modelos con Python y Airflow para automatizar un modelo.
- Utilizar herramientas tecnológicas de colaboración en línea (GitHub, Slack, etc.) para apoyar el trabajo en equipo.
- Buscar literatura y medios audiovisuales especializados usando herramientas contemporáneas.
- Aplicar ingeniería de prompts en modelos generativos.
- Entender las operaciones MapReduce en el trabajo con grandes volúmenes de datos.
- Implementar modelos básicos en grandes volúmenes de datos.
Unidades y Contenido por Unidad
1. Introducción a la Ciencia de Datos
- Presentación del curso
- Repaso de pandas
- Transformación de datos con pandas
- Ejemplo de extracción y carga de datos
- Operaciones Map, Filter, Reduce
- Diseño de prompts
- Chat GPT, Bing
2. Modelos de Caja Negra
- Modelos de clasificación y predicción derivados de los datos
- Concepto de estimador y características
- Varianza, Bias, curvas de aprendizaje
- Diseño de prompts
- Chat GPT, Bing
3. Deducciones e Implementación de Modelos
- Gradiente descendente y algoritmos de minimización
- Regresión lineal y multivariada
- Técnicas de regularización, Sesgo Varianza
- Regresión Logística
- Métricas para evaluar modelos
- Redes Neuronales: Perceptrón desde cero
- Introducción a Keras
- Máquinas de soporte vectorial
- Árboles de decisión
- Random Forest
- Métodos de Boosting
- Métodos de clustering
- Procesos gaussianos y modelos probabilísticos
4. Elementos Básicos de MLOps
- Introducción a la construcción de pipelines
- Despliegue y construcción de API
5. Introducción a las Redes Neuronales
- Arquitecturas básicas de redes neuronales
- Concepto de Batch, mini Batch, gradiente descendente estocástico, etc.
- Redes Neuronales Artificiales con Keras y TensorFlow
- Análisis de Componentes Principales (PCA)
- Análisis de Discriminante Lineal (LDA)
- Physics Informed
6. Introducción a los Modelos Generativos, Ética y Funcionamiento
- Tokenización, Embedding, Modelos Generativos: Transformer
- Ética de los Modelos Generativos
Metodología:
El curso se desarrollará de manera teórico-práctica. En la primera sesión de cada semana, de dos horas, el profesor expondrá los conceptos matemáticos y algorítmicos utilizando herramientas tecnológicas, fomentando la participación activa del estudiante mediante actividades y/o laboratorios.
La segunda sesión semanal, también de dos horas, será un laboratorio enfocado en afianzar los conceptos vistos en clase y resolver problemas de diversa índole: ideales, prácticos y multidisciplinarios. Se promoverá tanto el trabajo individual como el colaborativo. Herramientas como modelos generativos y GitHub serán clave para mejorar la productividad en clase. Finalmente, el estudiante desarrollará un proyecto colaborativo que abordará un problema real, ya sea industrial, académico o de investigación.
Medios y recursos didácticos:
- Laboratorios en Jupyter
- Simulaciones
- Internet
- Github
Formas de interacción y acompañamiento del trabajo independiente:
Para el desarrollo de las sesiones y laboratorios, será indispensable el uso de una sala de computadores. Durante los laboratorios, el docente guiará a los estudiantes en discusiones que fomenten el pensamiento crítico y la comprensión profunda de los conceptos, formulando preguntas que promuevan la reflexión.
Tipos de problemas y datasets trabajados en clase:
- Datasets de imágenes espectrales
- Datasets de series temporales de clima
- Datasets de series de tiempo experimentales en física de partículas
- Datasets de estructuras atómicas
- Datasets para clasificar imágenes en astronomía
- Datasets de biología: secuencias genómicas
- Datasets de imágenes médicas
- Datasets de experimentos físicos para aplicar Physics Informed
Evaluación.
La evaluación está diseñada para fomentar en el estudiante el cuestionamiento continuo y retroalimentación rápida. El objetivo de las actividades de clase es poner en práctica lo comunicado por el profesor y los elementos básicos de la teoría, adicionalmente preguntas asociadas a las actividades también serán diseñadas para propiciar la investigación en el aula de clase. Por otro lado, el laboratorio busca la práctica de lo estudiado y comprendido en clase con material autocontenido para generar retroalimentación automática.
Momentos de evaluación
Momentos de Evaluación | Porcentajes |
---|---|
Laboratorios: Semana a Semana | 60% |
Proyecto Final: Desarrollo en los últimos dos meses | 40% |
Proyecto Final | Porcentajes |
---|---|
Desarrollo en los últimos dos meses | 40% |
- Notebook | 20% |
- Exposición | 10% |
- Trabajo escrito, análisis, presentación de resultados etc | 10% |