Prueba

Objetivo General del Curso

Al finalizar el curso, el estudiante debe ser capaz de comprender, describir, analizar, diseñar, planificar, utilizar y aplicar los conceptos de aprendizaje supervisado, no supervisado, aprendizaje por refuerzo y aprendizaje profundo en la solución de problemas con pequeños y grandes volúmenes de datos en diferentes campos del saber. Todo ello para promover una formación integral y el desarrollo de habilidades críticas, comunicativas, colaborativas e innovadoras.

Objetivos Específicos

Al final del curso, el estudiante estará en capacidad de:

Explicar y analizar los fundamentos teóricos de los diferentes modelos asociados a las técnicas de aprendizaje (supervisado, no supervisado, aprendizaje por refuerzo, aprendizaje profundo).
Diseñar modelos básicos (desde cero) para técnicas de aprendizaje e implementar modelos complejos con librerías existentes (TensorFlow, Scikit-learn, Keras, PyTorch, etc.) para resolver problemas con datos de diversas áreas como biología, química, ciencias sociales, física, economía, etc.
Diferenciar entre modelos de clasificación y predicción.
Emplear técnicas de minimización para optimizar modelos.
Identificar el sesgo y la varianza en los datos, y analizar cómo afectan y cómo se puede mejorar un modelo.
Realizar exploración de datos para identificar patrones y plantear hipótesis que puedan ser rechazadas o aceptadas.
Evaluar las métricas de los modelos y el impacto del procesamiento de los datos.
Crear y presentar visualizaciones de los datos: preprocesamiento y resultados de un modelo.
Construir pipelines de preprocesamiento de datos y entrenamiento de modelos con Python y Airflow para automatizar un modelo.
Utilizar herramientas tecnológicas de colaboración en línea (GitHub, Slack, etc.) para apoyar el trabajo en equipo.
Buscar literatura y medios audiovisuales especializados usando herramientas contemporáneas.
Aplicar ingeniería de prompts en modelos generativos.
Entender las operaciones MapReduce en el trabajo con grandes volúmenes de datos.
Implementar modelos básicos en grandes volúmenes de datos.

Unidades y Contenido por Unidad

1. Introducción a la Ciencia de Datos

Presentación del curso
Repaso de pandas
Transformación de datos con pandas
Ejemplo de extracción y carga de datos
Operaciones Map, Filter, Reduce
Diseño de prompts
- Chat GPT, Bing

2. Modelos de Caja Negra

Modelos de clasificación y predicción derivados de los datos
Concepto de estimador y características
Varianza, Bias, curvas de aprendizaje
Diseño de prompts
- Chat GPT, Bing

3. Deducciones e Implementación de Modelos

Gradiente descendente y algoritmos de minimización
Regresión lineal y multivariada
Técnicas de regularización, Sesgo Varianza
Regresión Logística
Métricas para evaluar modelos
Redes Neuronales: Perceptrón desde cero
Introducción a Keras
Máquinas de soporte vectorial
Árboles de decisión
Random Forest
Métodos de Boosting
Métodos de clustering
Procesos gaussianos y modelos probabilísticos

4. Elementos Básicos de MLOps

Introducción a la construcción de pipelines
Despliegue y construcción de API

5. Introducción a las Redes Neuronales

Arquitecturas básicas de redes neuronales
Concepto de Batch, mini Batch, gradiente descendente estocástico, etc.
Redes Neuronales Artificiales con Keras y TensorFlow
Análisis de Componentes Principales (PCA)
Análisis de Discriminante Lineal (LDA)
Physics Informed

6. Introducción a los Modelos Generativos, Ética y Funcionamiento

Tokenización, Embedding, Modelos Generativos: Transformer
Ética de los Modelos Generativos

Metodología:

El curso se desarrollará de manera teórico-práctica. En la primera sesión de cada semana, de dos horas, el profesor expondrá los conceptos matemáticos y algorítmicos utilizando herramientas tecnológicas, fomentando la participación activa del estudiante mediante actividades y/o laboratorios.

La segunda sesión semanal, también de dos horas, será un laboratorio enfocado en afianzar los conceptos vistos en clase y resolver problemas de diversa índole: ideales, prácticos y multidisciplinarios. Se promoverá tanto el trabajo individual como el colaborativo. Herramientas como modelos generativos y GitHub serán clave para mejorar la productividad en clase. Finalmente, el estudiante desarrollará un proyecto colaborativo que abordará un problema real, ya sea industrial, académico o de investigación.

Medios y recursos didácticos:

Laboratorios en Jupyter
Simulaciones
Internet
Github

Formas de interacción y acompañamiento del trabajo independiente:

Para el desarrollo de las sesiones y laboratorios, será indispensable el uso de una sala de computadores. Durante los laboratorios, el docente guiará a los estudiantes en discusiones que fomenten el pensamiento crítico y la comprensión profunda de los conceptos, formulando preguntas que promuevan la reflexión.

Tipos de problemas y datasets trabajados en clase:

Datasets de imágenes espectrales
Datasets de series temporales de clima
Datasets de series de tiempo experimentales en física de partículas
Datasets de estructuras atómicas
Datasets para clasificar imágenes en astronomía
Datasets de biología: secuencias genómicas
Datasets de imágenes médicas
Datasets de experimentos físicos para aplicar Physics Informed

Evaluación.

La evaluación está diseñada para fomentar en el estudiante el cuestionamiento continuo y retroalimentación rápida. El objetivo de las actividades de clase es poner en práctica lo comunicado por el profesor y los elementos básicos de la teoría, adicionalmente preguntas asociadas a las actividades también serán diseñadas para propiciar la investigación en el aula de clase. Por otro lado, el laboratorio busca la práctica de lo estudiado y comprendido en clase con material autocontenido para generar retroalimentación automática.

Momentos de evaluación

Momentos de Evaluación	Porcentajes
Laboratorios: Semana a Semana	60%
Proyecto Final: Desarrollo en los últimos dos meses	40%

Proyecto Final	Porcentajes
Desarrollo en los últimos dos meses	40%
- Notebook	20%
- Exposición	10%
- Trabajo escrito, análisis, presentación de resultados etc	10%