Skip to main content Link Menu Expand (external link) Document Search Copy Copied

Prueba

Objetivo General del Curso

Al finalizar el curso, el estudiante debe ser capaz de comprender, describir, analizar, diseñar, planificar, utilizar y aplicar los conceptos de aprendizaje supervisado, no supervisado, aprendizaje por refuerzo y aprendizaje profundo en la solución de problemas con pequeños y grandes volúmenes de datos en diferentes campos del saber. Todo ello para promover una formación integral y el desarrollo de habilidades críticas, comunicativas, colaborativas e innovadoras.

Objetivos Específicos

Al final del curso, el estudiante estará en capacidad de:

  • Explicar y analizar los fundamentos teóricos de los diferentes modelos asociados a las técnicas de aprendizaje (supervisado, no supervisado, aprendizaje por refuerzo, aprendizaje profundo).
  • Diseñar modelos básicos (desde cero) para técnicas de aprendizaje e implementar modelos complejos con librerías existentes (TensorFlow, Scikit-learn, Keras, PyTorch, etc.) para resolver problemas con datos de diversas áreas como biología, química, ciencias sociales, física, economía, etc.
  • Diferenciar entre modelos de clasificación y predicción.
  • Emplear técnicas de minimización para optimizar modelos.
  • Identificar el sesgo y la varianza en los datos, y analizar cómo afectan y cómo se puede mejorar un modelo.
  • Realizar exploración de datos para identificar patrones y plantear hipótesis que puedan ser rechazadas o aceptadas.
  • Evaluar las métricas de los modelos y el impacto del procesamiento de los datos.
  • Crear y presentar visualizaciones de los datos: preprocesamiento y resultados de un modelo.
  • Construir pipelines de preprocesamiento de datos y entrenamiento de modelos con Python y Airflow para automatizar un modelo.
  • Utilizar herramientas tecnológicas de colaboración en línea (GitHub, Slack, etc.) para apoyar el trabajo en equipo.
  • Buscar literatura y medios audiovisuales especializados usando herramientas contemporáneas.
  • Aplicar ingeniería de prompts en modelos generativos.
  • Entender las operaciones MapReduce en el trabajo con grandes volúmenes de datos.
  • Implementar modelos básicos en grandes volúmenes de datos.

Unidades y Contenido por Unidad

1. Introducción a la Ciencia de Datos

  • Presentación del curso
  • Repaso de pandas
  • Transformación de datos con pandas
  • Ejemplo de extracción y carga de datos
  • Operaciones Map, Filter, Reduce
  • Diseño de prompts
    • Chat GPT, Bing

2. Modelos de Caja Negra

  • Modelos de clasificación y predicción derivados de los datos
  • Concepto de estimador y características
  • Varianza, Bias, curvas de aprendizaje
  • Diseño de prompts
    • Chat GPT, Bing

3. Deducciones e Implementación de Modelos

  • Gradiente descendente y algoritmos de minimización
  • Regresión lineal y multivariada
  • Técnicas de regularización, Sesgo Varianza
  • Regresión Logística
  • Métricas para evaluar modelos
  • Redes Neuronales: Perceptrón desde cero
  • Introducción a Keras
  • Máquinas de soporte vectorial
  • Árboles de decisión
  • Random Forest
  • Métodos de Boosting
  • Métodos de clustering
  • Procesos gaussianos y modelos probabilísticos

4. Elementos Básicos de MLOps

  • Introducción a la construcción de pipelines
  • Despliegue y construcción de API

5. Introducción a las Redes Neuronales

  • Arquitecturas básicas de redes neuronales
  • Concepto de Batch, mini Batch, gradiente descendente estocástico, etc.
  • Redes Neuronales Artificiales con Keras y TensorFlow
  • Análisis de Componentes Principales (PCA)
  • Análisis de Discriminante Lineal (LDA)
  • Physics Informed

6. Introducción a los Modelos Generativos, Ética y Funcionamiento

  • Tokenización, Embedding, Modelos Generativos: Transformer
  • Ética de los Modelos Generativos

Metodología:

El curso se desarrollará de manera teórico-práctica. En la primera sesión de cada semana, de dos horas, el profesor expondrá los conceptos matemáticos y algorítmicos utilizando herramientas tecnológicas, fomentando la participación activa del estudiante mediante actividades y/o laboratorios.

La segunda sesión semanal, también de dos horas, será un laboratorio enfocado en afianzar los conceptos vistos en clase y resolver problemas de diversa índole: ideales, prácticos y multidisciplinarios. Se promoverá tanto el trabajo individual como el colaborativo. Herramientas como modelos generativos y GitHub serán clave para mejorar la productividad en clase. Finalmente, el estudiante desarrollará un proyecto colaborativo que abordará un problema real, ya sea industrial, académico o de investigación.

Medios y recursos didácticos:

  • Laboratorios en Jupyter
  • Simulaciones
  • Internet
  • Github

Formas de interacción y acompañamiento del trabajo independiente:

Para el desarrollo de las sesiones y laboratorios, será indispensable el uso de una sala de computadores. Durante los laboratorios, el docente guiará a los estudiantes en discusiones que fomenten el pensamiento crítico y la comprensión profunda de los conceptos, formulando preguntas que promuevan la reflexión.

Tipos de problemas y datasets trabajados en clase:

  • Datasets de imágenes espectrales
  • Datasets de series temporales de clima
  • Datasets de series de tiempo experimentales en física de partículas
  • Datasets de estructuras atómicas
  • Datasets para clasificar imágenes en astronomía
  • Datasets de biología: secuencias genómicas
  • Datasets de imágenes médicas
  • Datasets de experimentos físicos para aplicar Physics Informed

Evaluación.

La evaluación está diseñada para fomentar en el estudiante el cuestionamiento continuo y retroalimentación rápida. El objetivo de las actividades de clase es poner en práctica lo comunicado por el profesor y los elementos básicos de la teoría, adicionalmente preguntas asociadas a las actividades también serán diseñadas para propiciar la investigación en el aula de clase. Por otro lado, el laboratorio busca la práctica de lo estudiado y comprendido en clase con material autocontenido para generar retroalimentación automática.

Momentos de evaluación

Momentos de Evaluación Porcentajes
Laboratorios: Semana a Semana 60%
Proyecto Final: Desarrollo en los últimos dos meses 40%
Proyecto Final Porcentajes
Desarrollo en los últimos dos meses 40%
- Notebook 20%
- Exposición 10%
- Trabajo escrito, análisis, presentación de resultados etc 10%