Machine Learning for Big Data

Profesor Jon Ander Gómez Adrián

»Más info en CFP

Fecha y horario de impartición

Aula Anita Borg edificio 1G, ETSINF – UPV, días 28, 30 de junio y 4, 6 de de julio, de 15:30 a 20:30 h.

Descripción del curso

La interacción de las personas en las redes sociales y el uso de las tecnologías de la información y las comunicaciones (TIC) no cesan de generan grandes volúmenes de datos de los que es necesario extraer información.

El análisis de estos grandes volúmenes de datos requiere de técnicas estadísticas y de reconocimiento de patrones para crear modelos descriptivos y/o predictivos. La intersección de las técnicas estadísticas con el reconocimiento de patrones es parte fundamental del aprendizaje automático (Machine Learning).

Actualmente, las técnicas de Machine Learning están aplicándose al análisis de datos para extraer información de manera eficiente y lo más precisa posible.

Este curso pretende ser una introducción a las técnicas más relevantes de Machine Learning y mostrar ejemplos de aplicación de estas técnicas. Que sirva para conocer qué técnicas existen, en qué se fundamentan y sobre qué tipos de problemas pueden aplicarse.

Este curso está pensado para recién titulados y profesionales que necesiten de estas técnicas en su trabajo.

El enfoque será teórico-práctico y se hará uso del lenguaje de programación Python y del toolkit Scikit Learn. Se recomienda a los alumnos instalarse ANACONDA (https://www.continuum.io/) en su plataforma habitual. ANACONDA incluye Python, Scikit-Learn y Matplotlib. Tres de las herramientas que se utilizarán en prácticas.

Conocimientos previos necesarios

Necesarios: Programación de ordenadores.
Recomendados: Python, nociones de teoría de la probabilidad.

Acción formativa dirigida a

Recién titulados que no quieran cursar un máster específico sobre técnicas de aprendizaje automático pero consideren interesante conocer estas técnicas.
Profesionales del sector de las TIC que necesitan ampliar conocimientos en el ámbito del análisis datos, especialmente de grandes volúmenes de datos, donde estas técnicas les permitirán crear procesos automatizados de extracción de información a partir de los datos.

Temas a desarrollar

Módulo 1-Introducción a Machine Learning y el Reconocimiento de Patrones–2 horas.
-Práctica sobre un ejemplo de regresión lineal para introducir Numpy y Scikit-Learn.

Módulo 2-Repaso teoría de la probabilidad y su aplicación a un ejemplo mediante un clasificador del tipo Naive Bayes–2 horas.
-Práctica utilizando un clasificador Naive Bayes sobre un par de datasets.

Módulo 3-Repaso distribución de probabilidad Normal o de Gauss.
Estimación por Máxima Verosimilitud–2 horas.
-Práctica aplicando la estimación por máxima verosimilitud para generar un clasificador basado en Gaussians.

Módulo 4-Técnicas de aprendizaje no supervisado–3 horas.
-Gaussian Mixture Models.
-Algoritmo K-Means.
-Kernel Density Estimation.
-K-Nearest Neighbours
-Práctica aplicando estas técnicas sobre los mismos datasets de las prácticas anteriores para ver qué técnicas son más idóneas según qué problema necesitamos resolver.

Módulo 5-Funciones Discriminantes Lineales–2 horas.
-Práctica de aplicación de clasificadores basados en discriminantes lineales.

Módulo 6 -Support Vector Machines–2 horas.
-Práctica para estudiar la idoneidad de las SVM a distintos datasets y el efecto de sus parámetros de ajuste.

Módulo 7-Redes Neuronales Artificiales. Algoritmo de entrenamiento Backpropagation–3 horas.
-Práctica aplicando redes neuronales sobre algunos de los datasets ya utilizados.

Módulo 8-Deep Learning (Redes Neuronales de alta complejidad)–2 horas.
-Autoencoders.
-Práctica para conocer las técnicas de entrenamiento de estas redes y las fases en qué aplicarlas.

Módulo 9 -Extremely Randomized Trees–2 horas.
-Práctica para estudiar la aplicación de esta técnica simple en apariencia pero potente en sus resultados.

Objetivos

1. Que el alumno descubra el potencial de las técnicas de Machine Learning para el análisis de datos y sobre todo para extracción de información a partir de los datos. Es decir, sacar valor a los datos.
2. Presentar con casos prácticas las técnicas de Machine Learning que actualmente se utilizan en soluciones de análisis de datos, tanto en Big Data como en Data Science en general.
3. Dar a conocer una de las herramientas más fáciles de utilizar para aplicar Machine Learning a problemas reales de una manera sencilla, como es Python, Numpy y Scikit-Learn.

Duración: 20 horas presenciales.

Precio

  • 200 €
  • 150,00 € – Alumno UPV
  • 150,00 € – Personal UPV
  • 150,00 € – Alumni UPV
  • 150,00 € – Antinguo Alumno ETSINF
  • 150,00 € – Desempleado
  • 150,00 € – Colegiados COIICV
  • 200,00 € – Público en general