Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos
, pero tiene capacidades previas
Departamento
EIO
Este curso le mostrará cómo se pueden aplicar la inferencia y el modelado para desarrollar los enfoques estadísticos que hacen de las encuestas una herramienta eficaz y le mostraremos cómo hacerlo utilizando R. Aprenderá los conceptos necesarios para definir estimaciones y márgenes de error y aprenderá cómo puede utilizarlos para hacer predicciones relativamente bien y también proporcionar una estimación de la precisión de su pronóstico.
Una vez que aprenda esto, podrá comprender dos conceptos que son omnipresentes en la ciencia de datos: intervalos de confianza y valores p.
Esta asignatura provee de los conocimientos y las habilidades básicas necesarias para iniciar el proceso de la Ciencia de Datos, de forma rigurosa, utilizando herramientas de la inferencia estadística tradicional y adaptadas al nuevo contexto de datos masivos sobre cualquier tipología de datos. Esto incluye acceder a los datos, depurarlos y prepararlos para llevar a cabo el análisis de los datos exploratoria y modelización (estadística o aprendizaje automático). De forma relevante, esta materia hace especial énfasis en los conceptos fundamentales y las diferentes etapas del proceso analítico subyacente en cualquier proyecto de Ciencia de Datos.
Profesorado
Responsable
- Lidia Montero Mercadé (lidia.montero@upc.edu)
Otros
- Josep Franquet Fàbregas (josep.franquet@upc.edu)
Horas semanales
Teoría
1.8
Problemas
0
Laboratorio
1.8
Aprendizaje dirigido
0
Aprendizaje autónomo
6.4
Competencias
Uso solvente de los recursos de información
Lengua extranjera
Básicas
Genéricas
Específicas
Objetivos
-
Saber realizar procesos de inferencia basados en los datos y de forma paramétrica tradicional para la toma de decisiones.
Competencias relacionadas: CT5, CE6, CB6, CB9, -
Saber hacer un informe sobre la calidad de los datos y pre-procesado
Competencias relacionadas: CT4, CT5, CG2, CB6, -
Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos
Competencias relacionadas: CT4, CT5, CG2, -
Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal
Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6, -
Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos
Competencias relacionadas: CT4, CT5, CG1, CG2, CE10, CB6, -
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal
Competencias relacionadas: CT5, CG2, CE6, CB6, -
Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria
Competencias relacionadas: CT5, CE6, CB9, -
Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos
Competencias relacionadas: CT4, CT5, CG1, CG2, CE6, CB6, -
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria
Competencias relacionadas: CG1, CE6, CB9, -
Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal
Competencias relacionadas: CT5, CG1, CE10, CB6, -
Validación de los modelos de respuesta politómica nominal y ordinal. Identificación de datos inusuales e influyentes.
Competencias relacionadas: CT5, CG2, CE10, CB6, -
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal
Competencias relacionadas: CT5, CG1, CG2, CE6, CE10, -
Estimación de los parámetros e interpretación de los modelos lineales para contajes
Competencias relacionadas: CT5, CG1, CG2, CE10, CB9, -
Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos
Competencias relacionadas: CT5, CG1, CE6, CB6, -
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para contajes
Competencias relacionadas: CT5, CE6, -
Saber hacer un diseño de experimentos factorial y factorial fraccional
Competencias relacionadas: CT5, CG1, CE6, CB6, CB9,
Contenidos
-
Inferencia clásica versus fisheriana
Inferencia clásica. Función de verosimilitud. Propiedades de MLE. Prueba de razón de verosimilitud.
Procedimientos inferenciales paramétricos vs no paramétricos.
Usar datos históricos para probar hipótesis. Vínculos con la inferencia de Fisher y el bootstrapping. -
Calidad de los datos
Outliers univariados y multivariados.
Datos perdidos. Procedimientos de imputación: deterministas, estocásticos. -
Modelos lineales normales
Descripción del modelo lineal normal. Estimación por mínimos cuadrados. Comparación de modelos. Bondad de ajuste. Diagnóstico: datos influyentes y valores atípicos. Uso de variables explicativas categóricas. Selección de modelo. Predicción.
Estimación de redes neuronales de modelos de regresión lineal. -
Modelos lineales generalizados
Definición de los modelos lineales generalizados. Modelos para datos de respuesta binaria. Modelos para contar datos. Problemas de sobredispersión. Datos de respuesta multinomial. Comparación de modelos. Diagnóstico: datos influyentes y valores atípicos. Comparación y selección de modelos. -
Diseño de experimentos
Diseños experimentales factoriales y factoriales fraccionales.
Técnicas modernas de análisis de datos para diseño experimental
Actividades
Actividad Acto evaluativo
Inferencia clásica versus fisheriana
Saber diferenciar las condiciones de aplicabilidad de los distintos métodos de inferencia y saber escoger la más adecuada al proceso de Ciencia de Datos entre manos. Realizar procesos de inferencia para generar conclusiones sobre las poblaciones. Usar los valores p, los intervalos de confianza y las pruebas por permutaciones para la toma de decisiones y la interpretación de los análisis en un problema de Ciencia de Datos recurrente o puntual.Objetivos: 1
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
12h
Calidad de los datos
Problemas en la calidad de los datos: Se trata de ver en el Caso de Estudio los problemas que presentan o pueden presentar los datos: inconsistencia, redundancia. Datos faltantes. Outliers. Cómo se hace un Informe de calidad de los datos. En que consiste la estandarización de los datos.Objetivos: 2
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
3h
Determinación de las características significativas dirigidas a targets numéricos y categóricos en grupos de individuos
Aplicación de la inferencia estadística para determinar las relaciones entre las variables presentes en una BBDD y una variable de respuesta (numérica o categórica)Objetivos: 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Estimación de los parámetros e interpretación de los modelos lineales de respuesta normal
Perspectiva del modelado por técnicas de regresión lineal: componentes estadísticas implicadas. Roles: variables de respuesta / explicativas. Estimación por mínimos cuadrados. Propiedades de los estimadores. Procesos inferenciales involucrados.Objetivos: 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h
Validación de los modelos de respuesta normal. Identificación de datos inusuales e influyentes. Análisis de los residuos
Elementos que intervienen en la validación del modelado por regresión. Valores influyentes y / o atípicosObjetivos: 5
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta normal
Inferencia sobre los estimadores de los parámetros en modelos lineales de respuesta normal. Intervalos de confianza, regiones de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre las predicciones y cálculos de intervalos de confianza.Objetivos: 6
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h
Estimación de los parámetros e interpretación de los modelos lineales de respuesta binaria
Estimación máximo verosímil. Rol de la función de enlace. Función de enlace empleadas. Propiedades de los estimadores. Procesos inferenciales involucrados.Objetivos: 7
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h
Validación de los modelos de respuesta binaria. Identificación de datos inusuales e influyentes. Tipología de los residuos
Objetivos: 8
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta binaria
Inferencia sobre estimadores de parámetros en modelos lineales de una respuesta binaria. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.Objetivos: 9
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Estimación de los parámetros e interpretación de los modelos lineales de respuesta politómica nominal y ordinal
Estimación de máxima verosimilitud. Modelado nominal versus ordinal. Funciones de enlace utilizadas. Propiedades de los estimadores. Procesos inferenciales involucrados.Objetivos: 10
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h
Validation of nominal and ordinal polytomous response models. Identification of unusual and influential data
Residuos de la deviança, Pearson. Residuos estudentitzats. Indicadores de datos inusuales e influyentes, mediante la extensión de los indicadores empleados en la regresión normal.Objetivos: 11
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos de respuesta politómica nominal y ordinal
Inferencia sobre estimadores de parámetros en modelos lineales de respuesta politómica. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.Objetivos: 12
Contenidos:
Teoría
1h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Estimación de los parámetros e interpretación de los modelos lineales para conteos
Estimación de máxima verosimilitud. Modelado Poisson, binomial negativo. Sobredispersión. Funciones de enlace utilizadas. Procesos inferenciales involucrados.Objetivos: 13
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Validación de los modelos de por conteos. Identificación de datos inusuales e influyentes. Tipología de los residuos. Diagnóstico sobredispersión. Modelos probabilísticos paramétricos
Indicadores de datos inusuales e influyentes. Comprobación de sobredispersión. Cómo superar la dispersión excesiva.Objetivos: 14
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Inferencia de hipótesis sobre parámetros simples y múltiples en modelos para conteos
Inferencia sobre estimadores de parámetros en modelos lineales para conteos. Intervalos de confianza. Contrastes de hipótesis simples, múltiples, combinaciones lineales. Inferencia sobre predicciones y cálculos de intervalos de confianza.Objetivos: 15
Contenidos:
Teoría
0.5h
Problemas
0h
Laboratorio
1h
Aprendizaje dirigido
0h
Aprendizaje autónomo
1h
Teoría y práctica del diseño de experimentos factorial y factorial fraccional
Objetivos: 16
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
4h
Metodología docente
El aprendizaje de la asignatura consta de tres fases diferenciadas:1. Adquisición de los conocimientos específicos mediante el estudio de la bibliografía y del material proporcionado por los profesores.
2. La adquisición de las destrezas en las técnicas específicas de análisis de datos, selección del proceso de modelado estadístico y validación del modelo y
3. Integración de los conocimientos, destrezas y competencias (específicas y transversales) mediante la resolución de casos de estudio reales.
En las clases de Teoría exponen los fundamentos de las metodologías y técnicas propias de la asignatura. Las clases de laboratorio sirven para aprender la utilización de las técnicas específicas para la resolución de problemas, utilizando las herramientas informáticas adecuadas, en este sentido los alumnos deberán primero de repetir un problema solucionado por los profesores y luego solucionar uno similar al primer . Mientras que el Casos de Estudio, resuelto en grupos y en horas básicamente de autoaprendizaje, sirven para poner en práctica los conocimientos, destrezas y competencias en la resolución de casos reales.
Método de evaluación
La evaluación de la asignatura integra las tres fases de aprendizaje descritas: conocimientos, destrezas y competencias.Los conocimientos se evalúan mediante dos exámenes realizados a la mitad (T1, peso 1/3) y en la semana de exámenes finales del curso (T2, peso 2/3). En caso de suspender el examen parcial, el alumno podrá repetirlo como extensión del examen final. (Nota T).
Las destrezas se evalúan a partir de la entrega de 2 prácticas, Así mismo como las competencias transversales. Los bloques 1, 2 y 3 para la primera práctica (P1) y 4 y 5 para la segunda (P2). Cada práctica se debe realizar individualmente o en grupos de máximo 3 personas. Cada práctica se evaluará individualmente por medio de un cuestionario. El promedio de las notas da la nota P.
La Nota Final (NF) se calcula:
Examen Parcial (T1, 1/3) y Examen Final (T2, 2/3).
PRACT 1 (P1) y Práctica 2 (P2)
P: Nota de Prácticas P = (P1 + P2) / 2.
T: Nota Teoría = Max (T2, (T1 + 2T2) / 3).
NF: Nota Final = 0.5T + 0.5P si T > 3.5 sinó NF = T
Bibliografía
Básico
-
Applied regression analysis and generalized linear models
- Fox, John,
SAGE,
2016.
ISBN: 9781452205663
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004150669706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
An R companion to applied regression
- Fox, J.; Weisberg, S,
SAGE Publications, Inc,
2019.
ISBN: 9781544336473
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004175439706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Ggplot2: elegant graphics for data analysis
- Wickham, H,
Springer,
2016.
ISBN: 9783319242774
http://cataleg.upc.edu/record=99100487437720671~S1*cat -
Design and Analysis of Experiments
- Montgomery, D,
Wiley,
2020.
ISBN: 9781119722106
http://cataleg.upc.edu/record=99100491634860671~S1*cat -
Statistics for experimenters : design, innovation, and discovery
- Box, George E. P; Hunter, J. Stuart; Hunter, William Gordon,
John Wiley & Sons,
2005.
ISBN: 9780471718130
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002902039706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementario
-
The Elements of statistical learning : data mining, inference, and prediction
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome,
Springer,
cop. 2009.
ISBN: 9780387952840
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003549679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Probability and statistics with reliability, queuing and computer science applications
- Trivedi, K.S,,
John Wiley and Sons,
2016.
ISBN: 1119285429
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002351769706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Mathematical Statistics with applications
- Mendenhall, W.; Wackerly, D.; Scheaffer, R,
Thomson Brooks/Cole,
2008.
ISBN: 9780495110811
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004874536506711&context=L&vid=34CSUC_UPC:VU1&lang=ca