Estatística para Ciência de Dados
2
2021-2022
01016614
Matemática
Português
Presencial
Semestral
6.0
Obrigatória
1º Ciclo - Licenciatura
Conhecimentos de Base Recomendados
Estatística; Álgebra Linear Numérica e Cálculo Científico
Métodos de Ensino
A metodologia de ensino é baseada numa combinação de aulas convencionais onde os temas são motivados e introduzidos, com apoio a diapositivos, software e ilustrações (aulas teóricas) e aulas demonstrativas dos conceitos e da sua implementação computacional (aulas práticas). No decurso do período de aulas, os alunos consolidam os conhecimentos com projetos realizados em grupo onde as ferramentas são aplicadas autonomamente sob supervisão do docente.
Resultados de Aprendizagem
Com a conclusão bem-sucedida desta disciplina, o estudante deve estar preparado para conduzir uma análise estatística em situações envolvendo conjuntos de dados de elevada dimensão, quer em termos do número de variáveis existentes, quer do número de observações recolhidas. Esta disciplina visa transmitir os conceitos, ferramentas e métodos estatísticos multivariados necessários para descrever, modelar e fazer inferência em contextos intensivos em dados. Os métodos estão organizados em monobloco, duplo-bloco e multibloco, consoante a tipologia do problema e dos dados existentes. Os estudantes devem ser também capazes de validar os modelos desenvolvidos e tomar decisões sobre o nível de complexidade a adotar na sua construção. Devem também compreender a natureza diversa das abordagens Frequencista/Bayesiana e dos conceitos de Associação/Causalidade.
Estágio(s)
NãoPrograma
Parte I - Introdução
1. Revisões de álgebra matricial para a análise estatística multivariada.
2. Distribuições de probabilidade multivariadas
3. A perspetiva Bayesiana e Frequencista. Inferência e análise.
4. Causalidade e associação
Parte II – Inferência e Modelação
5. Inferência e teste de hipóteses para amostras multivariadas e de elevada dimensionalidade. O problema do excesso de potência.
6. Modelação e análise mono-bloco (X)
• Análise dos Componentes Principais
• Análise dos Componentes Independentes
7. Modelação e análise duplo-bloco (X->Y)
• Análise de correlação canónica
• Métodos para contornar o problema da colinearidade e da esparsidade
8. Modelação e análise multi-bloco (X, Y,…)
9. Modelos probabilísticos gráficos.
10. Modelação não-linear. Kernalização.
Parte III – Validação e Análise
11. Avaliação de modelos e sua seleção. Bias-variance trade-off. Análise de complexidade.
12. Análise da qualidade de informação gerada num estudo empírico (InfoQ).
Docente(s) responsável(eis)
Marco Paulo Seabra dos Reis
Métodos de Avaliação
Avaliação
Resolução de problemas: 10.0%
Projecto: 40.0%
Exame: 50.0%
Bibliografia
Eriksson, L., Johansson, E., Kettaneh-Wold, N., & Wold, S. (2001). Multi- and Megavariate Data Analysis – Principles and Applications. Umeå (Sweden): Umetrics AB.
Johnson, R. A., & Wichern, D. W. (2018). Applied Multivariate Statistical Analysis (6th ed.). Upper Sadle River, NJ: Prentice Hall.
Hair, J. F., Jr., Anderson, R. E., Tatham, R. L., & Black, W. C. (2018). Multivariate Data Analysis (8th ed.). Upper Saddle River, NJ: Prentice-Hall.
Dillon, W. R., & Goldstein, M. (1984). Multivariate Analysis - Methods and applications. New York: Wiley.
Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). New York: Springer.
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). NY: Wiley.
Montgomery, D. C., & Runger, G. C. (1999). Applied Statistics and Probability for Engineers (2nd ed.). New York: Wiley.