Estatística para Ciência de Dados

Ano
2
Ano lectivo
2021-2022
Código
01016614
Área Científica
Matemática
Língua de Ensino
Português
Modo de Ensino
Presencial
Duração
Semestral
Créditos ECTS
6.0
Tipo
Obrigatória
Nível
1º Ciclo - Licenciatura

Conhecimentos de Base Recomendados

Estatística; Álgebra Linear Numérica e Cálculo Científico

Métodos de Ensino

A metodologia de ensino é baseada numa combinação de aulas convencionais onde os temas são motivados e introduzidos, com apoio a diapositivos, software e ilustrações (aulas teóricas) e aulas demonstrativas dos conceitos e da sua implementação computacional (aulas práticas). No decurso do período de aulas, os alunos consolidam os conhecimentos com projetos realizados em grupo onde as ferramentas são aplicadas autonomamente sob supervisão do docente.

Resultados de Aprendizagem

Com a conclusão bem-sucedida desta disciplina, o estudante deve estar preparado para conduzir uma análise estatística em situações envolvendo conjuntos de dados de elevada dimensão, quer em termos do número de variáveis existentes, quer do número de observações recolhidas. Esta disciplina visa transmitir os conceitos, ferramentas e métodos estatísticos multivariados necessários para descrever, modelar e fazer inferência em contextos intensivos em dados. Os métodos estão organizados em monobloco, duplo-bloco e multibloco, consoante a tipologia do problema e dos dados existentes. Os estudantes devem ser também capazes de validar os modelos desenvolvidos e tomar decisões sobre o nível de complexidade a adotar na sua construção. Devem também compreender a natureza diversa das abordagens Frequencista/Bayesiana e dos conceitos de Associação/Causalidade.

Estágio(s)

Não

Programa

Parte I - Introdução
1. Revisões de álgebra matricial para a análise estatística multivariada.
2. Distribuições de probabilidade multivariadas
3. A perspetiva Bayesiana e Frequencista. Inferência e análise.
4. Causalidade e associação

Parte II – Inferência e Modelação
5. Inferência e teste de hipóteses para amostras multivariadas e de elevada dimensionalidade. O problema do excesso de potência.
6. Modelação e análise mono-bloco (X)
• Análise dos Componentes Principais
• Análise dos Componentes Independentes
7. Modelação e análise duplo-bloco (X->Y)
• Análise de correlação canónica
• Métodos para contornar o problema da colinearidade e da esparsidade
8. Modelação e análise multi-bloco (X, Y,…)
9. Modelos probabilísticos gráficos.
10. Modelação não-linear. Kernalização.

Parte III – Validação e Análise
11. Avaliação de modelos e sua seleção. Bias-variance trade-off. Análise de complexidade.
12. Análise da qualidade de informação gerada num estudo empírico (InfoQ).

Docente(s) responsável(eis)

Marco Paulo Seabra dos Reis

Métodos de Avaliação

Avaliação
Resolução de problemas: 10.0%
Projecto: 40.0%
Exame: 50.0%

Bibliografia

Eriksson, L., Johansson, E., Kettaneh-Wold, N., & Wold, S. (2001). Multi- and Megavariate Data Analysis – Principles and Applications. Umeå (Sweden): Umetrics AB.

Johnson, R. A., & Wichern, D. W. (2018). Applied Multivariate Statistical Analysis (6th ed.). Upper Sadle River, NJ: Prentice Hall.

Hair, J. F., Jr., Anderson, R. E., Tatham, R. L., & Black, W. C. (2018). Multivariate Data Analysis (8th ed.). Upper Saddle River, NJ: Prentice-Hall.

Dillon, W. R., & Goldstein, M. (1984). Multivariate Analysis - Methods and applications. New York: Wiley.

Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). New York: Springer.

Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). NY: Wiley.

Montgomery, D. C., & Runger, G. C. (1999). Applied Statistics and Probability for Engineers (2nd ed.). New York: Wiley.