Infraestruturas Avançadas para Ciência de Dados

Ano
2

Ano lectivo
2022-2023

Código
02038700

Área Científica
Opcional

Língua de Ensino
Português

Outras Línguas de Ensino
Inglês

Modo de Ensino
Presencial

Duração
Semestral

Créditos ECTS
6.0

Tipo
Opcional

Nível
2º Ciclo - Mestrado

Conhecimentos de Base Recomendados

Proficiência em programação e noções de sistemas distribuídos e tópicos de computação em cloud. Fluência em Inglês nível B2 (idealmente C1), de acordo com o Quadro Europeu Comum de Referência para Línguas.

Métodos de Ensino

Aulas teóricas (T) : apresentações e discussão sobre os tópicos da unidade curricular.

Aulas práticas (PL): aplicação dos conceitos teóricos em exercícios e projetos.

Resultados de Aprendizagem

Os objetivos centrais da disciplina são a abordagem teórica e prática à temática de gestão de serviços e infraestruturas informáticas de alto desempenho numa perspetiva de suporte a processamento massificado de dados, incluindo o planeamento e administração dessas infraestruturas, e a gestão de recursos. A organização curricular do curso pretende guiar os alunos por um percurso conducente à aquisição de competências em áreas que vão da gestão de clusters de virtualização e centros de dados até à orquestração de micro-serviços, numa perspetiva centrada no suporte a solução de processamento de big data (tais como o apache Hadoop e Spark, a título de exemplo).

Nesta disciplina os alunos deverão adquirir competências de compreensão, análise e síntese das matérias abordadas, raciocínio crítico, organização e planeamento, resolução de problemas, trabalho em grupo, aprendizagem autónoma, e aplicação prática de conhecimentos.

Estágio(s)

Não

Programa

1. Infraestruturas de suporte para Ciência de Dados: uma introdução

2. Gestão de infraestruturas de data center: computação, armazenamento e comunicações

3. Sistemas de orquestração de containers (ex. Kubernets, Docker, Vagrant, Mesos)

4. Arquiteturas de big data em tempo real: Kappa e Lambda

5. Transporte escalável e fiável em ambientes distribuídos (ex. Apache Kafka)

6. Soluções para Big Data (ex: Apache Hadoop e Spark)

7. O problema de posicionamento: optimizando a ingestão e o processamento de dados em arquiteturas massivamente distribuídas

8. Tópicos avançados de computação em cloud

9. Orquestração e gestão de recursos: planear para a escalabilidade.

Docente(s) responsável(eis)

Pedro Miguel Naia Neves

Métodos de Avaliação

Avaliação
Trabalho de investigação: 20.0%
Trabalho laboratorial ou de campo: 40.0%
Exame: 40.0%

Bibliografia

- Artigos, recursos disponíveis na Internet e capítulos de livros seleccionados, para cada tópico especializado.

-Neha Narkhede, Gwen Shapira, and Todd Palino, Apache Kafka: the definitive guide (2017)

-Matei Zaharia, Patrick Wendell, Andy Konwinski, Holden Karau, Learning Spark: Lightning-Fast Big Data Analysis (2015)

-Jan Kunigk, Ian Buss (Author), Paul Wilkinson, Lars George, Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale (2019)