Infraestruturas Avançadas para Ciência de Dados
2
2021-2022
02038700
Opcional
Português
Inglês
Presencial
Semestral
6.0
Opcional
2º Ciclo - Mestrado
Conhecimentos de Base Recomendados
Proficiência em programação e noções de sistemas distribuídos e tópicos de computação em cloud. Fluência em Inglês nível B2 (idealmente C1), de acordo com o Quadro Europeu Comum de Referência para Línguas.
Métodos de Ensino
Aulas teóricas (T) : apresentações e discussão sobre os tópicos da unidade curricular.
Aulas práticas (PL): aplicação dos conceitos teóricos em exercícios e projetos.
Resultados de Aprendizagem
Os objetivos centrais da disciplina são a abordagem teórica e prática à temática de gestão de serviços e infraestruturas informáticas de alto desempenho numa perspetiva de suporte a processamento massificado de dados, incluindo o planeamento e administração dessas infraestruturas, e a gestão de recursos. A organização curricular do curso pretende guiar os alunos por um percurso conducente à aquisição de competências em áreas que vão da gestão de clusters de virtualização e centros de dados até à orquestração de micro-serviços, numa perspetiva centrada no suporte a solução de processamento de big data (tais como o apache Hadoop e Spark, a título de exemplo).
Nesta disciplina os alunos deverão adquirir competências de compreensão, análise e síntese das matérias abordadas, raciocínio crítico, organização e planeamento, resolução de problemas, trabalho em grupo, aprendizagem autónoma, e aplicação prática de conhecimentos.
Estágio(s)
NãoPrograma
1. Infraestruturas de suporte para Ciência de Dados: uma introdução
2. Gestão de infraestruturas de data center: computação, armazenamento e comunicações
3. Sistemas de orquestração de containers (ex. Kubernets, Docker, Vagrant, Mesos)
4. Arquiteturas de big data em tempo real: Kappa e Lambda
5. Transporte escalável e fiável em ambientes distribuídos (ex. Apache Kafka)
6. Soluções para Big Data (ex: Apache Hadoop e Spark)
7. O problema de posicionamento: optimizando a ingestão e o processamento de dados em arquiteturas massivamente distribuídas
8. Tópicos avançados de computação em cloud
9. Orquestração e gestão de recursos: planear para a escalabilidade.
Docente(s) responsável(eis)
Pedro Miguel Naia Neves
Métodos de Avaliação
Avaliação
Trabalho de investigação: 20.0%
Trabalho laboratorial ou de campo: 40.0%
Exame: 40.0%
Bibliografia
- Artigos, recursos disponíveis na Internet e capítulos de livros seleccionados, para cada tópico especializado.
-Neha Narkhede, Gwen Shapira, and Todd Palino, Apache Kafka: the definitive guide (2017)
-Matei Zaharia, Patrick Wendell, Andy Konwinski, Holden Karau, Learning Spark: Lightning-Fast Big Data Analysis (2015)
-Jan Kunigk, Ian Buss (Author), Paul Wilkinson, Lars George, Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale (2019)