Formação em Infraestrutura de Dados

Judite Cypreste e Patrícia Catandi
06
de
October
de
2023

Este é o terceiro de quatro artigos que exploram como a Prefeitura do Rio de Janeiro está focando em capacitação em upskilling e reskilling, com ênfase em dados, destacando as soluções implementadas até o momento, os desafios enfrentados e as propostas para o futuro.

Formação em Infraestrutura de Dados

Uma das principais iniciativas do Escritório de Dados (ED) é disponibilizar dados importantes para a prefeitura em um data lake que pode ser acessado tanto por servidores quanto pela população. Para atingir esse objetivo, o ED criou uma infraestrutura de captação e tratamento de informações que requer conhecimento em várias tecnologias, como Python, SQL, Prefect, DBT e Git.

Essa formação foi desenvolvida para capacitar mais órgãos a criar suas próprias pipelines para o Datalake da cidade, permitindo que eles ingressem seus próprios dados de maneira autônoma. No entanto, para atingir esse objetivo, é necessário que os participantes compreendam diversos aspectos como:

- Quais ferramentas são utilizadas e como estão integradas.

- A estruturação de projetos no Datalake.

- A estruturação de projetos no Github.

- Padrões de formatação de nomes de projetos, tabelas e colunas.

- Padrões de formatação de variáveis.

- Processos de segurança de dados e senhas.

- Identificação das principais tabelas e como utilizá-las.

Dado que essa infraestrutura é específica do ED, todas as aulas do programa de formação são elaboradas e conduzidas por membros da equipe da própria equipe, o que requer um grande investimento de tempo por parte dos responsáveis por esse projeto.

Público-alvo

O público-alvo desta formação é significativamente diferente dos outros programas de capacitação, uma vez que exige que os participantes tenham pelo menos conhecimentos intermediários em Python e SQL. 

Além disso, devido à carga horária intensiva demandada tanto pelos participantes quanto pelos monitores, esta formação é direcionada apenas a algumas secretarias e órgãos previamente selecionados.

Inscrição e seleção de participantes

O processo de seleção ocorre em quatro etapas:

1. Escolha de órgãos e secretarias específicas com alta necessidade de inserção de dados no Datalake e capacidade de manutenção das pipelines criadas. Essa triagem é essencial para garantir que esses órgãos continuem a inserir dados após a formação e realizem as manutenções necessárias para manter as bases atualizadas.

2. As chefias dos departamentos selecionados indicam funcionários que deverão ter conhecimento em Python, SQL e Git, e que serão os responsáveis por essas bases.

3. Após a indicação, o ED disponibiliza um desafio técnico que é minuciosamente avaliado para garantir que o candidato preencha os requisitos básicos para participação na formação.

Formato

Cada aluno é responsável pela criação de uma pipeline de dados que é definida no início do curso. As aulas têm uma duração de cerca de quatro horas e consistem em uma parte teórica e uma atividade prática obrigatória realizada pelos alunos. Essa atividade prática serve para que o aluno avance na criação da pipeline definida por ele mesmo. Posteriormente, as aulas são disponibilizadas em nosso canal do YouTube para que os alunos possam revisar tópicos e para que outras pessoas tenham acesso ao conteúdo. 

Ao longo de toda a formação, os monitores acompanham de perto o desenvolvimento das pipelines, oferecendo orientações sobre melhorias e ajudando a resolver problemas.

Estruturação Teórica

Os conteúdos da formação estão focados em demonstrar como criar uma pipeline de dados usando as principais tecnologias selecionadas para compor a infraestrutura do ED. 

As aulas são organizadas da seguinte forma:

Essa estruturação teórica visa capacitar os participantes a criar e manter suas próprias pipelines de dados, permitindo que eles contribuam ativamente para a infraestrutura de dados do ED e, assim, tornem-se agentes de capacitação para suas respectivas secretarias e órgãos.

Esperamos que este texto ajude a entender o enfoque da Prefeitura do Rio de Janeiro na capacitação em infraestrutura de dados e como ela está capacitando profissionais para gerenciar de forma eficaz os dados municipais.