Este é o terceiro de quatro artigos que exploram como a Prefeitura do Rio de Janeiro está focando em capacitação em upskilling e reskilling, com ênfase em dados, destacando as soluções implementadas até o momento, os desafios enfrentados e as propostas para o futuro.
Formação em Infraestrutura de Dados
Uma das principais iniciativas do Escritório de Dados (ED) é disponibilizar dados importantes para a prefeitura em um data lake que pode ser acessado tanto por servidores quanto pela população. Para atingir esse objetivo, o ED criou uma infraestrutura de captação e tratamento de informações que requer conhecimento em várias tecnologias, como Python, SQL, Prefect, DBT e Git.
Essa formação foi desenvolvida para capacitar mais órgãos a criar suas próprias pipelines para o Datalake da cidade, permitindo que eles ingressem seus próprios dados de maneira autônoma. No entanto, para atingir esse objetivo, é necessário que os participantes compreendam diversos aspectos como:
- Quais ferramentas são utilizadas e como estão integradas.
- A estruturação de projetos no Datalake.
- A estruturação de projetos no Github.
- Padrões de formatação de nomes de projetos, tabelas e colunas.
- Padrões de formatação de variáveis.
- Processos de segurança de dados e senhas.
- Identificação das principais tabelas e como utilizá-las.
Dado que essa infraestrutura é específica do ED, todas as aulas do programa de formação são elaboradas e conduzidas por membros da equipe da própria equipe, o que requer um grande investimento de tempo por parte dos responsáveis por esse projeto.
Público-alvo
O público-alvo desta formação é significativamente diferente dos outros programas de capacitação, uma vez que exige que os participantes tenham pelo menos conhecimentos intermediários em Python e SQL.
Além disso, devido à carga horária intensiva demandada tanto pelos participantes quanto pelos monitores, esta formação é direcionada apenas a algumas secretarias e órgãos previamente selecionados.
Inscrição e seleção de participantes
O processo de seleção ocorre em quatro etapas:
1. Escolha de órgãos e secretarias específicas com alta necessidade de inserção de dados no Datalake e capacidade de manutenção das pipelines criadas. Essa triagem é essencial para garantir que esses órgãos continuem a inserir dados após a formação e realizem as manutenções necessárias para manter as bases atualizadas.
2. As chefias dos departamentos selecionados indicam funcionários que deverão ter conhecimento em Python, SQL e Git, e que serão os responsáveis por essas bases.
3. Após a indicação, o ED disponibiliza um desafio técnico que é minuciosamente avaliado para garantir que o candidato preencha os requisitos básicos para participação na formação.
Formato
Cada aluno é responsável pela criação de uma pipeline de dados que é definida no início do curso. As aulas têm uma duração de cerca de quatro horas e consistem em uma parte teórica e uma atividade prática obrigatória realizada pelos alunos. Essa atividade prática serve para que o aluno avance na criação da pipeline definida por ele mesmo. Posteriormente, as aulas são disponibilizadas em nosso canal do YouTube para que os alunos possam revisar tópicos e para que outras pessoas tenham acesso ao conteúdo.
Ao longo de toda a formação, os monitores acompanham de perto o desenvolvimento das pipelines, oferecendo orientações sobre melhorias e ajudando a resolver problemas.
Estruturação Teórica
Os conteúdos da formação estão focados em demonstrar como criar uma pipeline de dados usando as principais tecnologias selecionadas para compor a infraestrutura do ED.
As aulas são organizadas da seguinte forma:
Essa estruturação teórica visa capacitar os participantes a criar e manter suas próprias pipelines de dados, permitindo que eles contribuam ativamente para a infraestrutura de dados do ED e, assim, tornem-se agentes de capacitação para suas respectivas secretarias e órgãos.
Esperamos que este texto ajude a entender o enfoque da Prefeitura do Rio de Janeiro na capacitação em infraestrutura de dados e como ela está capacitando profissionais para gerenciar de forma eficaz os dados municipais.