Engenheiro de Dados (M/F) Braga
O dstgroup é uma das maiores empresas de construção em
Portugal, operando na interseção entre construção, engenharia e transformação
digital. Com uma equipa de mais de 3.000 trabalhadores a gerar diariamente
grandes volumes de dados, a nossa missão é construir bases de dados sólidas que
permitam às equipas de IA e NLP trabalhar de forma avançada.
Estamos à procura de um(a) Engenheiro(a) de Dados
para conceber e manter pipelines de dados escaláveis e de elevada qualidade,
tornando-os acessíveis, estruturados e prontos para treino e avaliação de
modelos. O teu trabalho permitirá que à equipa de IA/NLP o acesso a dados de
qualidade que permitam o desenvolvimento de modelos estado da arte.
O que irás fazer
·
Conceber, desenvolver e manter
pipelines ETL/CRISP-DM para processar diversos fluxos de dados em conjuntos
estruturados e fiáveis.
·
Construir e otimizar soluções baseadas
em SQL, com foco no ecossistema PostgreSQL, incluindo:
o pgvector para
armazenamento e recuperação de embeddings,
o PostGIS para
análise geoespacial,
o TimescaleDB para dados
de séries temporais.
· Implementar e gerir APIs REST para
disponibilizar produtos de dados a consumidores downstream.
· Garantir qualidade, governação e
reprodutibilidade dos dados, com especial atenção a coleções textuais/NLP.
·
Desenvolver e manter soluções
conteinerizadas com Docker, assegurando a escalabilidade.
·
Utilizar Git e pipelines GitLab CI/CD
para automatizar testes, integração e deployment de workflows de dados.
·
Colaborar com as equipas de IA/NLP para
compreender os requisitos de dados e fornecer conjuntos otimizados para treino,
avaliação e deployment de modelos.
· Integrar ferramentas open-source com
serviços cloud da Azure para armazenamento, orquestração e monitorização.
·
Mais de 2 anos de experiência
profissional como Engenheiro(a) de Dados ou função semelhante.
·
Forte proficiência em SQL e bases de
dados relacionais (particularmente PostgreSQL).
·
Experiência prática com pgvector,
PostGIS ou TimescaleDB.
·
Experiência no design de APIs REST.
· Excelentes competências de programação
em Python, idealmente com PySpark.
·
Domínio de Docker em ambientes de
desenvolvimento e produção.
·
Experiência com Git e GitLab CI/CD.
·
Familiaridade com Airflow e serviços
cloud Azure.
· Experiência anterior em colaboração com
equipas de IA/ML, especialmente na preparação de datasets NLP.
· Boa capacidade de comunicação em inglês
e facilidade em trabalhar em equipas multidisciplinares.
·
Doutoramento em Ciência de
Computadores, Inteligência Artificial ou área relacionada.
·
Experiência tanto na academia como na indústria.
·
Histórico sólido de investigação
científica e trabalhos em recuperação de informação, representação e raciocínio
de conhecimento, extração de conhecimento estruturado ou análise de dados em
larga escala.
·
Disponibilidade para orientar elementos
mais novos e coorientar teses de Mestrado em colaboração com a Universidade do
Minho e/ou a Universidade do Porto.
·
A oportunidade de construir as
políticas de dados de uma das maiores empresas de construção em Portugal.
·
Trabalho direto na interseção entre
engenharia de dados, IA e NLP, com impacto imediato no negócio.
·
Modelo de trabalho híbrido e flexível.
·
Salário competitivo e pacote de
benefícios.
·
Um ambiente colaborativo e inovador,
orientado para a tomada de decisão baseada em dados.