Vaga de SRE - Senior Site Reliability Engineer, São Paulo, SP, Brasil e Remoto (Híbrido)

SRE - Senior Site Reliability Engineer

📍 São Paulo, SP, Brasil e Remoto (Híbrido)

Descrição da Vaga



Trabalho híbrido na região de Pinheiros/ SP - 3x por semana no escritório


Estamos selecionando um Senior Site Reliability Engineer - SRE para se juntar ao nosso time e desempenhar um papel essencial na manutenção, automação e melhoria da confiabilidade dos sistemas que impulsionam a rede logística da empresa em múltiplas regiões. Essa pessoa garantirá que a plataforma permaneça resiliente, observável e de alto desempenho, ao mesmo tempo em que possibilita inovação rápida e entregas seguras em larga escala.

Responsabilidades:

Definir, implementar e monitorar Service Level Objectives SLOs), SLIs e error budgets em serviços principais.

Construir e manter stacks de observabilidade usando NewRelic (ou outras ferramentas) para garantir visibilidade completa da saúde dos sistemas.

Automatizar tarefas operacionais por meio de infraestrutura como código IaC e pipelines de CI/CD.

Colaborar com os times de Infraestrutura e DBA para otimizar desempenho e melhorar a tolerância a falhas.

Desenvolver processos de resposta a
incidentes, runbooks e postmortems para aprimorar a confiabilidade dos sistemas.

Gerenciar e ajustar sistemas baseados em Kafka, garantindo alta taxa de transferência e baixa latência.

Participar de planejamento de capacidade, testes de carga e estratégias de escalabilidade para cenários de alta demanda.

Melhorar continuamente os pipelines de
deploy, monitoramento e procedimentos de recuperação.

Fornecer mentoria técnica e orientar os times de engenharia nas melhores práticas de confiabilidade.

Requisitos:

Graduação em Ciência da Computação, Engenharia ou experiência equivalente.

5+ anos de experiência em funções de Site Reliability, DevOps ou Engenharia de Produção.

Conhecimento sólido em AWS (EC2, ECS, S3, RDS, CloudWatch, Lambda, VPC).

Forte domínio de ferramentas de observabilidade NewRelic, Grafana, Prometheus, ElasticSearch, Kibana).

Experiência na manutenção de sistemas orientados a eventos com Kafka.

Familiaridade com Terraform, Docker e/ou Kubernetes para automação e deploy.

Experiência na construção e manutenção de pipelines de CI/CD.

Sólida compreensão de sistemas distribuídos, redes e otimização de desempenho.

Disponibilidade para trabalhar em turnos noturnos (escala de plantão).

Disponibilidade para cobrir turnos de trabalho durante períodos de alta demanda e suporte técnico (escalas de plantão).

Disponibilidade para trabalhar horas extras remuneradas, caso seja necessário resolver um problema técnico.

Diferenciais:

Experiência com frameworks de gerenciamento de incidentes.

Conhecimento em práticas de confiabilidade de banco de dados e colaboração com times de DBA.

Familiaridade com segurança, compliance e auditoria em ambientes em nuvem.

Entendimento de otimização de custos e engenharia de performance na AWS.

Fluência em inglês (falado e escrito).

***

Empresa de Tecnologia

Contratação via cooperativa


Publicado há 2 dias

Outras buscas que podem te interessar: