Candidaturas encerradas

Site Reliability Engineer

Descrição da vaga

¡Sé parte de Stefanini!

En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.

Responsabilidades e atribuições

El Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.
Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.
Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.

Requisitos e qualificações

Liderar la estrategia de confiabilidad de la plataforma de datos de NEQUI
Diseñar e implementar el framework de observabilidad sobre Grafana + Prometheus
Construir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUI
Liderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acción
Identificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps)
Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidad
Ser el punto de articulación técnico de Stefanini con el Tech Lead de NEQUI
Proponer y ejecutar el roadmap de AIOps en coordinación con NEQUI
Mínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.
Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.

Requisitos y competencias:

2+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering
Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines
Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos
Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM
Manejo de Grafana + Prometheus: dashboards, alertas, PromQL
Experiencia con OpsGenie o herramienta equivalente de gestión de alertas
Conocimiento de AWS Glue, Lambda, CloudWatch
Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs
Experiencia con Jira Service Management o herramienta ITSM equivalente

Habilidades soft:

Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2).
Pensamiento analítico y enfoque en la resolución de problemas complejos.
Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales.
Comunicación efectiva para interactuar con equipos técnicos y de negocio.
Proactividad, orientación a la mejora continua y gestión bajo presión.
Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada.

Etapas do processo

Etapa 1: Cadastro
Etapa 2: Entrevistas
Etapa 3: Confirmación de candidato
Etapa 4: Onboarding
Etapa 5: Contratação

Creer para co-crear

¿Buscas un lugar donde tus ideas brillen?

Con más de 38 años y una presencia global, en Stefanini transformamos el mañana juntos. Aquí, cada acción cuenta y cada idea puede marcar la diferencia. Únete a un equipo que valora la innovación, el respeto y el compromiso.