Site Reliability Engineer
Descrição da vaga
¡Sé parte de Stefanini!
En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.
Responsabilidades e atribuições
- El Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.
- Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.
- Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.
Requisitos e qualificações
- Liderar la estrategia de confiabilidad de la plataforma de datos de NEQUI
- Diseñar e implementar el framework de observabilidad sobre Grafana + Prometheus
- Construir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUI
- Liderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acción
- Identificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps)
- Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidad
- Ser el punto de articulación técnico de Stefanini con el Tech Lead de NEQUI
- Proponer y ejecutar el roadmap de AIOps en coordinación con NEQUI
- Mínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.
- Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.
Requisitos y competencias:
- 2+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering
- Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines
- Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos
- Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM
- Manejo de Grafana + Prometheus: dashboards, alertas, PromQL
- Experiencia con OpsGenie o herramienta equivalente de gestión de alertas
- Conocimiento de AWS Glue, Lambda, CloudWatch
- Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs
- Experiencia con Jira Service Management o herramienta ITSM equivalente
Habilidades soft:
- Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2).
- Pensamiento analítico y enfoque en la resolución de problemas complejos.
- Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales.
- Comunicación efectiva para interactuar con equipos técnicos y de negocio.
- Proactividad, orientación a la mejora continua y gestión bajo presión.
- Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada.
Etapas do processo
- Etapa 1: Cadastro
- Etapa 2: Entrevistas
- Etapa 3: Confirmación de candidato
- Etapa 4: Onboarding
- Etapa 5: Contratação
Creer para co-crear
¿Buscas un lugar donde tus ideas brillen?
Con más de 38 años y una presencia global, en Stefanini transformamos el mañana juntos. Aquí, cada acción cuenta y cada idea puede marcar la diferencia. Únete a un equipo que valora la innovación, el respeto y el compromiso.
Si eres una persona disruptiva, te mantienes en aprendizaje continuo y la innovación está en tu ADN, entonces somos lo que buscas. ¡Ven y construyamos juntos un futuro mejor!
Conoce más sobre nosotros