Pular para o conteúdo principal

Site Reliability Engineer

Descrição da vaga

¡Sé parte de Stefanini!​


En Stefanini somos más de 30.000 genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.​

Responsabilidades e atribuições

  • El Data & Site Reliability Engineer Senior es responsable de garantizar la confiabilidad, estabilidad y operación continua de las plataformas de datos y servicios analíticos de la organización.
  • Este rol combina las mejores prácticas de Site Reliability Engineering (SRE) y Data Reliability Engineering (DRE), enfocándose en la prevención de incidentes, automatización de procesos, reducción del tiempo de recuperación ante fallos (MTTR) y mejora de la experiencia operativa de extremo a extremo.
  • Lidera la definición y gobierno de indicadores de servicio (SLIs/SLOs) como frescura, completitud, latencia, confiabilidad y disponibilidad, impulsando la evolución hacia modelos operativos IOps y NoOps.

Requisitos e qualificações

  • Liderar la estrategia de confiabilidad de la plataforma de datos de NEQUI
  • Diseñar e implementar el framework de observabilidad sobre Grafana + Prometheus
  • Construir y mantener runbooks operativos en colaboración con el Tech Lead de NEQUI
  • Liderar postmortem de incidentes P1/P2 y hacer seguimiento de planes de acción
  • Identificar y ejecutar iniciativas de automatización (iOps, NoOps, AIOps)
  • Gestionar el backlog técnico de deuda operativa y mejoras de confiabilidad
  • Ser el punto de articulación técnico de Stefanini con el Tech Lead de NEQUI
  • Proponer y ejecutar el roadmap de AIOps en coordinación con NEQUI
  • Mínimo 2 años o más de experiencia en roles de SRE, DRE, DevOps o ingeniería de plataformas de datos en ambientes productivos.
  • Experiencia comprobable liderando incidentes críticos y proyectos de automatización en entornos de datos.

Requisitos y competencias: 

  • 2+ años de experiencia en roles SRE, DRE, DataOps o Platform Engineering
  • Dominio de Apache Airflow: gestión de DAGs, depuración, optimización de pipelines
  • Experiencia con dbt (data build tool): modelos, pruebas, linaje de datos
  • Conocimiento de Amazon Redshift: administración, optimización de consultas, WLM
  • Manejo de Grafana + Prometheus: dashboards, alertas, PromQL
  • Experiencia con OpsGenie o herramienta equivalente de gestión de alertas
  • Conocimiento de AWS Glue, Lambda, CloudWatch
  • Familiaridad con metodologías SRE: error budgets, SLOs, SLIs, SLAs
  • Experiencia con Jira Service Management o herramienta ITSM equivalente

 

Habilidades soft:

  • Liderazgo técnico y capacidad para coordinar equipos multidisciplinarios durante incidentes críticos (P1/P2).
  • Pensamiento analítico y enfoque en la resolución de problemas complejos.
  • Capacidad para realizar análisis de causa raíz (postmortems) y proponer mejoras estructurales.
  • Comunicación efectiva para interactuar con equipos técnicos y de negocio.
  • Proactividad, orientación a la mejora continua y gestión bajo presión.
  • Habilidad para documentar procesos, incidentes y automatizaciones de manera clara y estandarizada. 

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Entrevistas
  3. Etapa 3: Confirmación de candidato
  4. Etapa 4: Onboarding
  5. Etapa 5: Contratação

Creer para co-crear

¿Buscas un lugar donde tus ideas brillen?

Con más de 38 años y una presencia global, en Stefanini transformamos el mañana juntos. Aquí, cada acción cuenta y cada idea puede marcar la diferencia. Únete a un equipo que valora la innovación, el respeto y el compromiso. 


Si eres una persona disruptiva, te mantienes en aprendizaje continuo y la innovación está en tu ADN, entonces somos lo que buscas. ¡Ven y construyamos juntos un futuro mejor!