Aspectos destacados del día SKILup: Ingenieria Confiable de Sitio

¡Los días de SKILup han estado de buenas! Para continuar con el impulso, declaramos mayo como el mes del Ingenieria Confiable de Sitio (SRE).

Justo antes del lanzamiento del SKILup Day, DevOps Institute anunció el lanzamiento de The DevOps Journey SKILbook. DevOps Journey SKILbook está dirigido a profesionales, líderes y entrenadores que desean comprender por qué, cómo y qué se debe hacer para iniciar e impulsar un viaje DevOps. Este SKILbook ofrece visión, habilidades, métricas y otras mejores prácticas y conocimientos para comenzar a adoptar DevOps. Por tiempo limitado, todos los miembros de DevOps Institute tienen acceso a The DevOps Journey SKILbook. Los futuros SKILbooks son un beneficio exclusivo para miembros Premium. Descarga The DevOps Journey SKILbook aquí.

También en mayo, DevOps Institute lanzó SKILup eLearning. Prepárese para obtener la certificación DevOps con un socio educativo, autoaprendizaje o nuestro nuevo eLearning SKILup. Es un formato en línea a su propio ritmo, disponible a través de su socio educativo de DevOps Institute. https://www.devopsinstitute.com/skilupelearning/?utm_campaign=Brand%20Awareness%202021&utm_source=blog-SRE-skilupday-recap-e-learning-learn-more

Día SKILup: Ingenieria Confiable de Sitio (SRE – Site Reliability Engineering)

El 20 de mayo, la conferencia virtual de un día exploró la SRE como disciplina. SKILup Day contó con lecciones prácticas de los oradores Ryan Doherty, Mikolaj Pawlikowski, Shlomo Bielak, Sven Rupper, Dongfang Xu, Adam Clifford, Leonid Belkind, Marcel Birkner, Ravi Lachhman, Dinesh Sekar, Jason Yee, Chris Harding, Murdo MacLeod, Shivagami Gugan y Santanoo Bhattacharjee.

Además de un día completo de sesiones, el evento ofreció yoga, un desafío de clasificación, una sala de networking, una sala de exposiciones, una biblioteca de recursos e incluso una clase de mixología inspirada en DevOps.

Si se perdió el SRE SKILup Day, lo cubrimos con un resumen rápido de los temas principales que surgieron de las sesiones y conversaciones sobre la importancia del tema.

¿Por qué dedicar un día completo de aprendizaje a SRE?

SRE es una disciplina que incorpora aspectos de la ingeniería de software y los aplica a problemas de infraestructura y operaciones. Los principales objetivos son crear sistemas de software escalables y altamente confiables. Este SKILup Day ofreció una mirada en profundidad a estos temas de tendencia de algunos de los principales líderes de opinión de la industria.

Los oradores del SKILup Day cubrieron varios temas de tendencia, incluida la introducción de varios aspectos de SRE, una mirada en profundidad a la gestión de la pila de herramientas de prueba, los desafíos y requisitos de prueba, y casos de uso y experiencias de la vida real. A continuación, analizamos las citas clave y los puntos de discusión del día.

Entendiendo SRE

Un tema clave entre los oradores del SKILup Day fue presentar a la audiencia varios aspectos de SRE, incluida la cultura como elemento clave. Muchos oradores tenían conocimientos específicos sobre los errores comunes y proporcionaron información sobre cómo evitarlos.

El orador principal Ryan Doherty, Staff SRE en LinkedIn, dio inicio a las sesiones del día. Compartió ideas únicas durante su sesión, “10 años de fallas: cómo los autos de carreras y SRE lidian con problemas complejos”. La sesión contó con ideas de Doherty sobre lo que la construcción de un auto de carreras y la victoria de carreras tienen en común al construir sistemas de información: “Los sistemas que construimos hoy ya no son complicados, son * complejos * …” También señaló que “se necesita un nuevo paradigma sobre cómo planificamos, construimos y mantenemos estos sistemas “.

Doherty también compartió 5 consejos clave para manejar sistemas complejos:

1- Vaya más allá de la causa raíz.
2- Deje de usar “error humano”.
3- Busque problemas sistémicos.
4- Comprenda los límites y las presiones involucradas.
5- Comprenda que las personas crean seguridad.

El embajador del DevOps Institute, Dinesh Sekar, regresó para su segundo SRE SKILup Day con su sesión, “Adopción de SRE para empresas: cómo hacerlo”. Sekar destacó que muchas organizaciones no son Google. Luego pasó a discutir cómo adoptar SRE en una organización a escala empresarial. Brindó consejos tangibles a aquellos que buscan superar los desafíos comunes durante una transformación de SRE. Sekar compartió el marco de su equipo, incluido el comienzo con The Assessment of DevOps Capabilities (ADOC).

Sekar destacó la importancia de empoderar a los equipos e incorporar la SRE en la cultura de la organización. Concluyó con las palabras de despedida: “Como SRE, ¿cómo podemos hacer que el mañana sea mejor que hoy?”

Shivagami Gugan, embajadora, tecnóloga y especialista en aviación del DevOps Institute, presentó la sesión “Patrones y antipatrones de SRE”. Durante su sesión, señaló que “en cualquier nivel de madurez, siempre hay margen de mejora en una organización para obtener mejores resultados comerciales”. Para estar de acuerdo con uno de los consejos de Ryan Doherty, Shivagami compartió una de sus citas favoritas de Jennifer Petoff, Directora de Educación en Ingeniería de Confiabilidad del Sitio en Google, cuando habla de los antipatrones de SRE: “Nunca es un error humano, es un problema del sistema”.

Ella compartió muchos más anti-patrones, como la corrección de puntos, el cambio de marca de Ops y la trampa de administración de configuración. Ella brindó consejos tangibles para aquellos que buscan superar los escollos comunes en el camino hacia un programa SRE exitoso, que incluyen:

1- Comprenda las expectativas del cliente.
2- No hierva el océano. (Seleccione las áreas objetivo y luego escale)
3- Hay formas más sencillas de seleccionar áreas de destino.

Qué es y qué no es SRE

Comprender cómo encaja la SRE en otras disciplinas fue otra área de enfoque que surgió durante el SKILup Day. Durante su sesión, “DevOps vs SRE, canalizaciones de CI / CD uniendo la brecha”, Ravi Lachhman de Harness se centró en el conducto entre los dos equipos: una canalización de CI / CD. También exploró los diferentes roles y responsabilidades de cada uno y cómo se pueden usar sus tuberías de CI / CD tanto en momentos de alegría como en incidentes.

Luego enfatizó que “El hecho de que algo sea eficiente no significa que sea resistente y que algo sea resistente no significa que sea eficiente”. Después de un desglose de ejemplos concretos de cómo DevOps frente a SRE responden a situaciones, una conclusión clave fue que “la confiabilidad es responsabilidad de todos”.

Sven Ruppert de JFrog ofreció una sesión impresionante, al aire libre, en los bosques de Alemania: “¿Cómo encaja SRE en el mundo de DevSecOps?” Ruppert exploró en qué se diferencian SRE y DevSecOps, y qué significa cada uno. También compartió información sobre cómo se puede establecer la seguridad en una constelación de este tipo.

 

Ingeniería del caos y la etapa de destrucción

Muchos oradores tenían conocimientos específicos sobre cómo la ingeniería del caos y la destrucción se pueden utilizar en SRE.

El discurso principal, Mikołaj Pawlikowski, jefe de ingeniería de Bloomberg, dio un consejo de primera mano durante su sesión, “Impulse a sus equipos de SRE con Chaos Engineering”. La sesión incluyó varias de sus experiencias personales de aprendizaje y conocimientos para ayudar e inspirar a los asistentes al SKILup Day. Describió Chaos Engineering como “una de las herramientas más poderosas a disposición de sus equipos”. Señaló: “Mediante la experimentación y la introducción de fallas, puede encontrar problemas de manera proactiva antes de que lo encuentren a usted”

Pawlikowski también presentó los mitos de Chaos Engineering y las barreras comunes para la adopción: “El 50 por ciento de los encuestados dijo que generar aceptación era el mayor obstáculo para adoptar Chaos Engineering”. Luego, compartió estrategias para convencer a su equipo de que probara la metodología, que incluyen: “Recibir menos llamadas durante la noche, el día o los días festivos mientras está de guardia usando Chaos Engineering”.

Jason Yee de Gremlin también asumió Chaos Engineering durante el SRE SKILup Day. Compartió importantes hallazgos del primer Informe de Ingeniería del Estado del Caos durante su sesión, “Ingeniería del Caos en cifras”. El primer informe sobre el estado de la ingeniería del caos es una encuesta de cientos de organizaciones sobre cómo están practicando la ingeniería del caos y los resultados que están viendo. Con datos concretos del informe, Yee compartió algunos resultados que los equipos pueden esperar al implementar Chaos Engineering:

1- Mayor disponibilidad.
2- Reducción del tiempo medio de resolución (MTTR).
3- Reducción del tiempo medio de detección (MTTD).

Yee también compartió algunos puntos clave sobre la adopción de Chaos Engineering:

1- Hay un proceso. Está planeado, no al azar.
2- Valide sus modelos mentales / comprensión.
3- Utilice su conocimiento para mejorar los sistemas.
4- Desarrollar la práctica y la cultura del aprendizaje.

Según el embajador del DevOps Institute, Shlomo Bielak, “la mejor manera de eliminar la fragilidad es cambiar el ciclo de vida del desarrollo de software (SDLC) para que implique una etapa de destrucción”. Durante su sesión, “Impermanencia de no producción”, presentó la idea de que para reflejar la verdadera resistencia y eliminar la fragilidad de las aplicaciones y plataformas juntas, debe cambiar el SDLC agregando un nuevo estado a la no producción: destrucción.

 

Permitir que su equipo de SRE cree aplicaciones confiables

Muchos oradores tenían conocimientos específicos sobre cómo preparar mejor a sus equipos de SRE. Durante su sesión, “Uso de la inferencia estadística para la planificación de la capacidad”, Dongfang Xu de Splunk exploró cómo realizar una planificación de la capacidad más inteligente utilizando la funcionalidad de regresión lineal disponible en Splunk Infrastructure Monitoring. Según Xu, la planificación de la capacidad ayuda a evitar posibles problemas de estabilidad y confiabilidad, eleva el rendimiento al identificar cuellos de botella, es un mejor modelo de costos y respalda el acuerdo de nivel de servicio (SLA) que desea lograr.

El embajador del DevOps Institute, Santanoo Bhattacharjee, presentó la sesión “Evolucionando con SRE: el plan de juego”. Durante su sesión, señaló que “si bien cualquier transformación es impulsada por la innovación, el objetivo final siempre sigue siendo la confiabilidad”. También enfatizó que “el denominador central de cualquier ecuación de crecimiento es siempre descubrir los elementos para mantener la resiliencia y la confiabilidad”. Propuso que una pregunta clave siempre debería ser clara: “Nos entrenamos y nos preparamos durante años solo para estar listos para luchar contra algo que tiene el poder de llevar al caos en minutos”. La clave está en, “¡cuán preparados estaremos!” Concluyó con estas palabras de despedida: “No emule a Google, tienen un caso estructural completamente diferente de tener SRE en primer lugar. ¡Necesitará construir construcciones de ingeniería confiables para refinar sus necesidades! ”

Durante su sesión, “Uso de la automatización para mitigaciones genéricas en la producción”, Leonid Belkind de StackPulse brindó consejos tangibles para ayudar a los SRE, DevOps y a los ingenieros de software a cargo de los entornos de servicio de producción a estar preparados para varios eventos inesperados y a mantener sus objetivos de nivel de servicio (SLO). ). Hizo hincapié en que “los procesos bien definidos, ensayados previamente y deterministas son imprescindibles para garantizar un manejo eficiente de los incidentes”.

Finalmente, Chris Harding de Epsagon explicó la importancia de la observabilidad en SRE durante su sesión, “Observabilidad y las señales de oro para SRE en microservicios”. Hizo hincapié en que “se vuelve muy difícil cuando tienes esta gran cantidad de servicios tener una verdadera observabilidad de lo que está sucediendo”. Presentó que “el seguimiento distribuido es la última pieza del rompecabezas” y mostró cómo se puede aprovechar el seguimiento distribuido y los microservicios para lograr una verdadera observabilidad dentro de estas arquitecturas complejas.

 

Referencia

Tomado de la web DevOps Institute, Por Jaida Olvera, May 24, 2021 https://www.devopsinstitute.com/blog-highlights-from-skilup-day-site-reliability-engineering/

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Top