Revisión y alternativas de Splunk On-Call (anteriormente VictorOps)
victorops es un paquete de respuesta a incidentes. El servicio se puede integrar para trabajar con otros sistemas de gestión de TI. VictorOps es ahora una división de Splunk .
Acerca de VictorOps
VictorOps se fundó en 2012 y tiene su sede en Boulder, Colorado, Estados Unidos. En junio de 2018, Splunk compró la empresa.
El sistema VictorOps está clasificado como un Administracion de incidentes servicio. Actúa como un centro de alertas. Interactúa con los sistemas de detección de problemas y luego los envía a los equipos de desarrollo como alertas. El sistema VictorOps no identifica problemas ni gestiona su resolución. El principal mercado de VictorOps es el uso en DevOps.
El sistema no está diseñado para usarse como un entorno de mesa de ayuda. VictorOps no incluye un sistema de tickets ni funciones de gestión de equipos. Sin embargo, es posible ingresar habilidades especializadas para miembros individuales del equipo o grupos que permitan al sistema enviar notificaciones a los contactos cuando surge un problema.
Desde que VictorOps pasó a formar parte de Splunk, su nombre ha cambiado a Splunk de guardia . Entonces, si está buscando VictorOps, el nuevo nombre explicaría por qué ha sido difícil encontrarlo.
Splunk de guardia
Splunk On-Call es particularmente útil para Operaciones de TI equipos que respaldan operaciones vitales las 24 horas: sistemas que funcionan las 24 horas del día, como la infraestructura de TI de los servicios de emergencia, un sistema de control de flujo de procesos para el suministro de gas o una fábrica automatizada las 24 horas. En estos entornos el “fuera de horario” no existe. Sin embargo, para una gestión del empleo realista, es posible que el turno de noche no complemente plenamente la experiencia del sistema. Estos especialistas no estarán en el consultorio en estos casos pero sí “ en llamada .”
Otro escenario son los servicios subcontratados. Por ejemplo, los equipos de gestión de sistemas vitales a menudo colocan contratos para Soporte de mantenimiento con asesorías especializadas. Hay diferentes contactos para diferentes especializaciones del sistema o una variedad de contactos con diferentes proveedores de servicios para diferentes aspectos del sistema; cambiar la notificación de incidente a un destino diferente es una tarea importante.
Estas son las funciones que realiza Splunk On-Call. Requiere que esos vínculos entre los tipos de incidencia y los respondedores sean configuración . Instalar el servicio en sistemas demasiado complicados puede hacer que la tarea de configuración sea un paso que requiera mucho tiempo. Sin embargo, esto es simplemente una forma de codificar la memoria de contratos, acuerdos y planes que muchos administradores de sistemas tienen en sus cabezas.
Centralizando y documentando la información de contacto y los procesos de toma de decisiones de los gerentes de Operaciones de TI al decidir a quién llamar en una emergencia brinda continuidad en el evento. Como resultado, las personas que portan ese conocimiento están ausentes por licencia o enfermedad o abandonan el negocio repentinamente.
El flujo de proceso de las operaciones de Splunk On-Call se muestra a continuación.
Como se puede ver en el diagrama, el sistema puede recibir mensajes de alerta a través de Flojo y equipos . Eso significa que cualquier servicio de monitoreo que pueda generar notificaciones mediante Slack puede funcionar con Splunk On-Call. También se pueden recibir notificaciones de Microsoft Teams.
Una vez que Splunk On-Call recibe una notificación, verifica en su base de datos las acciones a realizar y envía esas alertas a la persona adecuada. Aquellos alertas reenviadas También se puede enviar mediante Slack o Microsoft Teams.
Elementos esenciales de guardia
El corazón de la Splunk de guardia El servicio es su base de datos de contactos. La persona adecuada para llamar por un problema específico puede ser diferente en distintos momentos del día. En ocasiones, podría ser necesario contactar a otra persona si el contacto principal no está. Splunk On-Call permite registrar a varias personas diferentes como la persona que debe cumplir con un cronograma. Entonces, no sólo es necesario ingresar información de contacto, sino que el sistema también necesita saber cuándo esa persona es responsable. Un calendario de programación maneja este problema en la configuración del sistema On-Call.
Otro problema que enfrentan los administradores de sistemas es que el contacto principal no siempre responde. El paquete de guardia incluye escalada automatizada , que implementa una segunda notificación después de un retraso de tiempo. Esto podría implicar ponerse en contacto con la persona a cargo de la organización o departamento al que pertenece el contacto principal.
Ganchos web permitir que se realicen acciones adicionales automáticamente al mismo tiempo que se envía una alerta. Por ejemplo, tales acciones podrían ser hacer rebotar el servidor o mostrar una página de estado en un sitio web.
Respuesta rápida
El panel de incidentes de Splunk On-Call proporciona un registro en vivo de todos los eventos relacionados con la alerta que pasó por el sistema. Este informe muestra las personas del equipo a las que se les ha asignado la alerta para tratar y un registro de las comunicaciones realizadas a través de un sistema de mensajería conectado al sistema On-Call.
El administrador a cargo del sistema amenazado puede activar una conferencia telefónica a través del panel de On-Call para verificar el progreso. El sistema almacena los números de teléfono de cada miembro del equipo asignado y los agrupa y marca automáticamente sin que el gerente necesite ver cada número.
El administrador del sistema también puede informar a las partes interesadas de conciencia del problema y avance hacia una solución. Todas las acciones personales y automatizadas realizadas por el equipo de gestión del sistema amenazado se registran en una línea de tiempo, que es un registro crucial que durante una parte de Cumplimiento de SLA documentación.
Automatización de incidentes
El valor central de VictorOps es su capacidad para centralizar la distribución de responsabilidades relacionadas con un problema del sistema. Este punto central de procesamiento de alertas permite a la herramienta identificar notificaciones similares. Por ejemplo, si una línea de producción deja de moverse, los sensores en varios puntos de la fábrica activarán alertas. En lugar de simplemente pasar por una avalancha de alertas, el sistema VictorOps fusiona todos ellos en una sola notificación.
Los informes asignados a un grupo de alertas. preservar todas las alarmas entrantes originales. Esta información es útil ya que proviene de sistemas de monitoreo en vivo. Un ingeniero de sistemas puede aplicar rápidamente la lógica para identificar el punto real de falla observando de dónde provienen todas las notificaciones.
El controlador del enrutamiento de notificaciones proviene del Reglas de alerta en VictorOps. Todas estas reglas deben configurarse, por lo que el operador a cargo de establecerlas debe saber con precisión cómo formular el formato de alerta y los desencadenantes relacionados. Las reglas son un par de incidencias y acciones a realizar en respuesta.
A pesar de automatización reenvía alertas sin intervención manual, el administrador del sistema puede agregar notas a cada una a medida que se entregan al contacto responsable. También es posible configurar archivos adjuntos y texto repetitivo para cada tipo de alerta. Estas notas pueden incluir instrucciones de seguridad y notificaciones de responsabilidad o guías de capacitación y solución de problemas.
Información sobre la entrega
El módulo Delivery Insights es una característica atractiva para los equipos de DevOps que operan una canalización de CI/CD . Esta característica analítica ayuda a los gerentes del equipo de desarrollo a ver si la empresa está desperdiciando demasiado dinero en código mal probado que entra en producción antes de haber sido verificado.
Dejar las correcciones hasta que un módulo ya esté en producción puede resultar costoso. Desechar los sistemas existentes para detectar un error de procedimiento y reasignarlo puede afectar los sistemas relacionados. estaban dejando código incorrecto La puesta en marcha daña la reputación de la empresa al dejar a los clientes y miembros del público con la impresión de que la empresa no puede prestar sus servicios. A la luz de esos fracasos, los clientes potenciales podrían preguntarse sobre la calidad del servicio que pueden esperar.
Opciones de implementación de VictorOps
VictorOps ya no está disponible como producto independiente. Necesitas mirar Splunk de guardia en cambio.
Splunk On-Call es una plataforma SaaS . No existe una versión local. El servicio On-Call incluye el software VictorOps, la potencia de procesamiento para ejecutarlo y espacio de almacenamiento para guardar registros y estadísticas. suscriptores de AWS y Azur Los planes de servidor virtual pueden agregar servicios de Splunk en el Marketplace de su plataforma preferida.
Precio de Splunk de guardia
El precio de Splunk On-Call es un poco complicado porque no se ofrece como un módulo separado. En cambio, es una función complementaria al Nube de observabilidad de Splunk paquete.
Splunk Observability Cloud es un paquete que incluye Monitoreo de infraestructura Splunk y APM , un monitor de rendimiento de aplicaciones. El paquete también implica Observador de registros Splunk , que es un administrador de registros y un producto de búsqueda de datos.
Hay dos planes para Splunk Observability Cloud y el más bajo de ellos, llamado Estándar , comienza en $95 por mes por host cuando se factura anualmente. El plan superior, llamado Más , también contiene ron espolvoreado , un paquete de herramientas para analizar sitios web en vivo, y su precio inicial es de $110 por mes por host cuando se factura anualmente.
El complemento Splunk On-Call tiene un precio inicial de $5 por usuario por mes cuando se factura anualmente. Además, puedes obtener un Prueba gratuita de 14 días de Splunk On-Call y todos los demás módulos de Splunk.
Fortalezas y debilidades de Splunk On-Call
VictorOps, ahora llamado Splunk de guardia , tiene su nicho como administrador de notificaciones para la gestión de errores del sistema. Sin embargo, esta herramienta no funciona de forma independiente. Todo lo que hace es pasar por alto las alertas que han generado otros paquetes de software. Hemos identificado algunas fortalezas y debilidades de Splunk On-Call.
Ventajas:
- Adecuado para que lo utilicen equipos de DevOps, verificando las funciones internas una vez que estén activas.
- Automatiza el proceso de notificación a las personas responsables de dar soporte a los sistemas que tienen errores.
- Se integra con otros productos Splunk y cualquier monitor que pueda enviar notificaciones a través de Slack o Teams
- Amplia documentación de actividades para informes de cumplimiento de SLA
- Detecta informes similares que se relacionan con el mismo incidente
Contras:
- Proporciona funcionalidad que las herramientas de monitoreo de alertas ya implementan
- La calidad del enrutamiento de incidentes del sistema depende de la capacidad del usuario para crear reglas precisas.
Alternativas a VictorOps
Encontrar alternativas a VictorOps es una tarea difícil porque, en muchos casos, la opción a VictorOps es no usar nada. En cambio, VictorOps alertas de rutas a personas específicas y registro los eventos de notificación. Sin embargo, muchas de las herramientas de monitoreo que podrían alimentar VictorOps también ofrecen reglas de enrutamiento escritas para dirigir alertas a la persona adecuada.
Hemos encontrado varias herramientas que son muy buenas para apoyar DevOps equipos en la detección de errores durante la transición a producción y una vez que las nuevas funciones y páginas web están activas.
Aquí está nuestra lista de las cinco mejores alternativas a VictorOps.
- Mesa de servicio de SolarWinds (PRUEBA GRATUITA) Este paquete incluye funciones de gestión de equipos y gestión de tareas en su sistema de emisión de tickets. Al igual que VictorOps, SolarWinds Service Desk puede integrarse con Jira para la gestión de proyectos y Slack para notificaciones. Puede recibir alertas de monitoreo en el sistema de emisión de boletos y configurar rutas para permitir que el sistema asigne trabajo automáticamente. Además, realizará un seguimiento del progreso y le dará a cada técnico una lista de tareas con plazos. SolarWinds Service Desk es un sistema SaaS y puede acceder a él mediante una prueba gratuita de 30 días.
- Datadog APM + Perfilador Continuo El Monitor de rendimiento de aplicaciones de Datadog tiene dos planes, y el superior de ellos incluye un Generador de perfiles continuo y un Rastreador de errores. Estas funciones rastrean las del paquete Splunk Observability Cloud con el complemento Splunk On-Call. Además de detectar problemas en el código en vivo, esta herramienta se lo comunicará al equipo de desarrollo. Suscríbase al nuevo módulo de visibilidad de CI de Datadog para agregar la gestión de canales de CI/CD y consulte el módulo de gestión de incidentes para completar la alternativa a VictorOps. Esta es una plataforma SaaS y todos los módulos se ofrecen Prueba gratuita de 14 días .
- Servicio de buscapersonas es un rival muy cercano a Victor Ops. Se basa en integraciones con Slack y ServiceNow para mediar en las alertas generadas por otras herramientas de monitoreo y reenviar alertas de acuerdo con los libros de reglas configurados en la herramienta. Pero, nuevamente, este es un paquete SaaS y puede obtenerlo en un Prueba gratuita de 14 días .
- Invencible Un servicio de prueba continuo que rastrea el desarrollo del código a través de pruebas y continúa examinando su rendimiento, detectando errores cuando está activo. Este paquete se puede integrar con JIRA para completar la asignación de trabajo y la gestión de tareas para problemas de rendimiento identificados. Este paquete está disponible como plataforma SaaS o para instalación en Windows Server. Solicitar una demostración .
- OpsGenie es un sistema de gestión de alertas y llamadas de Atlassian, los creadores de Jira, la herramienta de gestión de proyectos. OpsGenie proporciona enrutamiento cuidadoso y se integra con Jira para brindar planificación y supervisión completas del desarrollo y redesarrollo. Intentalo gratis por 14 días .