Incidente en Unidad SSD sobre ID: mr-robot.waugi.cloud 10/08/2023 11:50:00


Reporte de Incidente Detectado - RID

Fecha: 10/08/2023 Ubicación: Centro de Datos IFX, Capital Federal.

Resumen del incidente

Inicio: 09:15, 10/08/2023
En la mañana de hoy, hemos detectado un incidente en uno de nuestros servidores en el centro de datos IFX. Una unidad de estado sólido (SSD) en el servidor host ESXi con ID: mr-robot.waugi.cloud ha dejado de responder. Estamos actualmente investigando este problema para determinar su causa y tomar las medidas necesarias.

Detalles del incidente

A partir de las 09:15, comenzamos a recibir alertas indicando que una de las unidades de estado sólido (SSD) sobre el servidor host ESXi con ID: mr-robot.waugi.cloud no estaba respondiendo. Después de una revisión inicial, identificamos que la unidad de estado sólido (SSD) se desconectó.

Actualmente estamos llevando a cabo un análisis exhaustivo para comprender la naturaleza exacta de la falla y determinar si es un problema a nivel de hardware o si está relacionado con el sistema operativo y los datos almacenados en la unidad.

Tenga la seguridad de que estamos tomando todas las medidas necesarias para abordar este incidente y prevenir su recurrencia en el futuro. La continuidad y la confiabilidad de nuestros servicios son de suma importancia para nosotros y estamos trabajando arduamente para restaurar completamente la funcionalidad normal del servidor afectado.

Actualización del Incidente - 11/08/2023, 00:28hs

Ubicación: Centro de Datos IFX, Capital Federal.

Estado Actual del Incidente

Después de una intensa labor, nos complace informar que hemos logrado importantes avances en la resolución del incidente que afectó la unidad de estado sólido (SSD) en el servidor host ESXi con ID: mr-robot.waugi.cloud en el Centro de Datos IFX.

A las 22:28hs, logramos restablecer exitosamente la conexión con el almacenamiento que había experimentado una pérdida de comunicación. Además, como medida de precaución, hemos procedido a realocar las instancias a otro almacenamiento seguro para garantizar la integridad de los datos y la continuidad del servicio.

Acciones Realizadas

Nuestro equipo técnico trabajó de manera conjunta y coordinada para llevar a cabo las siguientes acciones:

  1. Restablecimiento de la Conexión: Se restableció la comunicación con el storage que había mostrado una pérdida de conexión, permitiendo el acceso nuevamente a los datos almacenados en la unidad SSD afectada.

  2. Migración Segura de Instancias: Por medidas de seguridad, se trasladaron las instancias y datos relevantes a otro almacenamiento funcional. Esto asegura la disponibilidad y confiabilidad de los servicios ofrecidos.

  3. Remoción del Datastore Afectado: Como parte del proceso de recuperación, se ha tomado la decisión de remover el datastore afectado para evitar cualquier riesgo potencial en el futuro.

Próximos Pasos

Continuaremos trabajando diligentemente para garantizar la completa estabilidad y seguridad de nuestros sistemas. En las próximas horas, se realizarán pruebas exhaustivas para asegurarnos de que todas las instancias y servicios operen sin problemas en el nuevo almacenamiento.

La resolución de este incidente ha requerido un esfuerzo conjunto y dedicado por parte de nuestro equipo. Agradecemos su paciencia y comprensión mientras trabajamos para restaurar completamente la funcionalidad normal y minimizar cualquier posible impacto.

Fecha de Actualización: 11/08/2023, 00:28hs

Actualización 19:15

Con el objetivo de resolver este incidente de manera eficiente, hemos organizado el desplazamiento de personal al Centro de Datos IFX. A partir de las 20:00hs de hoy, un equipo estará en sitio trabajando en coordinación con nuestro equipo de TI para restablecer la conexión con el almacenamiento que ha perdido conexión. Esta estrategia nos permitirá trabajar fuera del horario laboral y minimizar cualquier impacto en la operación normal.