Informe Servicio MySQL

Sistemas afectados

Bases de Datos en dirección IP de Intranet 192.168.0.59
Bases de Datos en dirección IP de Intranet 192.168.0.193

Estado de situación

Al presente el acceso a las bases de datos correspondientes a las
direcciones de IP de Intranet mencionadas se encuentra reestablecido al
máximo posible.
Sobre 3577 bases de datos afectadas, 2922 (82%) se encuentran nuevamente
disponibles con la información retrotraída a los meses de Enero y Febrero principalmente, Marzo a Junio en un porcentaje menor.
Las 655 (18%) bases de datos restantes no se encuentran en un estado que
pueda ser recuperado a producción.

Reporte

El día Lunes 13/06 por la mañana nuestro equipo notó una degradación de
performance severa en cuanto a la velocidad de respuesta del servicio.
Esta situación generaba demora en la carga de sitios de clientes por
arriba de niveles aceptables por lo que nuestro equipo técnico decidió
realizar una suspensión de urgencia del servicio para realizar un
upgrade de hardware, considerando preferible un corte momentaneo a aguardar a un horario nocturno, ya que el servicio estaría severamente
degradado durante el día caso contrario.

Durante el proceso de actualización de hardware, una rutina
perfectamente normal en estas situaciones falló. Esto ocasionó la
perdida total de acceso a todos los datos contenidos. Al tratarse de una
falla en software, y no en hardware, no hubo inconvenientes con el
almacenamiento redundante (RAID), sino en la capa superior. Dicha capa,
a la vez, gestiona el sistema de SnapShots MySQL.

A partir de dicho momento, cercano a las 14.30pm del 13/06 el acceso se
interrumpió por completo, no siendo restaurado de forma parcial hasta
las 18hs. Desde las 18hs del 13/06 hasta las 18hs del 15/06 la
información disponible en un respaldo offsite independiente de los
Snapshots (físicamente separado) de las bases afectadas se fue
restaurando paulatinamente. Este proceso es lento, y la información
offsite es más antigua que la de nuestros Snapshots internos.

Detalle Técnico

El servicio de MySQL SnapShots, integrado a las cuentas Grid 2.0 y
MultiCuenta fue lanzado en 2009 con el objetivo de brindar un acceso
rápido y cómodo a información de días pasados (10) de los datos MySQL de
nuestros clientes.


El desafío de respaldar MySQL es la realización On-Line de los mismos:
Poder tomarlos sin necesidad de interrumpir el servicio.

Nuestra plataforma MySQL está basada en Linux (kernel 2.6) + MySQL (5.1
o superior), EXT3 como sistema de archivos y LVM (Logical Volume
Manager) para la gestión de discos, utilizando RAID1.
LVM nos permite tomar Snapshots (similar a fotografías en momentos
determinados de los datos), sin interrumpir acceso a los datos en vivo,
y sin necesidad de duplicar (en nuestro caso por 10), la información que
queremos brindar en un snapshot.


Lo anterior nos permite una solución versatil en productos con un costo
total inferior a u$s1 mensual (sitios de multicuenta).

Debido a que tanto Snapshots como datos participan de los mismos discos
físicos, los mismos se hayan protegidos contra fallas de hardware usando
sistemas RAID1.

LVM es un software ampliamente utilizado y probado, y hasta ahora,
perfectamente confiable. El bug en LVM que generó la corrupción de
bloques y metadatos de uno de nuestros servidores, sumado a nuestro
error de trabajar con un equipo en producción generó como consecuencia
el resultado que ahora existe. En condiciones normales, se separa
siempre parte del raid previo a cualquier tarea para tener una copia
independiente de todo el sistema.

Medidas a tomar

Desde hace 6 meses nos encontramos actualizando nuestro sistema de
Snapshots y MySQL, con servicio basado en Solaris+ZFS en lugar de
Linux+EXT3+LVM. Esta nueva versión nos permite tomar Snapshots con la
misma funcionalidad que lo anterior, excepto que dichos Snapshots se
encuentran en su -totalidad- en servidores offsite, es decir que aun en
un evento como el de este 13/06 no afectaría la disponibilidad de los
datos más allá de los últimos minutos (Snapshots via ZFS los tomamos
cada 60 minutos, contra 24 horas de LVM)

Actualmente menos de un 30% de nuestra red utiliza esta nueva
tecnología. Vamos a acelerar la migración de sistema para poder aumentar
las garantías ofrecidas a todos nuestros clientes cuanto antes.

Adicionalmente, vamos a aumentar nuestros respaldos offsite manuales
para los sistemas Linux+EXT3+LVM a una vez por semana, hasta tanto la
migración a Solaris+ZFS esté finalizada.

Sobre ambos temas, mantendremos información de avance actualizada.

Estamos al tanto de los inconvenientes que esto genera en nuestros
clientes, y queremos colaborar y asistir en todo lo que nos sea posible
para la normalización de sus sitios.

Nuestro departamento de Atención al Cliente está tomando contacto
telefónico con cada una de las cuentas afectadas para tratar uno por uno
cada caso particular en cuanto a las definiciones técnicas y comerciales
necesarias.

Preguntas Frecuentes:

Veo mi base de datos en el Panel de Control, pero no puedo acceder.
Durante la restauración la información de contraseñas de acceso MySQL
fue blanqueada. Para poder volver acceder a tu base debes volver a crear
el usuario. Puede ser el mismo de antes o uno nuevo.

No veo mi base de datos en el Panel de Control. ¿Esto quiere decir que
no estará disponible ?

Todavía estamos importando algunas bases de datos de nuestro backup
offsite. La misma va a finalizar a las 8am de mañana 17/06. Si pasada este momento no se encuentra en tu panel implica que no estará disponible.

Algunas tablas me figuran corruptas
Podés correr un REPAIR TABLe (tabla) para que MySQL realice una
verificación. En caso que eso no funcione, contactanos.

¿Mis bases de datos ahora tienen nuevamente Snapshots?
Estamos tomando respaldos externos manuales diarios, durante el fin de
semana se normalizará la toma de snapshots.

8 opiniones en “Informe Servicio MySQL”

  1. Hola Chicos, lamento profundamente lo sucedido. En particular; varios de mis clientes fuero afectados y obviamente empresa también.
    Sabemos entender lo explicado, y nos sentimos hoy más que nunca parte de elserver.com, de echo compañeros de trabajos SOMOS, más aún a la hora de un problema. y todo ello al margen de la relación proveedor-cliente, responsabilidades y roles… Decidimos apoyarlos, sin dar crédito a las habladurías que han comenzado a circular por la red.
    Sin importar el costo que significa a mi empresa, mañana comenzamos doble turno para recuperar trabajo que deberá estar online de manera urgente.
    Es importante que sigan creciendo, vallan por más y dupliquen la apuesta, de echo más que antes.
    En poco tiempo será una anécdota todo esto.

    Saludos cordiales.
    Antonio Leoanardo Leiva

  2. Hola
    estoy intentando comunicarme con ustedes y no obtengo respuesta, quiero saber cuándo se va a restablecer el sistema.
    saludos
    gabriela.
    pd: me parce mal que no hayan envíado un mail a los clientes para informar de la situación, un cliente mío me dijo que no podía ingresar a al web, y por eso me enteré del problema.

  3. Hola! Gracias por la información. Creo que lamentablemente, estoy en ese 20% jodido por este asunto. Por favor, pueden comunicarse conmigo a la brevedad? Todavía no pude hablar con nadie que me ayudara a resolver este problema. Gracias.

  4. Lamento mucho lo sucedido, y me solidarizo con los colegas que pasan por esta situación. Gracias a ELSERVER por mantener informada a la Comunidad de clientes sobre el progreso de la restauración y no mirar hacia otro lado. Se nota la transparencia de quienes Gestionan este servicio. Espero que se solucione el problema y ánimos para el Staff de ELSERVER.
    Un gran saludo.

  5. Gabriela,
    El incidente no afecta a todos los clientes, solo un porcentaje. Quizás no estás dentro de los afectados y por eso no recibiste comunicación. Por favor escribinos describiendo el problema que tenés a mysql@elserver.com así vemos si tu inconveniente es este u otro. Gracias!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *