La interrupción de Facebook de ayer, que derribó a Facebook Messenger, Instagram y WhatsApp tan bien como el proveedor principal, fue el resultado de un error por parte de los propios ingenieros de la comunidad de la empresa.
El error llevó a que todas las ofertas de Facebook fueran inaccesibles, y una analogía lo comparó con una falla en las ofertas de "control de visitantes aéreos" para los visitantes del sitio de la comunidad ...
Dijimos el día pasado sobre el gran fracaso.
Ahora no eres solo tú: Facebook, Instagram y WhatsApp están actualmente inactivos para clientes de todo el mundo. Estamos viendo mensajes de error en las tres ofertas en todas las funciones de iOS tan bien como en la Web. Los usuarios reciben mensajes de error como: "Lo siento, algo salió mal", "Error del servidor 5xx" y más.
La interrupción está afectando a todas y cada una de las plataformas propiedad de Facebook, de acuerdo con los registros de Downdetector y Twitter. Esto consiste en Instagram, Facebook, WhatsApp y Facebook Messenger […] Si bien algunas interrupciones de Facebook, Instagram y WhatsApp solo tienen un efecto en ciertas regiones geográficas, las ofertas han bajado a nivel internacional en la actualidad.
Paso a paso parecía que la molestia posiblemente se relacionaría con el DNS: el área identifica los servidores que informan a los dispositivos qué direcciones IP usar para obtener el derecho de entrada a las ofertas; sin embargo, una vez fue dudoso qué había sucedido exactamente y si esto se usó o no. para ser un hackeo exterior, un movimiento malicioso por medio de una persona con información privilegiada o un error catastrófico.
Facebook ahora ha admitido en un envío de blog que alguna vez fue un error.
Nuestros grupos de ingenieros se han dado cuenta de que los ajustes de configuración en los enrutadores de la columna vertebral que coordinan a los visitantes de la comunidad entre nuestras instalaciones de hechos provocaron problemas que interrumpieron esta comunicación. Esta interrupción para los visitantes de la comunidad tuvo un impacto en cascada en la forma en que se comunican nuestros centros de estadísticas, deteniendo nuestras ofertas.
Tomó mucho tiempo llegar al fondo de la molestia debido al hecho de que las estructuras inaccesibles cubrían los servidores y los ingenieros de equipos normalmente usarían para solucionar la molestia de forma remota. Los informes proponen que el personal de nivel inferior tuvo que acceder físicamente a los centros de información y luego contar el número en las instrucciones paso a paso de los ingenieros superiores para corregir el error. Para complicar esto, las redes que no están disponibles suponen que la puerta de Facebook tiene derecho de entrada a las estructuras, además, ha estado fuera de línea, lo que impide el acceso físicamente.
Cómo detectar la interrupción de Facebook
Es posible que obtengamos la historia completa a tiempo, sin embargo, la opinión generalizada es que el problema fue una vez que se combinó el servidor de título de área (DNS) y la configuración del protocolo de puerta de enlace fronteriza (BGP).
La analogía de primer orden que he considerado es asumir que los visitantes del sitio de la comunidad son como aviones. Su sistema desea volar a facebook.com. Su avión primero desea conocer las coordenadas GPS del aeropuerto del lugar de vacaciones, es decir, la dirección IP a la que debe unirse. Recibe esos datos solicitando un DNS, que le dice que facebook.com está posicionado en (por ejemplo) 66.220.144.0.
Pero llegar al lugar de vacaciones de cierre, el servidor real que puede operar la misión que desea realizar, depende de una variedad de visitantes del sitio aéreo que administran la máquina para el tráfico de la comunidad, y ese es el BGP. El BGP le dice a su sistema qué ruta volar a través de una variedad de servidores en ruta hacia su destino final.
Parece que Facebook definitivamente perdió sus estructuras BGP, por lo que una vez no hubo forma de que Facebook informara a las unidades cómo llegar a su destino. Y eso cubrió a los ingenieros personales de Facebook que lograron las estructuras que deseaban para deshacer el error.
La interrupción tiene implicaciones masivas
Si esto hubiera sido simplemente que los humanos no pudieron enviar películas de gatos durante unas horas, ese sería un problema (aunque, vamos, ¿qué son los estilos de vida, excepto los videos de gatos?). Pero WhatsApp es con éxito una pieza fundamental de la infraestructura de comunicaciones en muchos países, utilizada robóticamente para el intercambio verbal entre pacientes y médicos, por ejemplo, y utilizada con la ayuda de muchos para pagos.
La interrupción prolongada ha despertado interés en lo susceptible que es el mundo entero a errores de esta naturaleza.
Por ejemplo, miles y miles de seres humanos son importantes en los servidores DNS de Google para acceder a todos y cada uno de los servidores del planeta. Imagínese estos servidores cayendo durante un período prolongado. Eso no solo tendría un efecto en los consumidores, sino que interrumpiría el comercio y la infraestructura imperativa. Producción en fábrica, transporte de flotas, retail… las obras.
El mundo total está seriamente establecido en una amplia variedad de servidores enormemente pequeña, todos los cuales deberían desconectarse mediante un error del tipo que tuvo lugar aquí. Se desea poner mucha idea en cómo evitar una interrupción considerable de la web en el futuro.
Foto: NASA