Panne majeure de Discord causée par des problèmes d’API et de base de données

Discord

Discord a subi ce qu’ils ont qualifié de « panne massive » qui a empêché les utilisateurs de se connecter au service ou d’utiliser les chats vocaux.

La panne a commencé à 14 h 49 HNE et a été initialement causée par un problème de panne de l’interface de programmation d’application (API), empêchant divers services de communiquer entre eux.

Cependant, après avoir résolu le problème de l’API, Discord a découvert un problème secondaire avec un cluster de base de données, causant d’autres problèmes.

« Nous avons identifié le problème sous-jacent avec la panne de l’API, mais nous traitons un problème secondaire sur l’un de nos clusters de bases de données. Nous avons toute notre équipe de réponse sur appel en ligne et répondant au problème », a expliqué Discord sur leur page d’état.

Lorsque les utilisateurs ont tenté de se connecter à Discord pendant la panne, un logo en rotation leur a été montré, qui a finalement affiché un message sur la panne de l’API.

Message d'erreur Discord lors de la tentative de connexion au service
Message d’erreur Discord lors de la tentative de connexion au service

Discord indique qu’ils ont commencé à limiter les connexions pour éviter une surcharge de leurs serveurs opérationnels pendant qu’ils corrigeaient le cluster de bases de données problématique. Au cours de cette période de limitation du débit, les utilisateurs ont dû attendre longtemps avant d’être entièrement connectés au service.

Vers 17 h 12 HNE, Discord a supprimé la limitation de débit, mais a averti que les utilisateurs pourraient continuer à rencontrer des problèmes d’interaction avec les bots à l’aide des commandes slash. Au fil du temps, ces problèmes seront résolus.

Les mises à jour complètes de l’état fournies par Discord pendant cette panne sont disponibles ci-dessous :

Surveillance – Nous avons entièrement supprimé toutes les limites de débit et Discord est presque revenu à la normale.

Au cours de la prochaine heure, certains serveurs Discord peuvent continuer à rencontrer des problèmes d’interaction avec les bots à l’aide de commandes slash. Dans le cadre de la résolution de l’incident, nous devions réduire la charge sur nos bases de données et nous avons refusé certaines parties de notre système de commande slash.

Nous allons terminer notre processus post-mortem interne pour vraiment creuser et comprendre exactement ce qui s’est passé ici, mais nous nous excusons vraiment pour la gêne occasionnée si vous n’avez pas pu vous connecter aujourd’hui ou si vous avez eu d’autres problèmes.
26 janvier, 14 h 12 HNP

Mise à jour – Nous en sommes au dernier groupe d’utilisateurs hors ligne et nous prévoyons que tout le monde sera entièrement en ligne dans les 10 prochaines minutes.
26 janvier, 13 h 50 HNP

Mise à jour – Plus de la moitié des utilisateurs de Discord sont de retour en ligne et fonctionnent normalement. Nous continuons à travailler pour ramener le reste des utilisateurs en ligne.
26 janvier, 13:07 PST

Mise à jour – Nous continuons à travailler sur un correctif pour ce problème.
26 janvier, 13:06 PST

Mise à jour – La base de données est à nouveau saine et notre taux d’erreur interne est tombé à des niveaux nominaux. Nous commençons à augmenter la limite du taux de connexion pour permettre aux utilisateurs de se reconnecter.
26 janvier, 12 h 29 HNP

Mise à jour – Nous continuons à résoudre certains problèmes avec l’un de nos clusters de bases de données. Nous limitons toujours le trafic de connexion. Prochaine mise à jour dans 15 minutes.
26 janvier, 12 h 21 HNP

Mise à jour – Nous avons institué une limite de débit sur les connexions pour gérer la charge de trafic. Les utilisateurs connectés utilisent Discord avec succès à ce stade, et nous augmenterons lentement les limites ici pour autoriser plus d’utilisateurs que possible. Nous espérons que cela sera résolu dans les 15 prochaines minutes.
26 janvier, 12 h 07 HNP

Identifié – Nous avons identifié le problème sous-jacent avec la panne de l’API, mais nous traitons un problème secondaire sur l’un de nos clusters de bases de données. Toute notre équipe d’intervention sur appel est en ligne et répond au problème.
26 janvier, 12:03 PST

Enquête – Nous enquêtons actuellement sur une panne généralisée de l’API.
26 janvier, 23 h 49 HNP

Mise à jour du 26/01/22 à 17h48 HNE : l’article est réécrit pour expliquer la panne.

Articles Liés:

Principaux services dont Slack, AWS, Hulu, Imgur confrontés à des pannes

Cloudflare connaît une latence et des délais d’attente généralisés

AWS à nouveau en panne, la panne affecte Twitch, Zoom, PSN, Hulu, etc.

Amazon explique la cause de la panne massive d’AWS de mardi

La panne d’AWS affecte les livraisons de Ring, Netflix et Amazon