Hallo,
ich möchte mich für den Ausfall des Systems in den letzten Tagen entschuldigen. Der Hoster hatte Probleme mit dem Storage (gleichzeitiger Ausfall von SSDs als auch von HDDs im Raid Verbund). Dies sorgte für einen Performance Einbruch (das schreiben einer 5MB Datei benötigte ca 15min). In der Folge ging die Datenbank auf die Bretter und das System war nicht mehr brauchbar. Ich habe heute morgen die Datenbank repariert und das System wieder online gebracht.
Das nun viele Meldungen für Euch von verschiedenen Systemen der letzten Tage eingesammelt werden kann es sein, daß der Server noch etwas langsam reagiert.
Ich bitte um Entschuldigung.
Die Meldungen des Hosters im Detail:
Störung Hostsystem v6
Beginn Tuesday 25th June 2019, zuletzt aktualisiert about 21 hours ago
Resolved — Wir konnten inzwischen alle betroffenen HDDs tauschen und damit die I/O Leistung des Systems wiederherstellen. Da nun aber noch der SSD Cache Rebuild fertig durchlaufen muss, ist die I/O Performance noch nicht auf voller Leistung, aber bereits bei rund 80% und damit für einen normalen Betrieb wieder mehr als ausreichend. Der Cache Rebuild läuft nun im Hintergrund weiter durch. Mit jedem fertigen Prozent vom Rebuild steigt die I/O Performance weiter. Wir gehen davon aus das die volle Performance in kürze wieder zur Verfügung stehen wird.
Posted about 21 hours ago
Investigating — Leider ist der Rebuild vom Cache bei knapp 87% mit einem Timeout abgebrochen. Obwohl die anderen Festplatten relativ neu sind, es sich um unterschiedliche Enterprise-Platten verschiedener Hersteller handelt, haben die Platten durch den Cache-Schaden scheinbar auch einen Fehler bekommen. SMART-Tests liefern keinerlei Festplattenfehler zurück. Dennoch liefern einige Festplatten jetzt nur noch einen Throughput von knapp 4 MB/s. Bei Beginn des Rebuilds lagen diese Festplatten noch erheblich höher bei normalen Werten. Wir sind daher aktuell dabei die HDDs nacheinander zu tauschen. Leider ist pro HDD ein Raid-Rebuild Prozess von 10 Stunden vorgesehen, da die Quell-Festplatten so langsam sind. Wir tauschen immer die HDDs mit der schlechtesten Throughput Performance als erstes.
Posted about 23 hours ago
Monitoring — Beim Neuaufbau des zweiten Cache-Teils meldete der Raid-Controller an zwei Festplatten SMART Fehler. Diese sind zwar noch nicht kritisch, dennoch werden wir auch diese beiden Festplatten nun direkt mit tauschen. Ein späterer Tausch hätte nur eine erneute Cache-Neubildung zur Folge. Da der Cache Neuaufbau gerade mal 4% erreicht hat, nehmen wir den Tausch direkt vor. Warum gleichzeitig so viele SSDs und nun auch zwei HDDs einen Defekt hatten, konnten wir nicht nachvollziehen. Vor allem handelt es sich um unterschiedliche SSDs von zwei unterschiedlichen Herstellern.
Posted a day ago
Monitoring — Wir haben inzwischen alle Cache SSDs getauscht und die erste Hälfte vom Cache neu aufgebaut. Nun muss sich allerdings noch der zweite Teil vom Cache neu aufbauen. Insgesamt ist die Disk I/O Last bereits etwas abgesunken, aber durch den Cache Neuaufbau noch immer sehr hoch. Bitte führen Sie keine unnötigen Neustarts Ihrer virtuellen Server durch. Ein Neustart benötigt durch den hohen I/O Wait eine sehr lange Zeit und die Performance wird dadurch nicht verbessert.
Posted a day ago
Investigating — Bisher gab es keine Besserung der I/O Wait. Wir arbeiten weiterhin mit Hochdruck daran, die Festplatten auszutauschen.
Posted a day ago
Identified — Aktuell besteht bei Hostsystem v6 ein Problem mit dem SSD Cache. Wir lassen den SSD Cache aktuell tauschen. Aufgrund des defekten Caches ist aktuell der Systemload des Nodes sehr hoch.
Posted 2 days ago
Investigating — Aktuell ist der I/O Wait auf dem Hostsystem v6 extrem hoch, was vermutlich auf ein defekten SSD Cache Device zurückzuführen ist. Unsere Techniker werden in Kürze die defekten SSDs tauschen.