|
Apr
08
|
Montag 6. April 2009 – ein Dell MD3000i iSCSI-SAN wollte mit einer neuen Firmware gefüttert werden. Ein Update mit viel Nervenkitzel und einigen Tücken…
Zum Überblick, das Dell MD3000i-StorageArray dient als Shared-Storage (das EINZIGE in diesem Unternehmen) für zwei VMWare ESX Server. Insgesamt sind auf dieser Plattform knapp 20 Server und Fat-Clients virtualisiert und alle unternehmenskritischen Daten liegen auf der MD3000i.
Geplant war ‘mal eben’ nach allgemeinem Feierabend das Update einzuspielen. Die Hoffnung auf einen frühen eigenen Feierabend habe ich jedoch schnell verworfen, denn die Readme’s zu diesem Update versprachen nichts gutes:
[...] the upgrade is one way only; it is not possible to return to prior
generation after starting this upgrade procedure.
[...] recommended to perform firmware
download as an off-line maintenance event.
Um genau zu sein, ist dieses Cross-Generation-Update (Version 6.xx.xx.x auf 7.xx.xx.x) eine 30Minuten lange Prozedur ohne Rückkehr. – Ja 30 Minuten, so lange dauert das Update, wenn es denn klappt. Für so eine Mammut-Aufgabe gibt es von Dell ein spezielles Cross-Generation-Update-Utility, welches ausschließlich für diese eine Aufgabe konzipiert wurde. Eigentlich sollten es vier simple Schritte sein, die zum Erfolg führen:
- Alle I/O’s beenden (oder auch shutdown * now
) - Firmware mittels speziellem Spezialtool updaten
- Alles wieder hochfahren
- Feierabend
Klingt ja nicht dramatisch, wäre nicht um ca. 23:30Uhr das Cross-Generation-Update-Utility bei ca. 95% Fortschritt mit der Meldung “Fehler” abgebrochen. Nun kann man sich das so vorstellen, alsob man in einer Einbahnstraße ohne Wendemöglichkeit und kaputtem Rückwärtsgang feststeckt. Versuche, das Update erneut anzustoßen scheiterten sofort und die iSCSI-Targets der MD3000i waren offline. Da alle I/O’s gestoppt werden mussten, waren auch alle DNS-Server und Router offline – somit KEIN INTERNET, keine Möglichkeit nach Lösungen zu Suchen, Handbücher einzusehen oder Google zu befragen. Die einzige mögliche Rettung war die Dell Hotline, die um diese Uhrzeit in den USA endete.
Promt hatte ich einen Support Techniker – nennen wir ihn Mr. D – an der Leitung, der über die Situation doch leicht verwundert schien. Mr. D ging erstmal davon aus, dass ich etwas falsch gemacht hatte. Ich hatte nicht das spezielle Spezieltool benutzt, die I/O’s nicht gestoppt oder ähnliches. Nach ca 30 Minuten Troubleshooting gingen ihm und mir dann doch die Ideen aus, was zur Folge hatte, dass meine leichte Nervosität sich in ein ausgeprägtes Unwohlsein steigerte.
Auf der Dell Website fand Mr. D. jedoch folgenden, gloreichen Hinweis (leider in keiner Readme zu finden):
NOTICE: In non-English versions of the MD Firmware Cross Generation Upgrade Utility, it has been observed that the firmware may fail to activate after the download. While pending activation, the RAID Controller Modules will continue to operate at the previous firmware version. To activate the firmware, the following smCLI command must be used: SMcli [IP of Controller A] [IP of Controller B] -c “activate storageArray firmware;” where [IP of Controller A] and [IP of Controller B] are replaced with the actual IP addresses of the RAID Controller Modules.
Nun musste Mr. D nur noch herausfinden was SMcli ist und wie man es einsetzt. Das Storage Manager Command-Line-Interface ist eine Executable, die im “client”-Unterordner des Modular Disk Storage Managers (MDSM) versteckt ist. Über diese Executable kann man in der Eingabeaufforderung Befehle direkt an das Storage-Array schicken und unter anderem auch erweiterte Konfigurationen durchführen.
Nun ist der Befehl SMcli [IP of Controller A] [IP of Controller B] -c “activate storageArray firmware;” purer Nervenkitzel. Noch mal zu Erinnerung: Alles ist offline, man kommt nicht mehr an die Daten des Unternehmens und man hat kein Internet zur Verfügung. Ich starte voller Hoffnung und Erwartung den SMcli Befehl und bekomme die Ausgabe: Executing Script
Nicht mehr und nicht weniger. Nur Executing Skript. Kein Status. Keine Sanduhr. Nichts. Diese Ungewissheit, was gerade passiert oder ob überhaupt etwas passiert ist nervenzerreisend. Dazu kommt noch die enorme Festplattenaktivität auf der MD3000i während diesen Vorgangs (Remember: Firmware Update!!!). Die ersten fünft Minuten waren noch Okay, aber danach stieg mein Puls proportional zu den vergangenen Minuten. Auch Mr. D konnte keine Auskunft geben, wie lange dieser Vorgang dauert oder ob er abgestürtz ist. Trotzdem hat mir dringend davon abgeraten auch nur auf die Idee zu kommen diesen Vorgang abzubrechen.
Gefühlte drei Stunden (ca. 20 Minuten in Echtzeit
) später, nachdem ich mich geistlich schon von dem Storage verabschiedet und die Bandsicherung schon aus dem Tresor geholt hatte geschah das Unmögliche: Es erschein das Wort “Success” in der Eingabeaufforderung und teilte mir mit, dass alles wieder in Ordnung war. Btw: Mr D., thanks for your help
Nun frage ich mich, liebes Dell-Team, warum kann man in so einem spieziellen Spiezial Cross-Firmware-Update-Tool, das nur für diese eine und einzige Aufgabe geschaffen wurde, nicht auch noch diesen SMcli-Befehl integrieren? Okay, ich weiß, das ist zu viel verlangt, aber dann lasst diesen Befehl in einer Meldung aufpoppen oder schreibt ihn doch einfach in die Readme!!! Das hätte mir echt einiges an Nerven erspart. In diesem Sinne
Never change a running System
April 28th, 2009 at 12:20
Mit einem Englisch sprachigen OS oder wenn die Ländereinstellungen auf englisch Us ist ,wäre das nich passiert.
Problem liegt vermutlich beim Punkt und Komma
Grüße
April 28th, 2009 at 13:05
Da das Update sicher von der Dell Downloadsite stammt, ist der Punkt “Important Information” oder gar “Wichtige Informationen” gute 5 Cm unter dem Button Download Now. Wenn man dort nicht nur die ersten beiden Notice durchliest,sondern auch noch die dritte liest, steht dort das es mit Non-English zu Problemen kommt.
Dies bedeutet, entweder vorher lesen und zwar alles, denn wenn dieses System SOOO wichtig ist, dann nimmt man sich die Zeit ODER den Dell Support zwischen 08:00 – 18:00 Uhr Anrufen und nach dem Nas/ Storage Team fragen.
Für jemand der sich nicht auskennt, liest sich dieser Artikel natürlich wunderbar, jedoch allein die Aussage auf der Dell Site ist erwähnt das es bei Non-English zu Problemen kommt ist schonmal zurecht gebügelt.
Es erscheint genau unter dem Link für das Firmware Update unter dem Punkt Wichtige Informationen. Jedoch könnte diese Info auch in der Readme stehen, diesem Punkt stimme ich zu.
Lösung, den Client/ Server auf welchem das Cross Gen Update Utility installiert werden soll, VORHER auf English stellen. Dann klappts auch mit den 30 Minuten.
Kleiner Tipp, am besten immer vorher anfragen ob es was zu beachten gibt.
.done.
April 28th, 2009 at 20:11
Hey PEBAC,
welch eine Ehre, dass ein Dell-Mitarbeiter persönlich postet, meine Message ist wohl angekommen! Hey, eigentlich wollt ich euch doch nur darauf hinweisen und euch bitten, die Info mit in die Readme zu packen
. Die NOTICE habe ich im Nachhinein auch gelesen, ich finde die Info ist trotzdem ziemlich gut “versteckt”. Es war echt nen scheiß Abend, kurz vor Mitternacht, alles down, keine Internet zum Nachschlagen und ein Storage das offline ist. Aber auf den Dell Support war verlass, bei anderen Unternehmen hätte man bis zum nächsten Morgen warten müssen. Also nichts für ungut.
Und zum Tipp: Die Info von der Hotline war: Alle I/Os stoppen, dann klappt das schon. Aber zum Glück ist ja im Endeffekt alles gut gelaufen!
Danke für eure Beiträge PEBAC und Loki!
April 30th, 2009 at 16:16
danke für den bericht, ich werde mich am kommenden wochenende ebenfalls an das upgrade wagen. bin ja mal gespannt. ich stell mir jedenfalls valium (zur beruhigung während des updates) und alkohol (für beide fälle; erfolg/mißerfolg) nebenan hin.
achja, und ich werd mir eine englische vm aufsetzen – und nein, nicht am storage!
lgM
Mai 3rd, 2009 at 06:12
hallo gk ..
wenn soweit alles läuft .. dann weiss man nach solch abend .. wie prikelnd solch job sein kann
@ martin ..
call on dell hotline befor ..