2.1.1
Behandlung von Speicherfehlern
Bei der Konfiguration des Hauptspeicher-Subsystems und der Behandlung von
Hauptspeicherfehlern spielt eine Reihe von Funktionen eine Rolle. Mit diesen sollten Sie
vertraut sein, um sich das Identifizieren und Beheben von Hauptspeicherproblemen zu
erleichtern. Im Folgenden wird beschrieben, wie der Server mit Hauptspeicherfehlern
umgeht.
Hinweis – Informationen zur Hauptspeicherkonfiguration finden Sie in
Abschnitt 5.2, „FB-DIMM-Konfiguration – Richtlinien", auf Seite
Der Server arbeitet mit einer erweiterten ECC-Technologie (Error Correcting Code),
die Fehler bis zu 4-Bit in Nibble-Grenzen korrigiert, sofern sie alle dasselbe DRAM
betreffen. Wenn bei 512 MB DRAMs ein DRAM ausfällt, arbeitet das DIMM weiter.
Dieses Funktionsmerkmal hängt davon ab, welcher Typ von DRAMs auf dem FB-
DIMM verwendet wird.
Die folgenden Serverfunktionen sorgen unabhängig voneinander für die
Behandlung von Hauptspeicherfehlern:
POST – POST wird bei jedem Einschalten des Servers ausgeführt, je nach den
■
ALOM-Konfigurationsvariablen.
Bei einem korrigierbaren Hauptspeicherfehler leitet POST den Fehler zur
Fehlerbehandlung an den PSH-Dämon (Solaris Predictive Self-Healing) weiter.
Wenn POST einen nicht korrigierbaren Fehler des Hauptspeichers erkennt, wird
dieser mit dem Namen der fehlerhaften FB-DIMMs angezeigt und der Fehler wird
protokolliert. Anschließend deaktiviert POST die fehlerhaften FB-DIMMs. Je nach
Hauptspeicherkonfiguration und Position der fehlerhaften FB-DIMMs deaktiviert
POST die Hälfte des physischen Hauptspeichers im System oder die Hälfte des
physischen Hauptspeichers und die Hälfte der Prozessor-Threads. Wenn diese
Außerbetriebsetzung im normalen Betrieb erfolgt, müssen Sie die in der
Fehlermeldung genannten fehlerhaften FB-DIMMs austauschen und die deaktivierten
FB-DIMMs mit dem ALOM CMT-Befehl enablecomponent wieder aktivieren.
Solaris Predictive Self-Healing (PSH) – Als Funktion des Betriebssystems Solaris
■
überwacht PSH das System mit dem Fault Manager-Dämon (fmd) auf
verschiedene Arten von Fehlern. Wenn ein Fehler auftritt, wird ihm eine
eindeutige Fehler-ID (UUID) zugewiesen und der Fehler wird protokolliert. PSH
meldet den Fehler und empfiehlt den Austausch der FB-DIMMs, die mit dem
Fehler in Zusammenhang stehen.
Wenn Sie vermuten, dass ein Hauptspeicherproblem vorliegt, gehen Sie wie im
Flussdiagramm erläutert vor (siehe
Befehl showfaults aus. In der Ausgabe des Befehls showfaults werden
Hauptspeicherfehler und die FB-DIMMs, die mit dem jeweiligen Fehler in
Zusammenhang stehen, aufgeführt.
). Führen Sie den ALOM CMT-
ABBILDUNG 2-1
Kapitel 2 Diagnoseverfahren für den Server
5-11.
2-7