Das längste Thema

  • Was wäre die Alternative? Weiter ohne ECC und auf das Beste hoffen? Neuaufsetzen kommt nicht in Frage.

    "Bisher lief ja alles gut" ist trügerisch. Wenn durch fehlerhafte bits fehlerhafte Daten in eine der DBs geschrieben wurde, bekommt man das nicht notwendigerweise gleich mit.

    Auf dem betreffenden Server habe ich 64GB und halte fast alles im RAM. Irgendwie habe ich da auf Dauer kein gutes Gefühl, ohne ECC.

    Wo siehst du das konkrete Problem beim Austausch der Riegel?

  • Eine Frage habe ich allerdings noch an diejenigen hier, die sich mit ECC-RAM auskennen:
    Was macht das System, wenn es einen nichtbehebbaren bitfehler findet? (2 oder 3 bit)

    HOLD oder nur irgendeine Meldung in irgendeinem log? Oder kann man das evtl. sogar irgendwo festlegen?

    Falls das System dann tatsächlich gestoppt wird, können diese Art von Fehler ja nicht allzuoft vorkommen. (Sonst würden die Server hier ja öfter stillstehen ;))

    Werden korrigierte 1bit-Fehler irgendwo geloggt?

  • Eine Frage habe ich allerdings noch an diejenigen hier, die sich mit ECC-RAM auskennen: […]

    Ist alles Hardware-/Chipsatz-abhängig, vgl. How do I get notified of ECC errors in Linux? (Am besten einmal von oben nach unten durchgehen und ggf. Begriffe notieren, wenn es keine Erklärungslinks zu diesen dort gibt.)

    VServer IOPS Comparison Sheet: https://docs.google.com/spreadsheets/d/1w38zM0Bwbd4VdDCQoi1buo2I-zpwg8e0wVzFGSPh3iE/edit?usp=sharing

  • Wo siehst du das konkrete Problem beim Austausch der Riegel?

    grundsätzlich gar nicht, aber bei dem "Ja, problemlos" habe ich so meine Zweifel;

    machen die sich wirklich einen Termin aus, wo Du den Server vorher sauber 'runterfährst,

    dann Dein Ok gibst, die dann die RAM-Riegel tauschen

    und dann den Server hochfahren und Dir die Kontrolle wieder geben?


    klar dass für Dich ein Neuaufsetzen nicht in Frage kommt,

    aber dass die der Einfachheit halber hergehen den Server per ACPI abdrehen

    und die Platte in ein anderes Blech mit ECC geben, würde ich nicht ausschließen ...


    Hot-Swap Platten/SSDs findet man häufiger als Hot-Swap RAM;


    wie m_ueberall es erwähnt hat, dass das ganze natürlich von der Gesamthardware Chipsatz und CPU abhängt,

    ob ECC RAMs überhaupt unterstützt werden; schau mal nach welcher Chipsatz hier zum Einsatz kommt,

    und welche CPU, und dann lies in den Specs nach, ob sowohl die CPU als auch der Chipsatz ECC-RAMs unterstützen;

    (beim Chipset in meinem PC beispielsweise würden ECC-RAMs zwar unterstützt werden,

    aber weil die CPU keinen ECC-Support hat, habe ich auch keine ECC-RAMs)

    Grüße / Greetings

    Walter H.


    RS, VPS, Webhosting - was man halt so braucht;)

  • schau mal nach welcher Chipsatz hier zum Einsatz kommt, und welche CPU, und dann lies in den Specs nach, ob sowohl die CPU als auch der Chipsatz ECC-RAMs unterstützen.

    Klar kenne ich Chipsatz und CPU. (Ist OK)

    Aber ist doch ebenso klar, dass die dieses Upgrade nur für die Servermodelle anbieten, wo das auch geht. (Gibt ja auch ne entsprechende Liste online, wo alle Upgrademöglichkeiten drinstehen) Ganz sicher bieten die kein ECC-Upgrade an, wenn die Hardware das nicht kann. ;)

    Und ja, man kann einen Termin wählen für den Austausch. (Und somit den Server vorher sauber runterfahren)

  • Ist alles Hardware-/Chipsatz-abhängig, vgl. How do I get notified of ECC errors in Linux? (Am besten einmal von oben nach unten durchgehen und ggf. Begriffe notieren, wenn es keine Erklärungslinks zu diesen dort gibt.)

    Danke für den Link.


    Ich habe mir jetzt schnell mal ein 30,- Blech mit ECC-RAM auf der Serverbörse geschossen. (Man glaubt kaum wieviel Geld man plötzlich über hat, wenn man nicht mehr ständig in Kneipen rumhängen kann. 8) Und das Ding ist ja ohne Einrichtungsgebühr monatlich kündbar)


    Dort (Intel Xeon/ASUSTeK Board) klappt das tatsächlich gut mit edac-util -v

    mc0: 0 Uncorrected Errors with no DIMM info

    mc0: 0 Corrected Errors with no DIMM info

    edac-util: No errors to report.

    (Schau mer mal, ob das dann bei dem AMD-Ryzen5/ASRockRack System auf dem ich das upgraden will, auch damit geht)

    mcelog scheint aber von ubuntu 20.04 nicht mehr unterstützt zu werden...


    Mal sehen, was man noch so an Infos rausquetschen kann...

    (Auf den virtualisierten Servern hier kommt man ja wohl nicht an alle diese Daten wirklich ran :/)


    EDIT:

    mcelog scheint aber von ubuntu 20.04 nicht mehr unterstützt zu werden...

    Könnte man wohl aus anderen, älteren Quellen trotzdem installieren, scheint dann aber wohl u.U. Probleme zu bereiten.

    Stattdessen wird nun wohl rasdaemon empfohlen.

    Das scheint auch (weitgehend) zu funktionieren, bis auf einen bug bei --summary der auf manchen System (auch bei mir) auftreten kann. (sqlite Problem).

    Da gibt es wohl einen patch, aber ich habe einfach mal auf die schnelle die kritischen Zeilen in ras-mc-ctl auskommentiert (Keine RAM Infos), dann klappt es:

    $ ras-mc-ctl --summary

    No Memory errors.

    ...


    Ich glaube, viel mehr Werkzeuge stehen einem nicht zu Verfügung, oder?

  • 64GB und halte fast alles im RAM

    Wird so richtig pikant mit Vollverschlüsselung, dann wird nix mehr gerettet. Und Ja RAM austauschen für ECC würe ich mir keinen Gedanken machen, cold swap ist sowieso kein Problem und die werden ja wohl wissen wie sie das so anbieten, das ist ab da definitiv nicht dein Problem.

  • Ich hoffe man hatte erkannt, dass ich das nur als Ironie gemeint habe. War selber damals etwas überrascht, dass die das versucht haben. So kann man sich halt auf dem Papier etwas höheren Preis versuchen durchzusetzen gegen andere Agentur wenn rein nach dem Preis entschieden wird. Als "Feature" was die anderen nicht haben und deswegen nicht vergleichbar sind.

    Aber nur, wenn der Admin gestümpert hat. :)

    Es fehlt eindeutig das :kaffee: emoticon hier.

  • Habe ebenfalls einen dedizierten für 46€ beim H. Da bin aber ein bisschen gelackmeiert wenn mal was hardwaretechnisches ausfällt. Echtes Blech ist nicht immer unbedingt besser. Auf meinem RS8000 muss ich mir keine Gedanken machen wenn mal ne Festplatte abraucht oder ein Netzteil den Geist aufgibt.

    Ja. Das ist tatsächlich etwas anderes. Habe ich soeben auch selbst festgestellt.


    Auf der Serverbörse ein Blech erworben und mal durchgetestet. Schien alles so weit OK aber dann smartctl für die zweite SSD:
    "SMART overall-health self-assessment test result: FAILED! - NVM subsystem reliability has been degraded"

    Oops. :huh: Ticket aufgemacht. Prompte Reaktion (am Wochenende!) "Könnte an den Kontakten liegen, wir reinigen die mal schnell" (sinngemäß)

    Und siehe da, kurz danach war alles im grünen Bereich. :thumbup:


    Zeigt zwei Dinge:
    Bei einem dedizierten Server muss man die Hardware tatsächlich selbst im Auge behalten.
    Aber wenn der Support professionell ist, dann passt das schon. :)

  • Ich hoffe man hatte erkannt, dass ich das nur als Ironie gemeint habe.

    nicht wirklich zumal ich da schon einiges erlebt habe und momentan erlebe,

    wie Ideenreich man ist, um die Leut' abzuzocken bzw. im Umkehrschluss sich legal zu bereichern;

    Grüße / Greetings

    Walter H.


    RS, VPS, Webhosting - was man halt so braucht;)