ECC oder nicht?

  • Hallo zusammen


    Mich würde mal interessieren für wie wichtig bzw. sinnvoll ihr den Einsatz von ECC-RAM haltet.


    Hier bei netcup hat man es ja automatisch, aber bei eigenen Maschinen zuhause oder dedizierten woanders hat man ja die Wahl.

    Im Netz finde ich die ganze Bandbreite von "Auf jeden Fall unbedingt zu empfehlen" bis "Komplett rausgeschmissenes Geld"


    Habt ihr fundierte Infos zur Häufigkeit von bitflips? (Mit verlässlicher Quelle wäre es natürlich besser, als "Soweit ich weiß..." ;) )

  • Ich habe mehrere Jahre lang zwei Synology DS am laufen gehabt, die ja auch ohne ECC daher kommen. Und seit einem 3/4 Jahr benutzte ich einen unRAID Server ohne ECC auf dem rund um die Uhr 12 Docker Container und 2 VMs laufen und noch nie irgend etwas in dieser Richtung bemerkt.


    Dies ist natürlich eine private Meinung, es gab wohl mal eine Untersuchung von Google, wonach pro Jahr bei 1GBit RAM 1 Bit kippt. Die Quelle dafür ist mir allerdings nicht mehr bekannt.

  • Ich hatte zu dem Thema irgendwann mal einen interessanten Talk gesehen, den ich leider nicht mehr wiederfinde auf die Schnelle. Die Quintessenz war, dass ECC im Rechenzentrum durchaus Sinn ergibt. Daraus habe ich "für mich" die Regel abgeleitet: Server bzw. 24/7-online-Kiste mit ECC RAM, Desktop/Laptop ohne.


    Trotzdem überlege ich es mir gut, ob mein nächster Rechner für zuhause nicht auch ECC-RAM bekommt.

  • ...es gab wohl mal eine Untersuchung von Google, wonach pro Jahr bei 1GBit RAM 1 Bit kippt.

    Ich habe seit ein paar Monaten zusammen 128 GB ECC laufen (24/7)

    Da müssten ja jetzt statistisch schon einige gekippt sein. Das Monitoring zeigt aber nichts.

    Entweder ist die Rate also viel weniger oder das Monitoring funktioniert nicht (Was durchaus sein kann, denn wie soll ich es testen ;))


    [netcup] Lars S.

    Wie ist das bei netcup? Überwacht ihr das? Habt ihr Statistiken dazu?

  • Das ist gar nicht mehr so einfach, von den Preisen ganz abgesehen, die neuen Intel Desktop CPUs bieten gar kein ECC mehr. Da muss schon ein Xeon sein.

    Oder halt eine CPU von AMD - selbst die Ryzen können (bei passendem Board) Basisfunktionen mit ECC-Riegeln verwenden. Es wird auf jeden Fall kein normales "Desktop"-Setup werden, weil welches Desktop-Board kann schon ECC? Das sind leider die allerwenigsten.

  • Das Paper hier finde ich ganz interessant:


    http://www.petarradojkovic.com/publications/MEMSYS-2019__DRAMErrors.pdf


    Ist allerdings schon 3 Jahre alt. Ansonsten findet sich vielleicht noch was, wenn man nach MTBF oder MTTF von DRAM sucht, ggf. aus irgendwelchen Functional Safety Betrachtungen. Aus dem Feld der Functional Safety dürften die meisten Betrachtungen in der Richtung stattgefunden haben, z.B. ISO 26262 oder IEC 61508.

  • ... und da denkt man, dass Computer immer genau das tun was man ihnen sagt (behaupte ich bei meiner Mutter immer, wenn der "ich-wars-nicht-aber-alles-ist-kaputt"-Anruf kommt).


    Ich betreibe jetzt seit mehreren Jahren nahezu 24/7 eine Synology Disk Station mit selbst aufgerüstetem RAM ohne ECC (ist aus der Garantie raus, jetzt darf ich es auch zugeben :D) und habe bisher - toi toi toi - noch nichts bemerkt was auf irgendwelche kaputten Dateien hinweist (was, neben RAM-Flipsen auch durch Platten-Flipsen passieren könnte...). Natürlich kann ich bei mehreren TB Daten nicht garantieren, dass die tatsächliche Situation nicht anders aussieht. Spürbar war es jedenfalls bisher nicht.


    Damit wäre auch eine interessante Nachfolgefrage (bitte nicht hier diskutieren, möchte den Thread nicht feindlich übernehmen) wie sich die Situation eigentlich auf als persistent gedachten Datenspeichern darstellt...

    Matthias Lohr Project Blog: https://mlohr.com/

    PGP: 0x8FC3060F80C31A0A

  • Die Frage ist trotzdem, ob man einzelne Bitfehler ohne ECC überhaupt bemerkt. Zum Beispiel ein einzelnes umgedrehtes Bit in einer Textdatei fällt gar nicht großartig auf. War halt ein Tippfehler ;)


    Wenn die Wahrscheinlichkeit für solche Fehler auch noch so klein ist: Sobald größere Mengen an RAM im Spiel sind oder 24/7 Betrieb bzw. eine intensive Nutzung des Systems ansteht, spricht vor allem bei wichtigen Daten alles für ECC, um jegliches Risiko zu minimieren. Wenn es sich nur um ein Gamingsystem handelt, bei dem maximal die heruntergeladenen Assets des nächstbesten Steam-Games beschädigt werden, ist ECC natürlich fragwürdig. ^^


    Und wenn wir schon am Diskutieren sind, wäre ein Thread zu "Silent Data Corruption" mindestens genau spannend.


    Edit: mlohr Zwei Dumme, ein Gedanke. Was den letzten Absatz unserer Beiträge betrifft :)

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

    Einmal editiert, zuletzt von KB19 ()

  • Glaube bei Bildern und Textdateien sind die Bitfehler nicht schlimm. Witzig wirds halt, wenn wir anfangen über z. b. verschlüsselte oder komprimierte Daten zu sprechen. Da fällt so ein Fehler schon recht krass ins Gewicht. Vermutlich.

    Matthias Lohr Project Blog: https://mlohr.com/

    PGP: 0x8FC3060F80C31A0A

  • Lustig würde es vor allem werden, wenn das System aufgrund eines umgedrehten Bits plötzlich anders arbeitet.


    Wenn mitten in einem Schleifendurchlauf etwas anderes in einer Variable steht, kann das unschön enden…

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Kommt drauf an. Minecraft Server? Da brauchste das nicht. Für Zeug das zuverlässig arbeiten muss (Nextcloud in Firma z.B.) ist ECC verdammt wichtig, da keiner will dass mit der Zeit die daten aufgrund eines Falschen Bits kaputt geschrieben werden.

    VPS Secret • VPS 200 G8 • 4x VPS piko G11s • 2x RS 1000 G9.5 SE NUE • RS Cyber Quack • VPS 1000 ARM G11 VIE

    c@compi.moe

  • wenn wir anfangen über z. b. verschlüsselte oder komprimierte Daten zu sprechen

    Wichtige Daten sollten (vom Dateisystem oder Tools) nach dem Speichern "kontrollgelesen" bze überprüft werden.

    ECC ist nach meiner Meinung nur z.B. als schneller Cache in Hardware Raid Controllern notwendig.

  • Für Zeug das zuverlässig arbeiten muss (Nextcloud in Firma z.B.) ist ECC verdammt wichtig, da keiner will dass mit der Zeit die daten aufgrund eines Falschen Bits kaputt geschrieben werden.

    Das Risiko halte ich angesichts der anderen Gefahren für vernachlässigbar.

    Immer wieder sehenswert:

    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.

  • Immer noch kein gekipptes bit.

    Entweder ist die Fehlerrate der neueren RAM-Riegel tatsächlich so gering oder mein Monitoring über edac taugt nix.

    Mittlerweile befürchte ich fast letzteres. :(

  • Mein Arbeitsrechner auf Arbeit läuft 24/7, weil ich kein Bock habe, jedes Mal nach dem Hochfahren das Arbeitsprojekt zu öffnen und zu ordnen, wie es vorher war. Was soll ich sagen, der läuft fehlerfrei seit September 2021, und hat nicht mal ECC. Ist ein ThinkCentre von Lenovo. Möglicherweise sind die neueren DDR4 Technologie so gut, dass ECC nicht unbedingt erforderlich ist?


    Edit: Jetzt stell ich mir die Frage, ob ein umgekipptes Bit das ganze System zum Absturz bringt? Ich habe jedenfalls nichts gemerkt, ob ein Textdokument oder irgendwas beschädigt wurde.

    RS Fast Rabbit OST21

    Einmal editiert, zuletzt von joas ()

  • Edit: Jetzt stell ich mir die Frage, ob ein umgekipptes Bit das ganze System zum Absturz bringt?

    Wenn du Glück hast. ;)

    Wenn du Pech hast, ändert es dir eine Schleifenvariable und berechnet dadurch falsche Daten, deren Auswirkung du dann erst irgendwann viel später bemerkst.