Das macht den Computer doch schneller.
... alt bzw. kaputt
Das macht den Computer doch schneller.
... alt bzw. kaputt
.. alt bzw. kaputt
Psst... Wenn mal jemand de-Domains braucht: https://www.hosttest.de/domain…nkl-dnssec-und-12152.html
Ich hab beim Startup eines meiner Server scheinbar ein ungelöstes Race-Condition Problem. Ist mein Thema.
Aber warum ist der Server grade überhaupt rebootet? Vor 20 Minuten ist der Ohne Grund neugestartet. Syslog gibts nichts her
Jemand Ideen / Anhaltspunkte / tiefere Analysevorschläge?
Sep 2 19:05:01 hostname CRON[18818]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Sep 2 19:10:01 hostname CRON[21910]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Sep 2 19:14:45 hostname systemd[1]: Stopped target Timers.
Sep 2 19:14:45 hostname systemd[1]: Stopping Authorization Manager...
Sep 2 19:14:45 hostname knockd: waiting for child processes...
Sep 2 19:14:45 hostname systemd[1]: Stopped target RPC Port Mapper.
Sep 2 19:14:45 hostname knockd: shutting down
Sep 2 19:14:45 hostname systemd[1]: Stopped Daily Cleanup of Temporary Directories.
Sep 2 19:14:45 hostname systemd[1]: Stopped Run certbot twice daily.
Sep 2 19:14:45 hostname systemd[1]: Stopping Port-Knock Daemon...
Sep 2 19:14:45 hostname systemd[1]: Stopping Session 966 of user root.
Sep 2 19:14:45 hostname systemd[1]: Stopped Daily apt upgrade and clean activities.
Sep 2 19:14:45 hostname systemd[1]: Stopped Daily apt download activities.
Sep 2 19:14:45 hostname systemd[1]: Stopped target System Time Synchronized.
Sep 2 19:14:45 hostname systemd[7688]: Stopped target Default.
Sep 2 19:14:45 hostname systemd[7688]: Stopped target Basic System.
Sep 2 19:14:45 hostname systemd[7688]: Stopped target Paths.
Sep 2 19:14:45 hostname systemd[7688]: Stopped target Sockets.
Sep 2 19:14:45 hostname systemd[7688]: Closed GnuPG cryptographic agent (access for web browsers).
Sep 2 19:14:45 hostname systemd[7688]: Closed GnuPG cryptographic agent and passphrase cache.
Sep 2 19:14:45 hostname systemd[7688]: Closed GnuPG cryptographic agent and passphrase cache (restricted).
Sep 2 19:14:45 hostname systemd[7688]: Closed GnuPG cryptographic agent (ssh-agent emulation).
Sep 2 19:14:45 hostname systemd[7688]: Closed GnuPG network certificate management daemon.
Sep 2 19:14:45 hostname systemd[7688]: Reached target Shutdown.
Sep 2 19:14:45 hostname systemd[7688]: Stopped target Timers.
Sep 2 19:14:45 hostname systemd[7688]: Starting Exit the Session...
Sep 2 19:14:45 hostname systemd[1]: Stopping User Manager for UID 0...
Sep 2 19:14:45 hostname systemd[1]: Stopping PackageKit Daemon...
Sep 2 19:14:45 hostname systemd[1]: Stopped target Graphical Interface.
Sep 2 19:14:45 hostname systemd[1]: Stopped target Multi-User System.
Sep 2 19:14:45 hostname systemd[1]: Stopping Icinga host/service/network monitoring system...
Sep 2 19:14:45 hostname systemd[1]: Stopping Fail2Ban Service...
Sep 2 19:14:45 hostname systemd[1]: Stopping Docker Application Container Engine...
Sep 2 19:14:45 hostname systemd[1]: Stopping Munin Node...
Sep 2 19:14:45 hostname systemd[1]: Stopped target Login Prompts.
Sep 2 19:14:45 hostname dockerd[9340]: time="2019-09-02T19:14:45.248495852+02:00" level=info msg="Processing signal 'terminated'"
Sep 2 19:14:45 hostname systemd[1]: Stopping Getty on tty1...
Sep 2 19:16:03 hostname systemd[1]: Started Apply Kernel Variables.
Sep 2 19:16:03 hostname kernel: [ 0.000000] Linux version 4.9.0-9-amd64 (debian-kernel@lists.debian.org) (gcc version 6.3.0 20170516 (Debian 6.3.0-18+deb9u1) ) #1 SMP Debian 4.9.168-1+deb9u5 (2019-08-11)
Sep 2 19:16:03 hostname kernel: [ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.9.0-9-amd64 root=UUID=ce2186c7-357a-4ee6-832a-d9c6d831ee0b ro quiet
Alles anzeigen
Jemand Ideen / Anhaltspunkte / tiefere Analysevorschläge?
~# grep -rn /var/log -e "Power key" -A 2 -B 2
/var/log/auth.log-3186-Sep 2 19:12:58 hostname sshd[23589]: Connection closed by 192.168.X.X port 58350 [preauth]
/var/log/auth.log-3187-Sep 2 19:13:58 hostname sshd[24134]: Connection closed by 192.168.X.X port 58452 [preauth]
/var/log/auth.log:3188:Sep 2 19:14:45 hostname systemd-logind[757]: Power key pressed.
/var/log/auth.log-3189-Sep 2 19:14:45 hostname systemd-logind[757]: Powering Off...
/var/log/auth.log-3190-Sep 2 19:14:45 hostname systemd-logind[757]: System is powering down.
Ähm, okay...
SCP-Log sagt nichts...
Hecke29 journalctl -b müsste dir die Verklemmung zeigen. dmesg hilft nach.
systemd-analyse macht ein Profiling des Bootvorgangs.
Was sagt der Support dazu? Und wieso tauchen ACPI Events im auth.log auf?
Danke für die Antwort.
Die RaceCondition ist erst auf Applikationsebene (Docker Container), also da muss ich nicht tiefer analysieren. Mir ging's um die Quelle des Reboots. Die hab ich ja mittlerweile "gefunden".
Warum die im auth.log sind ist wiederum eine gute Frage. In graylog ist es auch als facility security/authorization eingegangen. Scheint wenigstens konsequent zu sein. Explizit absichtlich konfiguriert hab ich da nichts ?
graylog
Das ist ja eine feine Sache... Danke für den (indirekten) Tipp!
Glaube mir, bei mehreren 10.000 Requests siehst du das im RAM und in der CPU Util ob da ein nginx oder Apache am Werk ist.
Nginx spawnt weniger Prozesse und hat dadurch einen geringeren Memory Footprint.
Ist das noch so? Ich habe keine wirklich ausgelastete Seite und kann das schwer beurteilen. Ich liebe aber die Flexibilität von Apache[*] und habe kaum statische Seiten (und die paar bringen den Apache/Server nicht an die Grenzen). Was den Server bei mir auslastet (CPU und RAM) sind Datenbank und PHP. Als ich letztes mal getestet habe war nginx nur bei statischen Seiten schneller und die PHP Performance (PHP-FPM) und Datenbank war Webserver unabhängig der größte Faktor. Ich weiß, dass bei Admins der eingesetzte Webserver schon Züge einer Religion hat, die bis zum allerletzten Verteidigt werden muss, aber mal ehrlich: Wie groß ist der Einfluss des Webservers heute überhaupt noch? Gibts da ein paar neutrale Meinungen (Daten) von Leuten mit hoher Auslastung? Hätte da gerne (einfach interessehalber) mal ein paar Meinungen
[*] Natürlich muss man darauf achten, "AllowOverride None", zu haben und die benötigten Verzeichnisse per "AllowOverrideList" explizit anzugeben.
Ist das noch so?
nicht unbedingt; @H6G's Aussage stützt sich auf den meist deaktivierten Schalter in Apache: KeepAlive Off
ist dieser eingeschaltet, dann erlaubt man mehr als einen Request pro Verbindung; und die Anzahl an Verbindungen korrelliert mit den Anzahl an Prozessen;
aber Achtung: ein KeepAlive On kann auch ein gewaltiges Sicherheitsproblem darstellen;
Bei meiner API war auch eher PHP der Flaschenhals. Hatte zum Ende absurd große Werte in den Pool Einstellungen gesetzt und dennoch landeten viele Anfragen in nem Gateway Error. IO Probleme gab es keine.
Der neuen Implementierung ist das hingegen egal. Der Kestrel Webserver den Microsoft in .net Core verbaut hat ist einfach nur Wahnsinn. Und zusätzlich findet die komplette Ausführung im RAM statt. Es muss auf keine Dateien zugegriffen werden.
Glaube viel mehr optimieren kann man das nicht. Außer vielleicht das als Kernel Modul zu implementieren.
Mir ging's um die Quelle des Reboots. Die hab ich ja mittlerweile "gefunden".
Zitat von netcup Supportvielen Dank für Ihre Anfrage.
Der Server wurde zu dieser Zeit auf eine andere Node migriert. Gelegentlich ist des dabei notwendig die VM herunterzufahren.
Ab wieviel Downtime des Mailservers sollte ich in Erwägung ziehen, mailcow (dockerized) auf einem anderen Docker-Host aufzusetzen und das Backup einzuspielen?
Ab wieviel Downtime des Mailservers sollte ich in Erwägung ziehen, mailcow (dockerized) auf einem anderen Docker-Host aufzusetzen und das Backup einzuspielen?
Mails gehen ja zum Glück nicht verloren, sondern werden dann einfach später zugestellt. Allzulange sollte man aber auch nicht warten. Ich sage jetzt einfach mal, alles, was innerhalb von 48h behoben werden kann, ist zwar ärgerlich, aber noch im Rahmen. Ab diesem Zeitpunkt aber wäre ein Einspielen des Backups sicherlich eine gute Idee.
[…] alles, was innerhalb von 48h behoben werden kann, ist zwar ärgerlich, aber noch im Rahmen. Ab diesem Zeitpunkt aber wäre ein Einspielen des Backups sicherlich eine gute Idee.
Dabei nicht vergessen, dass auch ein eventuell erforderliches "Umbiegen" des MX-DNS-Eintrags Zeit in Anspruch nehmen kann (insbesondere dann, wenn der alte Eintrag bei der Gegenseite eine Weile im DNS-Cache verbleibt). Schlimmstenfalls/als "Workaround" sollte man in diesem Fall überlegen, (ggf. zusätzlich) bei einem IP-/Rechnerwechsel einen temporären Tunnel vom alten zum neuen Host einzurichten.
Dabei nicht vergessen, dass auch ein eventuell erforderliches "Umbiegen" des MX-DNS-Eintrags Zeit in Anspruch nehmen kann (insbesondere dann, wenn der alte Eintrag bei der Gegenseite eine Weile im DNS-Cache verbleibt). Schlimmstenfalls/als "Workaround" sollte man in diesem Fall überlegen, (ggf. zusätzlich) bei einem IP-/Rechnerwechsel einen temporären Tunnel vom alten zum neuen Host einzurichten.
Guter Hinweis. Aus diesem Grund bevorzuge ich es auch, wenn man die TTLs möglichst niedrig hält (bei mir max. 5 min). Das macht es in vielen Fällen leichter.
Auch würde ich empfehlen, dass keine 1:1 Kopie eingespielt wird, sondern gerade im Fall des SMTP Servers eine weitere Domain mit eigenem A/AAA Record genutzt wird (wenn der ursprüngliche Server mx1.example.tld war, dann den neuen Server als mx2.example.tld konfigurieren). Dann reicht es, wenn man hier den MX Eintrag ändert, es müssen dann nicht sämtliche Einträge geändert werden. Für den IMAP/POP bzw. Submission Server würde ich hingegen schon die Domains behalten, da hier ansonsten sämtliche Clients umkonfiguriert werden müssten. Aber in erster Linie ist es ja wichtig, dass der Mailempfang wieder funktioniert.
ZitatGuter Hinweis. Aus diesem Grund bevorzuge ich es auch, wenn man die TTLs möglichst niedrig hält (bei mir max. 5 min). Das macht es in vielen Fällen leichter.
Eine kleine TTL bürgt das Risiko, dass der Internetauftritt eine Weile offline sein kann. Das passiert zwar selten, aber auch die Registries können einmal ausfallen, so wie z.B. die Denic im Jahr 2010: https://www.heise.de/newsticke…lahm-3-Update-999068.html
Ich erinnere mich an den Ausfall noch sehr gut.
Ich könnte mich grade schon wieder aufregen.
Eben muss man dem einen Berufsschullehrer noch erklären, was die agile Arbeitswelt ist und dass man nicht zwangsweise einen hierarchischen Aufbau im Unternehmen benötigt, und nun erkläre ich dem anderen Lehrer zum wiederholten mal, dass keiner von uns im Unternehmen Debian, sondern eher RHEL/CentOS oder SLES/openSUSE nutzt. Trotzdem werden wir daran ausgebildet... meine Güte, was bin ich froh mir das alles selbst beigebracht zu haben.
Mal ganz abgesehen davon, dass wir hier immer noch auf Debian 8 arbeiten... nur ein kleiner Ausschnitt des Unheils. Blutdruckfördernd.
nur ein kleiner Ausschnitt des Unheils. Blutdruckfördernd.
Nachdem ich ihn grade zum gefühlt hundertsten mal berechtigt korrigiert habe, wurde mir der Rausschmiss angedroht. Ich will wieder normal auf Arbeit, da hab ich wenigstens kompetente Leute um mich herum!