Instabiler RS 2000 G7SE 15 years

SCD · 5. Juli 2017

Hallo,

mein neuer RS 2000 G7SE 15 years ist sehr instabil. Ich wurde bereits zweimal auf einen anderen Node verschoben. Das System, Debian Stretch unter 3.14.51-grsec, lief auf dem Root-Server M SSD v6 ohne Probleme. Dies wurde per RSync in der Recovery-Console auf das neue System kopiert und nur die IP-Addresse /etc bzw. die fstab entsprechend angepaßt.

Da ich vermutet habe, das der Kernel mit dem neuen Server nicht richtig zusammenläuft, habe ich den Kernel auf 4.11.8 aktualisiert. Trotzdem bekomme ich noch ständig Kernel-Meldungen wie

Code

[Mi Jul  5 20:13:01 2017] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 30s! [imap:3474]
[Mi Jul  5 20:13:01 2017] Modules linked in: fuse ipt_REJECT nf_reject_ipv4 xt_multiport iptable_filter cpufreq_conservative cpufreq_userspace cpufreq_powersave quota_v2 quota_tree ghash_clmulni_intel pcbc ppdev aesni_intel aes_x86_64 snd_pcm crypto_simd cryptd joydev evdev glue_helper sg snd_timer serio_raw snd virtio_balloon soundcore parport_pc tpm_tis pcspkr tpm_tis_core tpm parport button loop ip_tables x_tables autofs4 aacraid raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor hid_generic usbhid hid raid6_pq raid1 raid0 md_mod sata_nv sata_sil sata_via sr_mod cdrom sd_mod ata_generic virtio_scsi virtio_net crc32c_intel psmouse uhci_hcd ehci_hcd ata_piix virtio_pci virtio_ring usbcore virtio usb_common floppy
[Mi Jul  5 20:13:01 2017] CPU: 0 PID: 3474 Comm: imap Not tainted 4.11.8 #1
[Mi Jul  5 20:13:01 2017] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS 1.9.3-20161116_142049-atsina 04/01/2014
[Mi Jul  5 20:13:01 2017] task: ffff88032e229200 task.stack: ffffc90003514000
[Mi Jul  5 20:13:01 2017] RIP: 0010:exit_to_usermode_loop+0x50/0xa0
[Mi Jul  5 20:13:01 2017] RSP: 0000:ffffc90003517f20 EFLAGS: 00000202 ORIG_RAX: ffffffffffffff10
[Mi Jul  5 20:13:01 2017] RAX: ffff88032e229200 RBX: 0000000000000008 RCX: ffffffff81e0e500
[Mi Jul  5 20:13:01 2017] RDX: 0140000000000000 RSI: 0000000000000008 RDI: ffffc90003517f58
[Mi Jul  5 20:13:01 2017] RBP: ffff88032e229200 R08: 0000000000000400 R09: ffff88032e229200
[Mi Jul  5 20:13:01 2017] R10: ffff88033fc03f28 R11: 0000000000000001 R12: ffff88032e229200
[Mi Jul  5 20:13:01 2017] R13: ffff88032e229200 R14: ffffc90003517f58 R15: 0000000000000000
[Mi Jul  5 20:13:01 2017] FS:  00007efc7156f200(0000) GS:ffff88033fc00000(0000) knlGS:0000000000000000
[Mi Jul  5 20:13:01 2017] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Mi Jul  5 20:13:01 2017] CR2: 00007f8ca83aa000 CR3: 000000032f970000 CR4: 00000000003406f0
[Mi Jul  5 20:13:01 2017] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[Mi Jul  5 20:13:01 2017] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[Mi Jul  5 20:13:01 2017] Call Trace:
[Mi Jul  5 20:13:01 2017]  ? prepare_exit_to_usermode+0x2a/0x30
[Mi Jul  5 20:13:01 2017]  ? retint_user+0x8/0x10
[Mi Jul  5 20:13:01 2017] Code: 48 8b 2c 25 80 c5 00 00 eb 1d f6 c3 04 75 28 f6 c3 02 75 30 80 e7 08 75 45 fa 48 8b 45 00 a9 0e 18 00 00 89 c3 74 3e fb f6 c3 08 <74> dd e8 39 be 85 00 f6 c3 04 74 d8 4c 89 f7 e8 8c 9d 01 00 f6
[Mi Jul  5 20:13:01 2017] clocksource: timekeeping watchdog on CPU3: Marking clocksource 'tsc' as unstable because the skew is too large:
[Mi Jul  5 20:13:01 2017] clocksource:                       'hpet' wd_now: 669d9d38 wd_last: a4637f60 mask: ffffffff
[Mi Jul  5 20:13:01 2017] clocksource:                       'tsc' cs_now: 24c65c202be cs_last: 23a3046a04e mask: ffffffffffffffff
[Mi Jul  5 20:13:01 2017] sched_clock: Marking unstable (1047889686948, 49988077)<-(1048005102520, -65427495)
[Mi Jul  5 20:13:01 2017] tsc: Marking TSC unstable due to clocksource watchdog
[Mi Jul  5 20:13:01 2017] clocksource: Switched to clocksource hpet
[Mi Jul  5 20:13:38 2017] ata2: lost interrupt (Status 0x58)
[Mi Jul  5 20:13:38 2017] ata2: drained 8 bytes to clear DRQ
[Mi Jul  5 20:13:38 2017] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[Mi Jul  5 20:13:38 2017] ata2.00: cmd a0/00:00:00:08:00/00:00:00:00:00/a0 tag 0 pio 16392 in
                                   Get event status notification 4a 01 00 00 10 00 00 00 08 00res 40/00:02:00:08:00/00:00:00:00:00/a0 Emask 0x4 (timeout)
[Mi Jul  5 20:13:38 2017] ata2.00: status: { DRDY }
[Mi Jul  5 20:13:38 2017] ata2: soft resetting link
[Mi Jul  5 20:13:39 2017] ata2.01: NODEV after polling detection
[Mi Jul  5 20:13:39 2017] ata2.00: configured for MWDMA2
[Mi Jul  5 20:13:39 2017] ata2: EH complete
[Mi Jul  5 20:14:07 2017] perf: interrupt took too long (5225 > 5120), lowering kernel.perf_event_max_sample_rate to 38250
[Mi Jul  5 20:15:22 2017] perf: interrupt took too long (6549 > 6531), lowering kernel.perf_event_max_sample_rate to 30500

Alles anzeigen

Code: /etc/sysctl.conf

vm.dirty_background_ratio=5
vm.dirty_ratio=10
kernel.perf_event_paranoid=3
kernel.sched_min_granularity_ns=10000000
vm.swappiness=10
kernel.sched_wakeup_granularity_ns=15000000
kernel.sysrq=1
kernel.dmesg_restrict=1

Code: /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="quiet elevator=noop nohz=off"

(durch das weglassen von nohz=off gibt es keine Verbesserung)

NC#2017070510003676 und NC#2017070310000315

[netcup] Felix P. · 6. Juli 2017

Guten Morgen,

ich habe Ihren Beitrag mal ins richtige Forum verschoben.

Im Ticket schreiben Sie, dass sich das Problem durch ein Kernel-Downgrade behoben hat und wir nichts weiter unternehmen sollen. Ist das der aktuelle Stand?

Mit freundlichen Grüßen

Felix Preuß

SCD · 6. Juli 2017

Hallo Felix,

sorry wegen dem falschem Bereich.

Leider ist es nicht mehr der aktuelle Stand. Kurz nach meiner Mail ist wieder ein Kernelfehler aufgetreten

Code

[Do Jul  6 06:53:09 2017] INFO: rcu_sched detected stalls on CPUs/tasks:
[Do Jul  6 06:53:09 2017] NMI watchdog: BUG: soft lockup - CPU#2 stuck for 25s! [php-cgi:27722]
[Do Jul  6 06:53:09 2017] Modules linked in:
[Do Jul  6 06:53:09 2017]  binfmt_misc
[Do Jul  6 06:53:09 2017]  fuse
[Do Jul  6 06:53:09 2017]  ipt_REJECT
[Do Jul  6 06:53:09 2017]  nf_reject_ipv4
[Do Jul  6 06:53:09 2017]  xt_multiport
[Do Jul  6 06:53:09 2017]  iptable_filter
[Do Jul  6 06:53:09 2017]  cpufreq_conservative
[Do Jul  6 06:53:09 2017]  cpufreq_userspace
[Do Jul  6 06:53:09 2017]  cpufreq_powersave
[Do Jul  6 06:53:09 2017]  quota_v2
[Do Jul  6 06:53:09 2017]  quota_tree
[Do Jul  6 06:53:09 2017]  sb_edac
[Do Jul  6 06:53:09 2017]  edac_core
[Do Jul  6 06:53:09 2017]  ppdev
[Do Jul  6 06:53:09 2017]  cirrus
[Do Jul  6 06:53:09 2017]  crct10dif_pclmul
[Do Jul  6 06:53:09 2017]  crc32_pclmul
[Do Jul  6 06:53:09 2017]  ttm
[Do Jul  6 06:53:09 2017]  drm_kms_helper
[Do Jul  6 06:53:09 2017]  drm
[Do Jul  6 06:53:09 2017]  ghash_clmulni_intel
[Do Jul  6 06:53:09 2017]  virtio_balloon
[Do Jul  6 06:53:09 2017]  sg
[Do Jul  6 06:53:09 2017]  joydev
[Do Jul  6 06:53:09 2017]  evdev
[Do Jul  6 06:53:09 2017]  serio_raw
[Do Jul  6 06:53:09 2017]  pcspkr
[Do Jul  6 06:53:09 2017]  parport_pc
[Do Jul  6 06:53:09 2017]  parport
[Do Jul  6 06:53:09 2017]  acpi_cpufreq
[Do Jul  6 06:53:09 2017]  button
[Do Jul  6 06:53:09 2017]  loop
[Do Jul  6 06:53:09 2017]  ip_tables
[Do Jul  6 06:53:09 2017]  x_tables
[Do Jul  6 06:53:09 2017]  autofs4
[Do Jul  6 06:53:09 2017]  ext4
[Do Jul  6 06:53:09 2017]  crc16
[Do Jul  6 06:53:09 2017]  jbd2
[Do Jul  6 06:53:09 2017]  fscrypto
[Do Jul  6 06:53:09 2017]  ecb
[Do Jul  6 06:53:09 2017]  mbcache
[Do Jul  6 06:53:09 2017]  aacraid
[Do Jul  6 06:53:09 2017]  3w_9xxx
[Do Jul  6 06:53:09 2017]  3w_xxxx
[Do Jul  6 06:53:09 2017]  raid10
[Do Jul  6 06:53:09 2017]  raid456
[Do Jul  6 06:53:09 2017]  async_raid6_recov
[Do Jul  6 06:53:09 2017]  async_memcpy
[Do Jul  6 06:53:09 2017]  async_pq
[Do Jul  6 06:53:09 2017]  async_xor
[Do Jul  6 06:53:09 2017]  async_tx
[Do Jul  6 06:53:09 2017]  xor
[Do Jul  6 06:53:09 2017]  hid_generic
[Do Jul  6 06:53:09 2017]  usbhid
[Do Jul  6 06:53:09 2017]  hid
[Do Jul  6 06:53:09 2017]  raid6_pq
[Do Jul  6 06:53:09 2017]  libcrc32c
[Do Jul  6 06:53:09 2017]  crc32c_generic
[Do Jul  6 06:53:09 2017]  raid1
[Do Jul  6 06:53:09 2017]  raid0
[Do Jul  6 06:53:09 2017]  md_mod
[Do Jul  6 06:53:09 2017]  ahci
[Do Jul  6 06:53:09 2017]  libahci
[Do Jul  6 06:53:09 2017]  sata_nv
[Do Jul  6 06:53:09 2017]  sata_sil
[Do Jul  6 06:53:09 2017]  sata_via
[Do Jul  6 06:53:09 2017]  sr_mod
[Do Jul  6 06:53:09 2017]  cdrom
[Do Jul  6 06:53:09 2017]  sd_mod
[Do Jul  6 06:53:09 2017]  ata_generic
[Do Jul  6 06:53:09 2017]  virtio_net
[Do Jul  6 06:53:09 2017]  virtio_scsi
[Do Jul  6 06:53:09 2017]  crc32c_intel
[Do Jul  6 06:53:09 2017]  aesni_intel
[Do Jul  6 06:53:09 2017]  psmouse
[Do Jul  6 06:53:09 2017]  aes_x86_64
[Do Jul  6 06:53:09 2017]  glue_helper
[Do Jul  6 06:53:09 2017]  lrw
[Do Jul  6 06:53:09 2017]  gf128mul
[Do Jul  6 06:53:09 2017]  ablk_helper
[Do Jul  6 06:53:09 2017]  ata_piix
[Do Jul  6 06:53:09 2017]  cryptd
[Do Jul  6 06:53:09 2017]  uhci_hcd
[Do Jul  6 06:53:09 2017]  libata
[Do Jul  6 06:53:09 2017]  ehci_hcd
[Do Jul  6 06:53:09 2017]  usbcore
[Do Jul  6 06:53:09 2017]  virtio_pci
[Do Jul  6 06:53:09 2017]  virtio_ring
[Do Jul  6 06:53:09 2017]  scsi_mod
[Do Jul  6 06:53:09 2017]  virtio
[Do Jul  6 06:53:09 2017]  usb_common
[Do Jul  6 06:53:09 2017]  i2c_piix4
[Do Jul  6 06:53:09 2017]  floppy
[Do Jul  6 06:53:09 2017] CPU: 2 PID: 27722 Comm: php-cgi Not tainted 4.9.0-3-amd64 #1 Debian 4.9.30-2+deb9u2
[Do Jul  6 06:53:09 2017] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS 1.9.3-20161116_142049-atsina 04/01/2014
[Do Jul  6 06:53:09 2017] task: ffff99569a397080 task.stack: ffffaecdc2824000
[Do Jul  6 06:53:09 2017] RIP: 0010:[<ffffffffa0608d02>]
[Do Jul  6 06:53:09 2017]  [<ffffffffa0608d02>] __do_softirq+0x72/0x290
[Do Jul  6 06:53:09 2017] RSP: 0000:ffff9957bfd03f78  EFLAGS: 00000206
[Do Jul  6 06:53:09 2017] RAX: 0000000000015900 RBX: 0000000000000000 RCX: 00000000000006e0
[Do Jul  6 06:53:09 2017] RDX: 0000000000000082 RSI: 0000000000400100 RDI: 00000000000006e0
[Do Jul  6 06:53:09 2017] RBP: ffff99569a397080 R08: 0000000000024a80 R09: 0000000000000000
[Do Jul  6 06:53:09 2017] R10: ffff99569a397100 R11: ffffffffa0812d88 R12: 0000000000000000
[Do Jul  6 06:53:09 2017] R13: fffff88e480859c0 R14: ffff9957bfffbb80 R15: fffff88e480859c0
[Do Jul  6 06:53:09 2017] FS:  00007fde6fc81080(0000) GS:ffff9957bfd00000(0000) knlGS:0000000000000000
[Do Jul  6 06:53:09 2017] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Do Jul  6 06:53:09 2017] CR2: 00005601b9300008 CR3: 0000000330768000 CR4: 00000000003406e0
[Do Jul  6 06:53:09 2017] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[Do Jul  6 06:53:09 2017] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[Do Jul  6 06:53:09 2017] Stack:
[Do Jul  6 06:53:09 2017]  00000082a00f264a
[Do Jul  6 06:53:09 2017]  0000000000000002
[Do Jul  6 06:53:09 2017]  7fffffffffffffff
[Do Jul  6 06:53:09 2017]  00000001007f9b92
[Do Jul  6 06:53:09 2017]  ffff99569a397080
[Do Jul  6 06:53:09 2017]  004001000000000a
[Do Jul  6 06:53:09 2017]  0000000000000000
[Do Jul  6 06:53:09 2017]  ffff99569a397080
[Do Jul  6 06:53:09 2017]  0000000000000000
[Do Jul  6 06:53:09 2017]  fffff88e480859c0
[Do Jul  6 06:53:09 2017]  ffff9957bfffbb80
[Do Jul  6 06:53:09 2017]  fffff88e480859c0
[Do Jul  6 06:53:09 2017] Call Trace:
[Do Jul  6 06:53:09 2017]  <IRQ>
[Do Jul  6 06:53:09 2017]  [<ffffffffa007cf6e>] ? irq_exit+0xae/0xb0
[Do Jul  6 06:53:09 2017]  [<ffffffffa0608bae>] ? smp_apic_timer_interrupt+0x3e/0x50
[Do Jul  6 06:53:09 2017]  [<ffffffffa0607ec2>] ? apic_timer_interrupt+0x82/0x90
[Do Jul  6 06:53:09 2017]  <EOI>
[Do Jul  6 06:53:09 2017]  [<ffffffffa0334f87>] ? clear_page_c_e+0x7/0x10
[Do Jul  6 06:53:09 2017]  [<ffffffffa01849f8>] ? get_page_from_freelist+0x908/0xb40
[Do Jul  6 06:53:09 2017]  [<ffffffffa0185c86>] ? __alloc_pages_nodemask+0xf6/0x260
[Do Jul  6 06:53:09 2017]  [<ffffffffa01d7c3e>] ? alloc_pages_vma+0xae/0x260
[Do Jul  6 06:53:09 2017]  [<ffffffffa01b39ba>] ? handle_mm_fault+0x111a/0x1350
[Do Jul  6 06:53:09 2017]  [<ffffffffa01b95d9>] ? vma_merge+0x229/0x330
[Do Jul  6 06:53:09 2017]  [<ffffffffa005fd84>] ? __do_page_fault+0x2a4/0x510
[Do Jul  6 06:53:09 2017]  [<ffffffffa0607688>] ? async_page_fault+0x28/0x30
[Do Jul  6 06:53:09 2017] Code:
[Do Jul  6 06:53:09 2017] 1c
[Do Jul  6 06:53:09 2017] ff
[Do Jul  6 06:53:09 2017] f7
[Do Jul  6 06:53:09 2017] ff
[Do Jul  6 06:53:09 2017] ff
[Do Jul  6 06:53:09 2017] 89
[Do Jul  6 06:53:09 2017] 74
[Do Jul  6 06:53:09 2017] 24
[Do Jul  6 06:53:09 2017] 2c
[Do Jul  6 06:53:09 2017] c7
[Do Jul  6 06:53:09 2017] 44
[Do Jul  6 06:53:09 2017] 24
[Do Jul  6 06:53:09 2017] 28
[Do Jul  6 06:53:09 2017] 0a
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 48
[Do Jul  6 06:53:09 2017] 89
[Do Jul  6 06:53:09 2017] 44
[Do Jul  6 06:53:09 2017] 24
[Do Jul  6 06:53:09 2017] 20
[Do Jul  6 06:53:09 2017] 48
[Do Jul  6 06:53:09 2017] c7
[Do Jul  6 06:53:09 2017] c0
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 59
[Do Jul  6 06:53:09 2017] 01
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 65
[Do Jul  6 06:53:09 2017] c7
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] 00
[Do Jul  6 06:53:09 2017] fb
[Do Jul  6 06:53:09 2017] 66
[Do Jul  6 06:53:09 2017] 0f
[Do Jul  6 06:53:09 2017]       2-...: (2 ticks this GP) idle=74d/140000000000002/0 softirq=4172624/4172624 fqs=905
[Do Jul  6 06:53:09 2017]       (detected by 0, t=9590 jiffies, g=1930502, c=1930501, q=596)
[Do Jul  6 06:53:09 2017] Task dump for CPU 2:
[Do Jul  6 06:53:09 2017] php-cgi         R  running task        0 27722   2473 0x00000008
[Do Jul  6 06:53:09 2017]  0000000000000000 00000000024280ca ffffaecdc2827d78 ffffffffa0185c86
[Do Jul  6 06:53:09 2017]  ffff9957bfffccc0 ffff9957bfffccc0 0000000000000000 ffff9957bfffccc0
[Do Jul  6 06:53:09 2017]  0000000300000001 0000000000000000 203bc00186ef261a 00000000024280ca
[Do Jul  6 06:53:09 2017] Call Trace:
[Do Jul  6 06:53:09 2017]  [<ffffffffa0185c86>] ? __alloc_pages_nodemask+0xf6/0x260
[Do Jul  6 06:53:09 2017]  [<ffffffffa01d7c3e>] ? alloc_pages_vma+0xae/0x260
[Do Jul  6 06:53:09 2017]  [<ffffffffa01b39ba>] ? handle_mm_fault+0x111a/0x1350
[Do Jul  6 06:53:09 2017]  [<ffffffffa01b95d9>] ? vma_merge+0x229/0x330
[Do Jul  6 06:53:09 2017]  [<ffffffffa005fd84>] ? __do_page_fault+0x2a4/0x510
[Do Jul  6 06:53:09 2017]  [<ffffffffa0607688>] ? async_page_fault+0x28/0x30
[Do Jul  6 06:53:09 2017] rcu_sched kthread starved for 7637 jiffies! g1930502 c1930501 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0
[Do Jul  6 06:53:09 2017] rcu_sched       R  running task        0     7      2 0x00000000
[Do Jul  6 06:53:09 2017]  ffff9957b1763000 0000000000000000 ffff9957b164e040 ffff9957bfd98240
[Do Jul  6 06:53:09 2017]  ffff9957b1689080 ffffaecdc18cfdb0 ffffffffa06015d3 ffffaecdc18cfde0
[Do Jul  6 06:53:09 2017]  00000001007f97a1 ffff9957bfd98240 0000000000000003 ffff9957b164e040
[Do Jul  6 06:53:09 2017] Call Trace:
[Do Jul  6 06:53:09 2017]  [<ffffffffa06015d3>] ? __schedule+0x233/0x6d0
[Do Jul  6 06:53:09 2017]  [<ffffffffa0601aa2>] ? schedule+0x32/0x80
[Do Jul  6 06:53:09 2017]  [<ffffffffa0604dae>] ? schedule_timeout+0x17e/0x310
[Do Jul  6 06:53:09 2017]  [<ffffffffa004f94d>] ? __x2apic_send_IPI_dest.constprop.4+0x2d/0x30
[Do Jul  6 06:53:09 2017]  [<ffffffffa00e3e50>] ? del_timer_sync+0x50/0x50

Alles anzeigen

[netcup] Felix P. · 6. Juli 2017

Guten Tag,

das die Root-Server v6 andere CPUs hatten als die G7 ist Ihnen bekannt? Je nachdem welche Software Sie einsetzen kann diese durchaus CPU-spezifisch kompiliert oder konfiguriert worden sein. Wenn Sie dann einfach das System verschieben, kann das unter Umständen zu einem solchen Verhalten führen. Bei SuSE wird der Grund des Kernelpanics recht gut erklärt: https://www.suse.com/de-de/support/kb/doc/?id=7017652

Weitere Ursachen kann ein unsauberer Transfer sein.

Die Ursachen eines unsauberen Transfers können Sie reduzieren, in dem Sie mit einfacheren Methoden als mit rsync transferieren. Bsp. dd oder am besten über ein Imageabbild. Eine weitere Möglichkeit wäre das System neu zu installieren, inklusive der Software und nur die statischen und Nutzer-Daten zu kopieren.

Mit freundlichen Grüßen

Felix Preuß

SCD · 6. Juli 2017

Hallo Felix,

das eine andere CPU vorhanden ist weiß ich. Ich nutze jedoch nur Debian Pakete und gehe davon aus, dass diese für alle CPUs kompiliert sind.

Den Transfer werde ich mal mit eine rsync -avcn mit dem Ursprungsserver vergleichen. Dann sollte ich ja Transferfehler finden.

SCD · 6. Juli 2017

Inzwischen ist der RSync durch und hat keine Unterschiede gefunden, die ich mir nicht erklären kann.

[netcup] Felix P. · 6. Juli 2017

Guten Tag,

nachdem sich ein zweiter Kunde jetzt mit dem gleichen Problem auf dem gleichen Node gemeldet hat und wir die Probleme an Testsystemen nachstellen konnten, migrieren wir jetzt alle Systeme von den Nodes herunter, die in der gleichen Charge produziert wurden. Ihr zuvor genutzter Node war leider auch aus der selben Produktions-Charge. Hier scheint wirklich ein Fehler an den CPUs oder Mainboard vorzuliegen. Baugleiche Systemen, die auch genau den gleichen Software- und Firmwarestand nutzen jedoch aus einer anderen Charge kommen, haben nicht die hier beschriebenen Probleme.

Wir haben generell jede Hardware mindestens 24 Stunden in einem internen Stresstest bevor sie zum Einsatz kommt. Leider waren die Fehler hier nicht ersichtlich.

Wir bedauern, dass wir nicht früher den Fehler erkennen konnten.

Mit freundlichen Grüßen

Felix Preuß

thys · 6. Juli 2017

felix

sind die RS 1000 SAS G7SE 15 years auch auf den betroffenen Nodes ?

Den Fehler hab ich dort auch festgestellt (BS ist in dem Fall CentOS 7)

Gruesse,

**[netcup] Oli W.** · 6. Juli 2017

Zitat von thys

felix

sind die RS 1000 SAS G7SE 15 years auch auf den betroffenen Nodes ?

Den Fehler hab ich dort auch festgestellt (BS ist in dem Fall CentOS 7)

Gruesse,

Dieser war auch betroffen.

thys · 6. Juli 2017

Oli: danke, dann muss ich nicht weiter analysieren. Wenn ihr die definitive Ursache herausbekommt, wäre nett davon zu lesen

Man lernt ja nie aus ...

Gruss

SCD · 6. Juli 2017

Schlechte Nachrichten: Bei mir ist der Fehler immer noch nicht weg:

Code

[Do Jul  6 21:25:53 2017] INFO: rcu_sched self-detected stall on CPU
[Do Jul  6 21:25:53 2017] INFO: rcu_sched detected stalls on CPUs/tasks:
[Do Jul  6 21:25:53 2017]       3-...: (1 GPs behind) idle=989/2/0 softirq=2030585/2030587 fqs=1088
[Do Jul  6 21:25:53 2017]       (detected by 2, t=11699 jiffies, g=990911, c=990910, q=214)
[Do Jul  6 21:25:53 2017] Task dump for CPU 3:
[Do Jul  6 21:25:53 2017] swapper/3       R  running task        0     0      1 0x00000008
[Do Jul  6 21:25:53 2017]  000000010038da44 0000000000000000 0000000000000000 0100000000000000
[Do Jul  6 21:26:21 2017] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 26s! [mysqld:2737]

Code

[Do Jul  6 21:37:04 2017] INFO: rcu_sched detected stalls on CPUs/tasks:
[Do Jul  6 21:37:04 2017]       (detected by 1, t=5500 jiffies, g=1026740, c=1026739, q=523)
[Do Jul  6 21:37:04 2017] All QSes seen, last rcu_sched kthread activity 5419 (4298868344-4298862925), jiffies_till_next_fqs=1, root ->qsmask 0x0
[Do Jul  6 21:37:42 2017] NMI watchdog: BUG: soft lockup - CPU#3 stuck for 26s! [swapper/3:0]

Code

[Do Jul  6 21:54:10 2017] INFO: rcu_sched detected stalls on CPUs/tasks:
[Do Jul  6 21:54:28 2017]       1-...: (0 ticks this GP) idle=ab7/140000000000001/0 softirq=2301294/2301294 fqs=34
[Do Jul  6 21:54:52 2017] NMI watchdog: BUG: soft lockup - CPU#1 stuck for 39s! [pop3-login:29144]
[Do Jul  6 21:54:52 2017] Modules linked in: fuse ipt_REJECT nf_reject_ipv4 xt_multiport iptable_filter cpufreq_conservative cpufreq_userspace cpufreq_powersave quota_v2 quota_tree sb_edac edac_core crct10dif_pclmul crc32_pclmul cirrus ghash_clmulni_intel ttm ppdev drm_kms_helper drm evdev sg joydev serio_raw parport_pc virtio_balloon parport acpi_cpufreq pcspkr button loop ip_tables x_tables autofs4 ext4 crc16 jbd2 fscrypto ecb mbcache aacraid 3w_9xxx 3w_xxxx raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor hid_generic usbhid hid raid6_pq libcrc32c crc32c_generic raid1 raid0 md_mod ahci libahci sata_nv sata_sil sata_via sr_mod sd_mod cdrom ata_generic virtio_scsi virtio_net crc32c_intel aesni_intel aes_x86_64 glue_helper lrw gf128mul ablk_helper ata_piix uhci_hcd libata ehci_hcd cryptd
[Do Jul  6 21:54:52 2017]  psmouse usbcore scsi_mod usb_common virtio_pci virtio_ring i2c_piix4 virtio floppy
[Do Jul  6 21:54:52 2017] CPU: 1 PID: 29144 Comm: pop3-login Tainted: G             L  4.9.0-3-amd64 #1 Debian 4.9.30-2+deb9u2
[Do Jul  6 21:54:52 2017] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS 1.10.2-1 04/01/2014
[Do Jul  6 21:54:52 2017] task: ffff96376b2b0140 task.stack: ffffa448c24d0000
[Do Jul  6 21:54:52 2017] RIP: 0010:[<ffffffff9b135067>]  [<ffffffff9b135067>] copy_page+0x7/0x10
[Do Jul  6 21:54:52 2017] RSP: 0000:ffffa448c24d3d68  EFLAGS: 00010286
[Do Jul  6 21:54:52 2017] RAX: ffff96376b2b0140 RBX: ffffcf1545601c80 RCX: 0000000000000200
[Do Jul  6 21:54:52 2017] RDX: 0000000000000000 RSI: ffff963598072000 RDI: ffff963597936000
[Do Jul  6 21:54:52 2017] RBP: ffffcf15455e4d80 R08: ffffcf15455e4da0 R09: 0000000000000020
[Do Jul  6 21:54:52 2017] R10: 0000000000000000 R11: 0000000000000001 R12: ffffa448c24d3e80
[Do Jul  6 21:54:52 2017] R13: ffff96376d00be10 R14: ffff96376d8bdc00 R15: 00007f66d617f360
[Do Jul  6 21:54:52 2017] FS:  00007f66d65b1700(0000) GS:ffff96377fc80000(0000) knlGS:0000000000000000
[Do Jul  6 21:54:52 2017] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Do Jul  6 21:54:52 2017] CR2: 00007f66d617f360 CR3: 000000032fd34000 CR4: 00000000003406e0
[Do Jul  6 21:54:52 2017] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[Do Jul  6 21:54:52 2017] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[Do Jul  6 21:54:52 2017] Stack:
[Do Jul  6 21:54:52 2017]  ffffffff9afaf0d1 8000000158072025 ffff96376b2b0140 00007f66d617c000
[Do Jul  6 21:54:52 2017]  ffff96376eaca800 a7b1443dbd468b5b ffffcf1545601c80 ffffa448c24d3e80
[Do Jul  6 21:54:52 2017]  8000000158072025 ffff96376d00be10 ffffa448c24d3e80 0000000000000000
[Do Jul  6 21:54:52 2017] Call Trace:
[Do Jul  6 21:54:52 2017]  [<ffffffff9afaf0d1>] ? wp_page_copy+0xf1/0x700
[Do Jul  6 21:54:52 2017]  [<ffffffff9afb0361>] ? do_wp_page+0x161/0x7d0
[Do Jul  6 21:54:52 2017]  [<ffffffff9afb3170>] ? handle_mm_fault+0x8d0/0x1350
[Do Jul  6 21:54:52 2017]  [<ffffffff9afbce4b>] ? mprotect_fixup+0x14b/0x280
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae5fd84>] ? __do_page_fault+0x2a4/0x510
[Do Jul  6 21:54:52 2017]  [<ffffffff9b407688>] ? async_page_fault+0x28/0x30
[Do Jul  6 21:54:52 2017] Code: 49 83 c1 01 41 38 c8 0f 85 7a ff ff ff 81 ff 00 08 00 00 75 cc eb 8c b8 ff ff ff ff c3 90 90 90 90 90 90 90 66 90 b9 00 02 00 00 <f3> 48 a5 c3 0f 1f 44 00 00 48 83 ec 10 48 89 1c 24 4c 89 64 24
[Do Jul  6 21:54:28 2017]       (detected by 3, t=12015 jiffies, g=1081690, c=1081689, q=85)
[Do Jul  6 21:54:52 2017] Task dump for CPU 1:
[Do Jul  6 21:54:52 2017] kworker/1:2     R  running task        0 21152      2 0x00000000
[Do Jul  6 21:54:52 2017] Workqueue: events_freezable_power_ disk_events_workfn
[Do Jul  6 21:54:52 2017]  0000000000000000 0000000000000000 0000000000000000 93d4dc551f5fc720
[Do Jul  6 21:54:52 2017]  ffff96376cb37ea0 ffff96376bcc2d80 ffff96377fc97ac0 ffffc448bfc82d00
[Do Jul  6 21:54:52 2017]  0000000000000000 ffff96376cb37ea8 ffffffff9ae90384 000000006b20c040
[Do Jul  6 21:54:52 2017] Call Trace:
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae90384>] ? process_one_work+0x184/0x410
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae9065d>] ? worker_thread+0x4d/0x480
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae90610>] ? process_one_work+0x410/0x410
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae7bb0a>] ? do_group_exit+0x3a/0xa0
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae965d7>] ? kthread+0xd7/0xf0
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae96500>] ? kthread_park+0x60/0x60
[Do Jul  6 21:54:52 2017]  [<ffffffff9b4064f5>] ? ret_from_fork+0x25/0x30
[Do Jul  6 21:54:52 2017] rcu_sched kthread starved for 11943 jiffies! g1081690 c1081689 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x1
[Do Jul  6 21:54:52 2017] rcu_sched       S    0     7      2 0x00000000
[Do Jul  6 21:54:52 2017]  ffff96376e032400 0000000000000000 ffff96377164e040 ffff96377fd98240
[Do Jul  6 21:54:52 2017]  ffff963771689080 ffffa448c18cfdb0 ffffffff9b4015d3 ffffa448c18cfde0
[Do Jul  6 21:54:52 2017]  00000001003f6004 ffff96377fd98240 0000000000000003 ffff96377164e040
[Do Jul  6 21:54:52 2017] Call Trace:
[Do Jul  6 21:54:52 2017]  [<ffffffff9b4015d3>] ? __schedule+0x233/0x6d0
[Do Jul  6 21:54:52 2017]  [<ffffffff9b401aa2>] ? schedule+0x32/0x80
[Do Jul  6 21:54:52 2017]  [<ffffffff9b404dae>] ? schedule_timeout+0x17e/0x310
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae4f94d>] ? __x2apic_send_IPI_dest.constprop.4+0x2d/0x30
[Do Jul  6 21:54:52 2017]  [<ffffffff9aee3e50>] ? del_timer_sync+0x50/0x50
[Do Jul  6 21:54:52 2017]  [<ffffffff9aedd605>] ? rcu_gp_kthread+0x505/0x850
[Do Jul  6 21:54:52 2017]  [<ffffffff9aeb8799>] ? __wake_up_common+0x49/0x80
[Do Jul  6 21:54:52 2017]  [<ffffffff9aedd100>] ? rcu_note_context_switch+0xe0/0xe0
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae965d7>] ? kthread+0xd7/0xf0
[Do Jul  6 21:54:52 2017]  [<ffffffff9ae96500>] ? kthread_park+0x60/0x60
[Do Jul  6 21:54:52 2017]  [<ffffffff9b4064f5>] ? ret_from_fork+0x25/0x30
[Do Jul  6 21:56:07 2017] INFO: rcu_sched detected stalls on CPUs/tasks:
[Do Jul  6 21:56:51 2017] NMI watchdog: BUG: soft lockup - CPU#2 stuck for 39s! [mysqld:2740]

Alles anzeigen

Auffällig ist auch die Munin Auswertung der CPU. Wenn es ein Kernel-Fehler gibt bricht die CPU komplett ein. Das gleiche gilt, wenn die CPU belastet wird ...

Exmember01 · 6. Juli 2017

SCD: Wie sieht es denn aus, wenn du deinen Server für ein paar Stunden im Rettungsmodus oder mit einem frisch installierten Betriebssystem laufen läßt? Bekommst du dann auch diese Fehlermeldungen?

SCD · 6. Juli 2017

Da der Server im Produktionsbetrieb läuft, kann ich dies leider nicht testen.

Exmember01 · 6. Juli 2017

Zitat von SCD

... Den Transfer werde ich mal mit eine rsync -avcn mit dem Ursprungsserver vergleichen. Dann sollte ich ja Transferfehler finden.

Nach dieser Mitteilung hatte ich angenommen, dass du vernünftigerweise den neuen Server erst einmal auf Herz und Nieren testest und dann wenn er wie gewünscht läuft, produktiv einsetzt.

SCD · 6. Juli 2017

Leider nicht. Wer geht auch davon aus, das der neue Server so eine Macke hat. Zum Glück gibt es noch den alten und ich kann mit etwas Aufwand zurück.

Da der alte aber nur ein Dual-Core ist, möchte ich dies gerne vermeiden.

Exmember01 · 6. Juli 2017

Nur ein Vorschlag: Den alten Server würde ich an deiner Stelle noch solange produktiv nutzen, bis der neue Server so läuft wie gewünscht. Denn der Vorteil ist der, dass du dann deinen neuen Server viel entspannter bzw. schmerzfreier testen kannst und du dadurch nicht so unter einem hohen Zeitdruck stehst.

SCD · 6. Juli 2017

Werde am Wochenende wahrscheinlich auch wirklich erstmal wieder zurückziehen.

Hoffe nur das netcup das Problem im Griff bekommt, da der alte zum 01.08 gekündigt ist und sonst ein komplettes Jahr verlängert wird.

Exmember01 · 6. Juli 2017

Zitat von SCD

Hoffe nur das netcup das Problem im Griff bekommt, da der alte zum 01.08 gekündigt ist und sonst ein komplettes Jahr verlängert wird.

Da man im ersten Monat seinen neuen Root-Server wegen der Unzufriedenheitsgarantie wieder kündigen kann, würde ich an deiner Stelle den jetzigen neuen Root-Server wieder kündigen - sofern Dieser auch eine Laufzeit von 12 Monaten hat - und einen neuen Root-Server mit einer Laufzeit von einem Monat neu bestellen. Da der Preisunterschied pro Monat nur 2 Euro beträgt.

[netcup] Felix P. · 7. Juli 2017

Guten Morgen,

es gibt ein wichtiges Update:

Nachdem von der Problematik nur recht leere Nodes betroffen waren, auch die neuen die wir jetzt als Alternative bereitgestellt hatten, haben wir weitere Nachforschungen angestellt. Dabei ist herausgekommen, dass vermutlich ein Power-Save-Modus der neuen Intel (R) CPUs für das Phänomen verantwortlich sein kann. Dieser wurde durch Firmwareupdates vermutlich aktiv und konnte ab da von den Wirtssystemen gesteuert werden. Eventuell ist auch eine Änderung im Debian-Kernel dafür verantwortlich. Zuvor galt das, was wir im BIOS vorgegeben haben, nämlich das der Power-Save-Modus deaktiviert ist. Die CPUs wurden durch diese Änderung zum Teil auf 1,2 GHz herunter getaktet, wenn sie nicht genutzt wurden. Das haben wir jetzt geändert, in dem wir den Gouvernor auf "performance" gesetzt haben.

Im Lauf des Tages rollen wir diese Änderung vorläufig auf allen neuen Systemen aus.

Rückmeldungen sind willkommen.

Mit freundlichen Grüßen

Felix Preuß

SCD · 7. Juli 2017

Hallo,

bei mir ist trotzdem der Fehler nicht behoben