NEWS
Proxmox ständig Fragezeichen im GUI
-
Hallo,
bei einem Intel NUC10i7 und auch bei einem NUC8i5 haben wir in den letzten 2 Tagen immer wieder den Effekt, dass alle VM und auch die localen LW wie folgt dargestellt werden:.
Kann es sein, dass da die SSD am Sterben ist?
Es läuft eigentlich nicht viel auf dem Proxmox. Eine VM iobroker, eine VM Raspberrymatic, eine VM mit MySQL und eine VM mit MotionEye. Nach einem Proxmox Neustart läuft das für einige Stunden normal, aber dann wie oben gezeigt überall Fragezeichen. Wir hatten erst den NUC10i7 mit einem Hardwaredefekt in Verdacht, dann beide SSDs in den NUCi5 eingebaut. Dort nun wieder der gleiche Fehler. -
Fehler im Syslog:
Feb 13 18:50:51 pve postfix/error[29103]: DE5B210475F: to=<E-Mail-Adresse rausgenommen>, relay=none, delay=0.01, delays=0.01/0/0/0, dsn=4.0.0, status=deferred (delivery temporarily suspended: host mx00.emig.kundenserver.de[212.227.15.40] refused to talk to me: 554-kundenserver.de (mxeue010) Nemesis ESMTP Service not available 554-No SMTP service 554-IP address is black listed. 554 For explanation visit https://www.ionos.com/help/index.php?id=2425&ip=178.25.103.20&c=bl)
Diese Meldung erscheint ganz oft. Versucht hier, der Proxmox an die E-Mail-Adresse zu senden?
-
@opossum
hier ein Auszug aus dem Kernellog:Feb 13 18:14:52 pve kernel: [27686.801585] show_signal_msg: 6 callbacks suppressed Feb 13 18:14:52 pve kernel: [27686.801587] pvemailforward.[15105]: segfault at 8008 ip 000055576fd6014e sp 00007fff73148950 error 4 in perl[55576fd34000+15e000] Feb 13 18:14:52 pve kernel: [27686.802852] Code: 49 89 fd 41 54 45 31 e4 55 48 89 f5 53 48 8b 55 10 83 4c c2 38 01 48 8b 45 10 49 63 d4 48 8b 1c d0 48 85 db 0f 84 32 01 00 00 <48> 8b 43 08 48 63 50 04 48 8d 70 08 48 89 d1 48 83 fa 01 76 0b 80 Feb 13 18:17:01 pve kernel: [27816.019079] pvesr[15941]: segfault at 800e ip 0000560a307fe98e sp 00007fff0c40ff90 error 4 in perl[560a3073f000+15e000] Feb 13 18:17:01 pve kernel: [27816.020082] Code: 10 74 1e 48 c7 40 28 00 00 00 00 8b 56 08 83 fa 01 0f 86 b5 00 00 00 83 ea 01 89 56 08 48 8b 43 10 48 8b 70 20 48 85 f6 74 20 <f6> 46 0e 10 74 1a 48 c7 40 20 00 00 00 00 8b 56 08 83 fa 01 76 7c Feb 13 18:24:36 pve kernel: [28270.581881] pvedaemon worke[19407]: segfault at 9 ip 0000556f0ff187fd sp 00007fffcc5a5080 error 4 in perl[556f0fe6e000+15e000] Feb 13 18:24:36 pve kernel: [28270.583315] Code: 24 10 48 8b 50 18 4d 85 c9 0f 84 c6 09 00 00 49 8b 9f 60 08 00 00 23 94 24 d0 00 00 00 4d 8d 34 d1 48 85 db 0f 84 d3 09 00 00 <48> 8b 03 49 89 87 60 08 00 00 f6 45 0f 20 0f 85 ef 03 00 00 49 39 Feb 13 18:26:36 pve kernel: [28390.648759] vgs[19960]: segfault at 8000 ip 00005624d52ed0c0 sp 00007ffe7ae52380 error 4 in lvm[5624d5175000+17c000] Feb 13 18:26:36 pve kernel: [28390.649911] Code: 75 d0 c7 45 ec 00 00 00 00 eb 4a 48 8b 45 d8 48 8b 40 08 8b 55 ec 48 c1 e2 03 48 01 d0 48 8b 00 48 89 45 f0 eb 24 48 8b 45 f0 <48> 8b 00 48 89 45 f8 48 8b 45 f0 48 8b 50 08 48 8b 45 d0 48 89 d7 Feb 13 18:54:01 pve kernel: [30035.656905] mce: CPU7: Core temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656906] mce: CPU3: Core temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656907] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656908] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656910] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656910] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656912] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656913] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.656913] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.657770] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 1) Feb 13 18:54:01 pve kernel: [30035.657946] mce: CPU3: Core temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657947] mce: CPU6: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657948] mce: CPU4: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657948] mce: CPU0: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657949] mce: CPU5: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657950] mce: CPU1: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.657950] mce: CPU3: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.658629] mce: CPU2: Package temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.660247] mce: CPU7: Core temperature/speed normal Feb 13 18:54:01 pve kernel: [30035.678546] mce: CPU7: Package temperature/speed normal
-
@opossum mit der Meldung kann ich leider auch nichts anfangen, wüsste nicht was das genau bedeuten soll
allerdings wenn man dem Hinweis folgthttps://www.ionos.com/help/index.php?id=2425&ip=178.25.103.20&c=bl)
gibt es mehrere Möglichkeiten für den Fehler 554
jedoch sollte das aber nicht dein generelles Problem lösen, gibts irgendwelche Hinweise im log, bevor er nicht mehr erreichbar war?
-
Das mit der email. Naja. Ignore erstmal. Die segfaults und CPU temperaturwarnungen würden mir eher Sorgen machen und können gut der Grund sein.
Pvesr und die anderen pve Prozesse die da sterben sind wohl dein Grund. Ist aber interessant das das ganz unterschiedliche Prozesse sind. Also ja könnte auch die ssd sein und damit Fehler in den dateien.
-
Ich würde anfragen und erstmal schauen ob Updates fehlen. Also alles aktualisieren.
apt update
Poste mal Ausgabe
-
sudo apt update Get:1 http://security.debian.org buster/updates InRelease [65.4 kB] Hit:2 http://ftp.de.debian.org/debian buster InRelease Get:3 http://ftp.de.debian.org/debian buster-updates InRelease [51.9 kB] Get:4 http://security.debian.org buster/updates/main amd64 Packages [267 kB] Hit:5 http://download.proxmox.com/debian/pve buster InRelease Fetched 384 kB in 0s (771 kB/s) Reading package lists... Done Building dependency tree Reading state information... Done 12 packages can be upgraded. Run 'apt list --upgradable' to see them. michael@pve:~$ sudo apt list --upgradable Listing... Done libpve-access-control/stable 6.1-3 all [upgradable from: 6.0-6] libpve-common-perl/stable 6.3-2 all [upgradable from: 6.0-12] libpve-guest-common-perl/stable 3.1-4 all [upgradable from: 3.0-3] libpve-http-server-perl/stable 3.1-1 all [upgradable from: 3.0-4] libpve-storage-perl/stable 6.3-5 all [upgradable from: 6.1-4] lxc-pve/stable 4.0.6-2 amd64 [upgradable from: 3.2.1-1] proxmox-ve/stable 6.3-1 all [upgradable from: 6.1-2] pve-container/stable 3.3-3 all [upgradable from: 3.0-19] pve-kernel-5.3/stable 6.1-6 all [upgradable from: 6.1-4] pve-manager/stable 6.3-3 amd64 [upgradable from: 6.1-7] pve-qemu-kvm/stable 5.1.0-8 amd64 [upgradable from: 4.1.1-2] qemu-server/stable 6.3-4 amd64 [upgradable from: 6.1-5]
-
@opossum Naja ich würde sagen bist doch ein bissl weg. Update mal und schau ob es dann besser wird.
Am besten
apt dist-upgrade
(wenn soweit weg dann vermisse ich an sich ein Kernel update)
-
@apollon77 sagte in Proxmox ständig Fragezeichen im GUI:
Am besten
apt dist-upgradeist das nicht eher ein muss! beim Proxmox Host, allerdings macht man das in der Regel direkt in der Gui
-
hallo,
haben wir jetzt gemacht, Kernel wurde ebenfalls erneuert. Wir werden jetzt die VMs wieder starten und das weiter beobachten.
Die Temperaturen sind anscheinend hochgegangen, als der Proxmox versucht hat, eine Nachricht zu senden.Diese Message:
Feb 13 03:09:00 pve postfix/error[23625]: 8E311102C23: to=<xxx@xxx.de>, relay=none, delay=151923, delays=151923/0.14/0/0.01, dsn=4.0.0, status=deferred (delivery temporarily suspended: host mx00.emig.kundenserver.de[212.227.15.40] refused to talk to me: 554-kundenserver.de (mxeue012) Nemesis ESMTP Service not available 554-No SMTP service 554-IP address is black listed. 554 For explanation visit https://www.ionos.com/help/index.php?id=2425&ip=178.25.103.20&c=bl)
haben wir 125731 mal im heutigen Syslog, warum auch immer. Diese Message wird zum Beispiel um 18:23:32 627 mal aufgeführt. Kann es sein, dass dadurch die CPU mit Ihrer Temperatur hochgehen und dann das System eine Überhitzung feststellt und damit die Performance reduziert. Das hätte dann das Prozesssterben zur Folge?
-
@crunchip Am Ende ists nur ein Linux. apt upgrade macht die "Normalen Upgrades" die primär Fixes sind. EIn dist-upgrade macht systemnahere und Dinge die am ehestens einen Reboot brauchen
Kann man per UI machen oder Kommandozeile :-))
-
@opossum pvedaemon ist der Dienst, der für die ‚?‘ in der Proxmox-Gui sorgt, wenn er nicht läuft. Was er nicht mehr tut, da per Segfault gestorben. Gleiches gilt für pvesr (der Storages in Proxmox verwaltet).
Da hilft mit Sicherheit kein Update, das sieht nach Hardwareproblem aus. Vielleicht liefert ‚dmesg‘ oder /var/log/daemon.log mehr Infos zu der Ursache... -
@jleg Ist auch meine Vermutung, aber manchmal tun Kernel bzw Paket updates Wunder
-
@apollon77 sagte in Proxmox ständig Fragezeichen im GUI:
@jleg Ist auch meine Vermutung, aber manchmal tun Kernel bzw Paket updates Wunder
Jo, aber hier stirbt Perl (pvedaemon). Perl stirbt nicht, egal was mit kernel & Co sonst ist - ausser die HW hat ein gravierendes Problem.
-
Hallo,
wir hatten das System heute morgen auf einem NUC10i7 mit 64GB RAM. Um Hardwareprobs auszuschließen, haben wir die beiden SSDs in einen NUC8i5 eingebaut. Da hatten wir aber die gleichen Fehler. Demnach würde die SSD defekt sein, auf der die VMs liegen? -
@apollon77 weiß ich, hatte aber im Proxmox Forum mal gelesen, daß beim Proxmox Host selbst, ein apt-upgrade vermieden werden sollte, da es zu Problemen führen könnte
-
@opossum sagte in Proxmox ständig Fragezeichen im GUI:
Hallo,
wir hatten das System heute morgen auf einem NUC10i7 mit 64GB RAM. Um Hardwareprobs auszuschließen, haben wir die beiden SSDs in einen NUC8i5 eingebaut. Da hatten wir aber die gleichen Fehler. Demnach würde die SSD defekt sein, auf der die VMs liegen?Das lässt sich m.E. nicht aus dem Logschnipsel oben ableiten - ich würde schauen, was die anderen Logs/dmesg so sagen... Das einzige, was oben klar erkennbar ist, ist dass der CPU zu heiss wird
-
@jleg ,
ja, die CPU-Temperaturen steigen immer unmittelbar dann, wenn der Host versucht, eine Message abzusetzen. Wie ich oben schon schrieb, 627 mal in einer Sekunde. Könnte das sein? Wir würden den NUC jetzt wieder hochfahren und ihn mal bis morgen beobachten. Wenn jetzt der Fehler wieder auftritt, dann kann es eigentlich nur die SSD sein, auf der PVE läuft. Die würden wir dann morgen komplett austauschen, Proxmox neu installieren und dann die Backups der VM zurückschreiben. -
wäre es nicht auch möglich, das einer deiner laufenden Maschinen "Amok" läuft und die Probleme verursacht?
Demnach würde ich mal alle Maschinen abschalten und eine nach der anderen dazu schalten -
Hallo, @crunchip ,
danke für den Tip. Das wäre jetzt die nächste Möglichkeit. Wir haben jetzt den NUC durchgestartet, alle VMs hochgefahren und werden das jetzt beobachten. Wenn das wieder in die Knie geht, fahren wir die VMs einzeln. Wir werden weiter berichten, wie das hier weitergeht.Und: Vielen, vielen Dank für Eure Hilfe. Ist immer super, wenn man mit solchen Problemen nicht allein kämpfen muss.