iobroker hochverfügbar

SuFra

Und wieder sind einige Monate ins Land gegangen....

Im September gab es die erste wirkliche Feuertaufe.
Während der Nacht ist der NUC auf dem ioBrocker lief ausgefallen.
ioBrocker wurde automatisch auf dem anderen 'großen' NUC gestartet und lief sofort weiter.
Erst Tage später fiel mir auf das ein NUC nicht mehr lief!

Bin sehr zufrieden wie gut der HA-Cluster funktioniert.

PS: wenn jetzt die dunkle Jahreszeit beginnt werde ich mich an die Doku begeben

darkiop

@sufra

Guten Morgen @SuFra,

danke für dein Update. Bin schon sehr gespannt auf deine angepasste Doku.

Die von dir beschrieben "Probleme" mit GlusterFS und auch dem Netzwerk hatte ich auch.
Und zusätzlich konnte ich auch den Hardware Watchdog meiner Intel Nucs nicht wirklich zum laufen bekommen.
Hast du nur VMs im Einsatz - oder auch LXCs? Für letztere Bedarf es ja einen kleinen Workaround im Zusammenspiel mit GlusterFS.

Ich bin aktuell immer noch auf dem Single-Node Setup. Aber mal schauen, der Winter ist lange - vielleicht kommt da auch mal wieder ein pve cluster zum Einsatz

Passend dazu, hatte ich die Tage mal angeschaut: https://www.youtube.com/watch?v=dAjw_4EpQdk

SuFra

@darkiop das wird noch was dauern mit der Doku

Die "Probleme" waren ja hauptsächlich selbst gemacht.
Sehe jetzt nicht GlusterFS, sondern eher mein "nicht Wissen" als Auslöser.
Trotz meiner Redundanz des Clusternetzwerkes... Wenn man beide Switche auf Autoupdate stehen hat ist die Verbindung komplett weg.
Man muss also schon jede Komponente betrachten.

Hardware Watchdog läuft bei mir auch noch nicht. Mit Proxmox 7 hat sich auf meinen i5 NUCs teilweise der HA Manager verabschiedet.
Muss ich noch prüfen ob das mit dem neuen Kernel unter Proxmox 8 immer noch der Fall ist.
LXCs, VMs.... wie in meiner Signatur zu sehen:
LXC's: ioBroker, 3x Redis, PiHole, Grafana, Heimdall, MariaDB, InfulxDB, TasmoAdmin, NTP Server, Zabbix
VM's: PBS, trueNAS (Plex)

Die 3 Redis sind zZ nicht online, habe festgestellt das die Verfügbarkeit der Daten bei ioBroker über File bzw jetzt jsonl ausreicht.
Lasse mich aber gerne eines besseren belehren

Nettes Video, mein Redundantes Netzwerk reicht mir.
Ich habe 3 NUCs mit 2,5Gbit dual LAN.
Auf der ersten NIC läuft Link0 des Clusternetzes, auf der 2 NIC Link1 und vmbr0 mit allen VLANs.
Link0 läuft über einen 1GBit Switch, da gehen ja kaum Daten rüber.
Link1 und vmbr0 über einen 2,5GBit Switch.

SuFra

Ich werde mich von GlusterFS verabschieden.
Seltsamer weise bei einigen Node Wartungen (Updates, Neustarts...) "read only" FS bekommen.
Aus den Logs konnte ich nicht wirklich erkennen wo das Problem liegt.
Wenn so etwas im normalen Betrieb, zb durch einen Hardware defekt passiert läuft trotz HA nix mehr.

Ausserdem fehlt mir bei GlusterFS die Einbindung im Proxmox GUI.
Ich werde wohl in den nächsten Wochen auf Ceph umsteigen.
Ist ja zum Glück dank Backups der Container und VMs recht schnell gemacht

darkiop

@sufra sagte in iobroker hochverfügbar:

Seltsamer weise bei einigen Node Wartungen (Updates, Neustarts...) "read only" FS bekommen.

Solches war ja unter anderem auch bei mir Auslöser wieso ich mein Setup wieder vereinfacht hatte

Aktuell bin ich komplett ohne HA unterwegs ... der zweite Promox Node steht als Backupgerät bereit und zum Testen. Für Ceph müsste ich noch nen dritten besorgen. Hatte aber auch schon überlegt den zweiten Nuc als bare metal PBS zu nutzen

SuFra

@darkiop deshalb werde ich auf Ceph umsteigen.
Auf HA kann und möchte ich nicht verzichten.
Dafür läuft zuviel über ioBroker und es sollte bei einem Hardwareausfall automatisch weiter funktionieren.

Man darf ja auch nie den WAF vergessen

apollon77

Eric war mal auf Ceph umgestiegen auf Nucs und ist davon auch wieder weg weil die manchmal "Nachdenkpausen" und Delays hatten ... am Ende ist halt RAM und ggf CPU für Ceph wohl auf den Nucs nicht genug gegeben ...

Also ich hatte bisher bei GlusterFS nur RO FS wenn ich mehrere Nodes gleichzeitig aktualisiert oder rebootet hatte .. also bei 3 Hosts müssen halt 2 "immer" da sein ... Sobald es nur einer ist dann blöd

SuFra

@apollon77 hört sich auch wieder nicht so toll an...
Also RAM habe ich mind. 32 GB pro Node.
Bei 2 Nodes 64 GB.
Ob das jetzt ausreichend für CEPH ist wird mir wahrscheinlich niemand endgültig sagen können.

Was mich an Gluster halt stört das es keine Anzeige über den Status in Proxmox gibt.

darkiop

@sufra sagte in iobroker hochverfügbar:

@darkiop deshalb werde ich auf Ceph umsteigen.
Auf HA kann und möchte ich nicht verzichten.
Dafür läuft zuviel über ioBroker und es sollte bei einem Hardwareausfall automatisch weiter funktionieren.

Man darf ja auch nie den WAF vergessen

Stimmt, aber irgendwie ist die Kiste auch noch nie ausgefallen bisschen Risiko muss sein restore der Backups dauert max 30min.

darkiop

@apollon77

Denke bei mir war auch der RPI als QDevice oftmals die Ursache für Schluckaufs

darkiop

@sufra sagte in iobroker hochverfügbar:

Was mich an Gluster halt stört das es keine Anzeige über den Status in Proxmox gibt.

Ich hatte über gstatus (Output als json) die Infos in den ioBroker geholt. Oder auch über CheckMk.

SuFra

@darkiop @apollon77 Heute war Umzug!

Schnell ein NFS Storage der NAS ins Cluster eingebunden, alle Container und Maschienen gestoppt und Backups gezogen.
Auf allen NUCs Proxmox neu installiert und Ceph angelegt.
Vom NFS die Backups eingespielt und 3 Stunden später läuft alles wieder

Mal schauen wie sich jetzt der Cluster die nächsten Tage so macht.

arteck

@apollon77 ahh ok .. alle meine Nodes haben 32 Gb.. hab keine Probleme damit..

SuFra

Für das Ceph habe ich eine eigene LAN Schnittstelle mit 2.5G und 10G Switch.

Testhalber eine OSD gestoppt.
Nach nur 10s war der Pool Health OK und nach 2 Minuten rebalanced .

Das klappt schonmal.

apollon77

@sufra sagte in iobroker hochverfügbar:

Was mich an Gluster halt stört das es keine Anzeige über den Status in Proxmox gibt.

Ok, dafür nutze ich gstatus als CLI skript und hab zabbix als überwachung generell laufen

SuFra

@apollon77 Ja, das wäre auch eine Möglichkeit.
Zabbix ist schon mächtig. Man braucht jedoch auch ein wenig Zeit sich da einzuarbeiten.

Jetzt nach 4 Stunden kann ich sagen das alles gut aussieht.
Der Load average liegt bei allen Nodes unter 0,1.

Ich habe testweise einen Node nach dem anderen Rebootet.
HA hat funktioniert, Ceph war auch nach unter einer Minute wieder Okay.
Redis Sentinel hatte keine Probleme beim Umschalten.

Bin erst einmal zufrieden

darkiop

@apollon77 sagte in iobroker hochverfügbar:

@sufra sagte in iobroker hochverfügbar:

Was mich an Gluster halt stört das es keine Anzeige über den Status in Proxmox gibt.

Ok, dafür nutze ich gstatus als CLI skript

gstatus und dann die werte per simple-api/rest-api an den ioBroker? Ich hatte damals das json aus gstatus in objekt geschrieben und via js auseinander genommen.

und hab zabbix als überwachung generell laufen

Kein CheckMK mehr?

apollon77

@darkiop sagte in iobroker hochverfügbar:

Kein CheckMK mehr?

Wollte als och zu Weihachten meinen Cluster neu aufgesetzt hatte mal was neues versuchen. Hab noch nicht 100% wieder das gleiche aber Zabbix auch ok.

m1k3f15h

@apollon77 said in iobroker hochverfügbar:

Was noch auf meiner Ideenliste steht ist ein "HA-Adapter" der an der Stelle die Konfiguration annimmt welche Adapterinstanz verschoben werden kann und wer nicht (weil zB lokaler Serieller Port genutzt wird oder so). Und dann monitoren Instanzen dieses HA Adapters die Hosts und wenn einer ausfällt schieben die dann Instanzen durch die Gegend um wirklich so viel Funktionalität wie geht zu erhalten.

Hallo apollon77,

Wie weit "fortgeschritten" ist dein HA Adapter bzw die Ansätze dazu?
Ich bin sehr an dem Thema interessiert.

Eine andere Frage noch zu dem Thema:
Wenn ich eine Multihostumgebung mit Redis(Sentinel) aufbaue... Wo sind die "Adaptersettings" gespeichert? Einen richtigen "Master" gibts ja dann nicht oder?

Kann ich den Admin auf beiden Hosts installieren und alles bedienen?
Wenn mir ein Host abschmiert, kann ich dann noch die Adapter "verschieben" (vom abgeschmierten host auf den der lauft)

mfg
Mike

apollon77

@m1k3f15h Aktuell ist keine Arbeit an einem HA Adapter gestartet. Sorry, aber Prios sind aktuell andere.

Wenn Du einen Redis Sentinel Ansatz hast idt quasi "Der Redis" dein Master ... und ja du kannst (auch jetzt) Admin auf mehreren Hosts installieren und dann von allen gleichermassen verwalten

NEWS

iobroker hochverfügbar

Support us

452
Online

32.1k
Users

80.8k
Topics

1.3m
Posts

NEWS

iobroker hochverfügbar

Support us

452Online

32.1kUsers

80.8kTopics

1.3mPosts

452
Online

32.1k
Users

80.8k
Topics

1.3m
Posts