@OliverIO sagte in Freies Modell bei OpenAI -gpt-4o-mini-:
Bilder sind halt immer viele Daten und damit Inputtoken
Ja und Nein. Ich hab vor ein paar Wochen gelesen das Forscher fest gestellt haben das Bilder mit der selben Token Anzahl wie ein Text deutlich mehr Informationen beinhalten als wenn sie als Text in ein LLM geladen werden.
@haselchen sagte in Freies Modell bei OpenAI -gpt-4o-mini-:
Da ist so das Sparsamste, was man eingeben kann, so denke ich.
LLMs kommen gut damit klar wenn die Bild Auflösung niedriger ist. Je nachdem was man erkennen will kann man also durch Reduzierung der Auflösung auch Token Sparen.
Das machst du bereits wie im Screenshot zu sehen.
Je nachdem was deine Kameras können, kannst du jetzt noch die Bild Anzahl reduzieren. Die Reolink Kameras erkennen Menschen, Tiere und Autos, das kann man sich zu nutze machen und entsprechend nur Bilder nehmen auf denen mindestens eins davon erkannt wurde.
@OliverIO sagte in Freies Modell bei OpenAI -gpt-4o-mini-:
Dann könnte man es auch mit opencv probieren.
Damit hab ich auch schon gespielt und das ist wirklich gut. Der größte Vorteil ist das es auch mit Intel Grafik Chips beschleunigt werden kann, die meistens in den Mini PCs zu finden sind.
@OliverIO sagte in Freies Modell bei OpenAI -gpt-4o-mini-:
Da bleibt eigentlich nur ein lokales Modell.
Ich hab qwen3-vl auf dem Smartphone getestet und muss sagen es war Überraschend schnell und hat gute Ergebnisse geliefert.