Navigation

    Logo
    • Register
    • Login
    • Search
    • Recent
    • Tags
    • Unread
    • Categories
    • Unreplied
    • Popular
    • GitHub
    • Docu
    • Hilfe
    1. Home
    2. Deutsch
    3. Praktische Anwendungen (Showcase)
    4. Parsen einer Seite

    NEWS

    • Neues Video über Aliase, virtuelle Geräte und Kategorien

    • Wir empfehlen: Node.js 22.x

    • Neuer Blog: Fotos und Eindrücke aus Solingen

    Parsen einer Seite

    This topic has been deleted. Only users with topic management privileges can see it.
    • H
      homecineplexx last edited by

      Hallo
      Ich würde mir gerne jeden Montag in der Früh das Menü meines Fleischers auslesen lassen von deren Homepage und in bestimmte Datenpunkte schreiben lassen. Ich muss aber ehrlich gestehen, dass ich vom Parsen überhaupt keine Ahnung habe!

      Hier die Seite: link text

      Danke

      Homoran liv-in-sky 2 Replies Last reply Reply Quote 0
      • Homoran
        Homoran Global Moderator Administrators @homecineplexx last edited by Homoran

        @homecineplexx um">(\w+)\..+cht">([\w\säöüß]+)<

        Muss da aber nochmal ran

        EDIT:
        Nimm nur den hinteren Teil: cht">([\w\säöüß]+)< und mache dir 5 Regeln für Mo-Fr wobei du den NUM-Wert von 0-4 nimmst

        Hier Freitag:
        Regex_essen.png

        derAlff 1 Reply Last reply Reply Quote 1
        • derAlff
          derAlff Developer @Homoran last edited by derAlff

          @homoran @homecineplexx ich habe das mal eben durch den parser adapter gejagt... Funktioniert 😉

          4eba32ea-038d-466e-b746-b0f93b8fec96-image.png
          4671c2b5-9068-4add-9440-f42bb3d737b7-image.png

          Und den doppelten Eintrag übersehen wir bitte 😉

          Homoran 2 Replies Last reply Reply Quote 0
          • Homoran
            Homoran Global Moderator Administrators @derAlff last edited by

            @deralff sagte in Parsen einer Seite:

            Funktioniert

            Natürlich!

            Aber wenn da noch mehr rauskommen soll, geht das wahrscheinlich mit Skripten besser. Ist was für @liv-in-sky 😉

            Menükomplett.png
            und wenn noch dasDatum ganz groß sein soll: um">([\w\d\s\,.]+).+cht">([\w\säöüß]+)<.+eis">([\d,]+)

            derAlff 1 Reply Last reply Reply Quote 1
            • Homoran
              Homoran Global Moderator Administrators @derAlff last edited by

              @deralff sagte in Parsen einer Seite:

              Und den doppelten Eintrag übersehen wir bitte

              Fridachs jitt et Fisch

              1 Reply Last reply Reply Quote 0
              • liv-in-sky
                liv-in-sky @homecineplexx last edited by

                @homecineplexx

                bin ich wohl zu langsam

                Image 5.png

                hier mit script:

                anleitung dazu - bitte siehe hier: https://forum.iobroker.net/post/750108

                
                const cheerio = require('cheerio');
                
                const axios=require('axios');
                let myDPunkt="0_userdata.0.CONTROL-OWN.TABELLEN.GezeitenInSpanien"
                
                let mySchedule1="  33 */8 * * * "; // alle 8 stunden bei minute 33
                
                 schedule(mySchedule1,  function () {
                 let myVarVar=mathRandomInt(10, 300);
                // log("startet ");
                 setTimeout(function() {
                     log("jetzt "+myVarVar);
                     holeDaten();
                
                 }, myVarVar*1000);
                 });
                
                holeDaten();
                function mathRandomInt(a, b) {
                 if (a > b) {
                   // Swap a and b to ensure a is smaller.
                   var c = a;
                   a = b;
                   b = c;
                 }
                 return Math.floor(Math.random() * (b - a + 1) + a);
                }
                
                async function holeDaten() { 
                   await axios.get('https://www.fleischerei-pfennigbauer.at/tagesgerichte.html', {
                                   headers: { 'User-Agent':`Mozilla/5.0 (X11; CrOS x86_64 8172.45.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.64 Safari/537.36` }
                }).then((result) => {
                        // log(result.data)
                            const $ = cheerio.load(result.data)
                                              const list5 = $('*')
                                                                 .find('.ce_tagesgerichte.block')
                                                                 .toArray()
                                                                 .map(element => { return $(element).text()}); log(list5.length +"---"+list5)
                
                                              let dayArr=['Mo','Di','Mi','Do','Fr','Sa','So'];
                                              let jsonArr=[];let helper;
                                              for(let i=0;i<list5.length;i++) {log(list5[i])
                
                                                    if(!list5[i].includes("Gericht")) { helper=list5[i].replace(/(.*?)([0-9][0-9][0-9][0-9])(.*?)([0-9].* €)/,"$1$2 $3 $4")  ; 
                                                    helper=helper.replace(/\\n/gm,"");log(helper);
                                                                                      jsonArr.push({
                                                                                                      "day":    helper,
                                                                                                
                                                                                                  })  }
                
                } 
                //log(JSON.stringify(jsonArr))   //hier in dp schreiben
                //log("jetzt "+myVarVar);
                setState(myDPunkt,JSON.stringify(jsonArr))
                //if()
                
                       }).catch((error) => {
                           return error;
                       })}
                
                
                
                
                

                H 1 Reply Last reply Reply Quote 2
                • H
                  homecineplexx @liv-in-sky last edited by

                  ich danke euch für eure Hilfe und werd das gleich mal ausprobieren!!!

                  1 Reply Last reply Reply Quote 0
                  • derAlff
                    derAlff Developer @Homoran last edited by

                    @homoran said in Parsen einer Seite:

                    um">([\w\d\s,.]+).+cht">([\w\säöüß]+)<.+eis">([\d,]+)

                    Meinst du, du kannst mir bei einem regülären Ausdruck helfen?

                    Ich habe hier eine Webseite des luxemburgischen Staates, wo Preise für unter anderem Diesel angegeben werden. Wie sieht denn so ein Ausdruck aus, wenn ich nur 01/02/2022, 1,2607 und 1,475 aus der Tabelle

                        <h3><strong>Dieselkraftstoff (/l)</strong></h3> 
                    <p>&nbsp;</p> 
                    <div class="table--container">
                     <table border="1"> 
                      <tbody> 
                       <tr> 
                        <td>&nbsp;</td> 
                        <th><strong>Ab</strong></th> 
                        <th><strong>ohne MwSt.</strong></th> 
                        <th><strong>inkl. MwSt.</strong></th> 
                        <th><strong>MwSt-Satz</strong></th> 
                       </tr> 
                       <tr> 
                        <th><p>Tankstelle</p> </th> 
                        <td width="83">01/02/2022</td> 
                        <td>1,2607</td> 
                        <td>1,475</td> 
                        <td><p>17</p> </td> 
                       </tr> 
                      </tbody> 
                     </table>
                    </div>
                    

                    der Webseite haben möchte?

                    Homoran 1 Reply Last reply Reply Quote 0
                    • Homoran
                      Homoran Global Moderator Administrators @derAlff last edited by Homoran

                      @deralff sagte in Parsen einer Seite:

                      wenn ich nur 01/02/2022,

                      telle[^"]+[^>]+>([\d\/]+)

                      @deralff sagte in Parsen einer Seite:

                      1,2607 u

                      telle[^"]+[^<]+[^>]+>[^>]+>([\d\,]+)

                      @deralff sagte in Parsen einer Seite:

                      und 1,475 aus der Tabelle

                      telle[^"]+[^\,]+[^>]+[^\d]+([\d\,]+) NUM=0

                      Quick and dirty

                      derAlff 1 Reply Last reply Reply Quote 1
                      • derAlff
                        derAlff Developer @Homoran last edited by derAlff

                        @homoran ja cool 👍

                        Ich glaube, die regulären Ausdrücke werde ich nie verstehen. Da ahbe ich wirklich respekt vor den Leuten, die das können.

                        Die Tabelle ist nun für Dieselkraftstoff... in den anderen Tabellen auf der Seite existiert das Tag <p>Tankstelle</p> jetzt zum Glück nicht. Wie sieht das denn aus, wenn ich das von dem Tag <h3><strong>Dieselkraftstoff (/l)</strong></h3> abhängig machen möchte?

                        EDIT: Hat sich erledigt. Einfach "telle" durch "stoff" ersetzen, dann wird alles berücksichtigt 🙂

                        Homoran 1 Reply Last reply Reply Quote 0
                        • Homoran
                          Homoran Global Moderator Administrators @derAlff last edited by Homoran

                          @deralff sagte in Parsen einer Seite:

                          in den anderen Tabellen auf der Seite existiert das Tag <p>Tankstelle</p> jetzt zum Glück nicht

                          warum meinst du habe ich das genommen 🙂
                          deswegen brauche ich auch immer den gesamten Quelltext einer Seite

                          und wenn du beim zweiten Preis (oder überall) noch ks voransetzt hast du dort auch nur einen Treffer

                          auch EDIT:
                          Da hast du aber unheimliches Glück gehabt.
                          Der Kraftstoff liegt einige Zeilen über der Tankstelle.

                          Dass dann die nächste Sprungmarke " dabei nicht noch einmal aufgetreten ist, ist schon fast ein Wunder

                          derAlff 1 Reply Last reply Reply Quote 1
                          • derAlff
                            derAlff Developer @Homoran last edited by

                            @homoran du musst wissen, ich kann RegEx einfach nicht. Das Interesse wurde eig. nur durch den ioBroker geweckt 😅 ... bzw. viel mehr durch diesen Topic hier.

                            Versuche mich momentan in RegEx einzuarbeiten... das ist allerdings recht mühsam 🙂

                            Ich bin dir jedenfalls sehr sehr dankbar, dass du mir hierbei geholfen hast.
                            Jetzt muss ich das nurnoch verstehen. Dafür ist das hier allerdings der falsche Topic 😅

                            Homoran 1 Reply Last reply Reply Quote 0
                            • Homoran
                              Homoran Global Moderator Administrators @derAlff last edited by Homoran

                              @deralff sagte in Parsen einer Seite:

                              ich kann RegEx einfach nicht. Das Interesse wurde eig. nur durch den ioBroker geweckt

                              ging mir genauso 🙂

                              Aber im Gegensatz zu Javascript, wo ich zwar weiß was ich will, oft auch Skripte nachvollziehen kann, aber die Syntax einfach nicht hinbekomme, schaffe ich es hier, weil es keine komplexe Syntax gibt.

                              @deralff sagte in Parsen einer Seite:

                              Jetzt muss ich das nurnoch verstehen. Dafür ist das hier allerdings der falsche Topic

                              Das mit dem verstehen ist das einfachste, aber du musst auch zusehen, dass du die Preise als Nummer mit Komma einpflegst und was du mit dem Datum machst weiß ich gar nicht

                              Versteh mal 🙂 :

                              • Ankerpunkt (möglichst eindeutig und möglichst diccht an dem gesuchten Wert) suchen: kstelle
                              • den Weg zum gewünschten Wert irgendwie eindeutig definieren, erschwerend kommt dazu, dass der ioBroker Parser Zeilenumbrüche (\n) nicht kennt. Also Haltepunkte finden die nicht so häufig vorkommen, hier ", also das erste Auftreten finden: [^"]+ (wörtlich: suche Zeichen dass nicht ([^]) das genannte (") ist - beliebig oft (+) )
                              • solange mit diesen Haltepunkten weiterhangeln: [^\,]+[^>]
                              • bis man an die Zahlen kommt, die man will: +[^\d]+
                              • und diese dann als Gruppe deklarieren: ([\d\,]+) wobei die Zahlen hier aus Ziffern und Komma bestehen
                              derAlff 1 Reply Last reply Reply Quote 2
                              • derAlff
                                derAlff Developer @Homoran last edited by

                                @homoran hehe, danke für die Erklärung.

                                Ich versuche dann mal sebstständig an den Steuersatz heran zu kommen.

                                Zu dem Datum: In Luxemburg sind die Preise an allen Tankstellen gleich, und werden einen Tag vor Preisänderung auf dieser Webseite aktualisiert. Ich reagieren dann einfach auf das Datum und lasse mir das anzeigen bzw. sende mir dann mit meinem signal-cmb Adapter eine Signal Nachricht zu 🙂

                                Homoran 1 Reply Last reply Reply Quote 0
                                • Homoran
                                  Homoran Global Moderator Administrators @derAlff last edited by Homoran

                                  @deralff sagte in Parsen einer Seite:

                                  Ich versuche dann mal sebstständig an den Steuersatz heran zu kommen.

                                  Lass dich nicht veräppeln, das ist wirklich viel einfacher 😉


                                  kstelle[^p]+p[^+p]+..(\d+)

                                  aber das schaffst du!

                                  derAlff 1 Reply Last reply Reply Quote 0
                                  • derAlff
                                    derAlff Developer @Homoran last edited by

                                    @homoran

                                    @homoran said in Parsen einer Seite:

                                    kstelle[^p]+p[^+p]+..(\d+)

                                    Hehe, mein RexEx ist doppelt so lang 😅

                                    Aaaaaaber ich bin dahin gekommen wo ich hin wollte 🙂

                                    Homoran OliverIO 2 Replies Last reply Reply Quote 0
                                    • Homoran
                                      Homoran Global Moderator Administrators @derAlff last edited by

                                      @deralff sagte in Parsen einer Seite:

                                      Hehe, mein RexEx ist doppelt so lang

                                      das hatte ich mir gedacht 🙂

                                      Aaaaaaber ich bin dahin gekommen wo ich hin wollte

                                      das auch!
                                      Und das ist das wichtigste. Finetuning kommt mit der Zeit

                                      Super!

                                      derAlff 1 Reply Last reply Reply Quote 1
                                      • OliverIO
                                        OliverIO @derAlff last edited by

                                        @deralff

                                        cih glaube ich hatte mal so eine grundlegende anleitung geschrieben, wie jeder das richtige regex pattern finden kann.

                                        1. bei regex101.com die datenquelle bei test eintragen
                                        2. möglichst kurzen aber eindeutigen string aus der datenquelle suchen
                                        3. den variablen anteil, den man am ende haben möchte eine Klammer setzen ()
                                        4. dann diesen Anteil mit Tokens ersetzen. dazu sollte man sich erstmal an die folgenden Tokens halten
                                          a) Meta sequenzen wie bspw \d=digit \w=word \s=whitespace
                                          b) Quantifier: die angeben, wie oft ein Zeichen/Squenz sich wiederholen darf +*?
                                          c) common tokens: wie auswahllisten [a-z] oder alternativen a|b
                                          oder ausschlüsse [^a-z]

                                        damit kommt man schon extrem weit. regex101 hat auch den vorteil, das er die sequenz sprachlich aufteilt und genauer erklärt

                                        Nur bei der übernahme nach iobroker hapert es manchmal, da man im iobroker die optionen nicht genau so übernehmen kann und die interne logik zu den optionen nicht immer ganz einleuchtend ist

                                        1 Reply Last reply Reply Quote 0
                                        • derAlff
                                          derAlff Developer @Homoran last edited by

                                          @homoran ich hänge mich da nochmal dran 👍

                                          Und Danke nochmal 😉

                                          @OliverIO ja, die Seite nutze ich auch. Ich denke, mit den Tipps von euch beiden, kann ich da auch Recht viel lernen 👍

                                          1 Reply Last reply Reply Quote 0
                                          • H
                                            homecineplexx last edited by

                                            ich muss mich da wieder mal an euch wenden, ich bin fürs Parsen leider echt zu d***.
                                            Vor allem das Skript von @liv-in-sky wäre da wahrscheinlich interessant zu erweitern.
                                            Ich hätte gern von folgender Page link text die ersten 5 Ergebnisse von mir aus als Object in einem Datenpunkt zb so

                                            {'id': 'Jet-Hornerstrasse xy', 'Diesel':'1,999|15.03|07:05', 'Benzin:1,899|15:03|07:05'}
                                            

                                            Dann könnte ich damit arbeiten. Gibts da was einfaches? vor allem mitn Parser möcht ich das nicht unbedingt machen, da ichs gern per Scheduler dann allo 0,30 Minuten einer Stunde holen möchte.

                                            Danke glg

                                            liv-in-sky 1 Reply Last reply Reply Quote 0
                                            • First post
                                              Last post

                                            Support us

                                            ioBroker
                                            Community Adapters
                                            Donate

                                            815
                                            Online

                                            32.1k
                                            Users

                                            80.6k
                                            Topics

                                            1.3m
                                            Posts

                                            parser
                                            6
                                            30
                                            1744
                                            Loading More Posts
                                            • Oldest to Newest
                                            • Newest to Oldest
                                            • Most Votes
                                            Reply
                                            • Reply as topic
                                            Log in to reply
                                            Community
                                            Impressum | Datenschutz-Bestimmungen | Nutzungsbedingungen
                                            The ioBroker Community 2014-2023
                                            logo