NEWS
Daten aus Webseite ziehen
-
Hi,
ich würde gerne ein paar Daten aus einer Webseite extrahieren. Die Webseite selbst hat eine dynamische Adresse, die ich per Blockly abfragen kann. Sie wird extra generiert, wenn der Usecase eintritt, es handelt sich um eine html Seite die Tage und an diesen Tagen Zeitfenster anzeigt. Das ganze sieht dann z.B. so aus:Da möchte ich gerne die erste, kommende Zeitspanne Tag + Uhrzeit auslesen und frage mich, wie das am einfachsten geht. Mit dem Parser dürfte das vermutlich gehen oder gibt es noch einfachere Möglichkeiten?
Wenn nicht, wo finde ich Infos zu den Regex, da ich mich Null damit auskenne...? -
Hier eine Seite um mit rumzuspielen.
Den Seitenquelltext einfach in Teststring eintragen
und oben den Regex-Ausdruck eintragen.
Rechtsoben wird der Ausdruck etwas ausführlicher erklärt.Hier ein Regex-tutorial auf deutsch
https://danielfett.de/2006/03/20/regulaere-ausdruecke-tutorial/Allerdings will ich dich warnen.
Regex ist enorm komplex und die Ausdrücke und ihre Wirkweise
für Anfänger nicht immer vorhersehbar.
Es wird kein 10Minuten-Ding (lesen/Video anschauen, etwas anpassen, fertig)
du musst di etwas Zeit nehmen.
Irgendwo im Forum habe ich mal eine Vorgehensweise aufgeschrieben, wie man am einfachsten die richtige Stelle und die richtigen Ausdrücke findet.
https://forum.iobroker.net/topic/8379/einlesen-von-aktienkursen/81wenn du fragen hast, dann hier rein.
Wenn es schnell gehen soll und du es genau genug beschreibst, dann können wir hier helfen. ich (je nach zeit) und @Homoran , ggfs andere sind da schon erprobt. -
@oliverio Super! Vielen Dank. Ich hatte schon hin- und wieder gesehen, dass ein paar sich da wohl sehr gut auskennen und ich müsste mich einarbeiten, habe aber in den Formeln die ich gesehen habe so auf den ersten Blick keine logischen Brücken erkennen können, die das erleichtern würden, sprich viel Lernen wäre angesagt. Da ich allerdings gerne mein Projekt hier fertig machen würde, wäre ich dankbar, wenn Du oder @Homoran mir direkt helfen würde.
Wie ich oben beschrieben habe, wird hin- und wieder eine html Zeitentabelle ausgegeben. Ich frage als per Blockly regelmäßig ab, ob eine solche html Seite vorhanden ist und wenn ja, dann ziehe ich die in eine Variable und könnte nun natürlich den String durchsuchen, glaube aber es gibt intelligentere Varianten um die erste (naheliegenste Zeit, also Tag und Beginn) daraus zu extrahieren. In der Regel ist der Beginn des Zeitfensters am gleichen Tag, kann aber auch am nächsten Tag sein. Ich brauche als den Tag und die erste Zeit.
Mein Blockly sieht dazu bisher so aus:
<xml xmlns="https://developers.google.com/blockly/xml"> <variables> <variable id="H}`S6gI.T)6$=yQf9Wk?">result</variable> <variable id="R)s|:FqAi|=+(TP$%*Tk">Schedule</variable> <variable id="R?~@1o?4ne4sFQ8XmAV[">Ergebnis</variable> </variables> <block type="schedule" id="eM!6Dr-=o$`js:(@C(?^" x="63" y="63"> <field name="SCHEDULE">* * * * *</field> <statement name="STATEMENT"> <block type="request" id="ZaK:Q`M?Zh]QX5cp?bV9"> <mutation xmlns="http://www.w3.org/1999/xhtml" with_statement="true"></mutation> <field name="WITH_STATEMENT">TRUE</field> <field name="LOG"></field> <value name="URL"> <shadow type="text" id="=SKFJPU:g9tP2`c=!m$s"> <field name="TEXT">http://loadshedding.eskom.co.za/LoadShedding/GetStatus</field> </shadow> <block type="text" id="TNNh%3cclg(N(uADrv5x"> <field name="TEXT">https://loadshedding.eskom.co.za/LoadShedding/GetStatus</field> </block> </value> <statement name="STATEMENT"> <block type="debug" id="/;#h^TIdMOl]!(={fTJn"> <field name="Severity">log</field> <value name="TEXT"> <shadow type="text" id="{)[J-A^%y@,TtkIf^bP$"> <field name="TEXT">test</field> </shadow> <block type="variables_get" id="}tn,5{H~~@T(%?|y4,^V"> <field name="VAR" id="H}`S6gI.T)6$=yQf9Wk?">result</field> </block> </value> <next> <block type="variables_set" id="U2+AhqUG:VOv)_bCT8Kn"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> <value name="VALUE"> <block type="math_arithmetic" id="5k|VF_0Pr)MU6Bb7RTDI"> <field name="OP">MINUS</field> <value name="A"> <shadow type="math_number" id="b2|V1($`O.Qnko-Qw#M0"> <field name="NUM">1</field> </shadow> <block type="convert_tonumber" id="zhoCpUd7KSf$r3_G`~;4"> <value name="VALUE"> <block type="variables_get" id="BP4wqc$gsoU9wC12?T%#"> <field name="VAR" id="H}`S6gI.T)6$=yQf9Wk?">result</field> </block> </value> </block> </value> <value name="B"> <shadow type="math_number" id=":^WbPE(YmDEHei{P(f1l"> <field name="NUM">1</field> </shadow> </value> </block> </value> </block> </next> </block> </statement> <next> <block type="controls_if" id="H3UQLd!i:yY3dV.dZeEE"> <value name="IF0"> <block type="logic_compare" id="dBsn3NK9G*D^ctwvBVs;"> <field name="OP">NEQ</field> <value name="A"> <block type="variables_get" id="QtM7Zvi5e`]B/#~uXh5:"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> </block> </value> <value name="B"> <block type="math_number" id="13p=R_6ob?OLj$=6mZn$"> <field name="NUM">0</field> </block> </value> </block> </value> <statement name="DO0"> <block type="debug" id="4D]28}z6A;alx`_[Xl(:"> <field name="Severity">log</field> <value name="TEXT"> <shadow type="text"> <field name="TEXT">test</field> </shadow> <block type="text_join" id="}GwoEv#$U_#0#d7E;~$q"> <mutation items="3"></mutation> <value name="ADD0"> <block type="text" id="3-y6h`l?oAC~W]6,tX|c"> <field name="TEXT">Loadshedding Stage </field> </block> </value> <value name="ADD1"> <block type="variables_get" id="/#Z9n|G}Mwzh$AlQpBMl"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> </block> </value> <value name="ADD2"> <block type="text" id="#?62;RiY0{*b3iae5qQA"> <field name="TEXT"> !</field> </block> </value> </block> </value> <next> <block type="telegram" id="^u)TN2letI]w?$z|Fpw$"> <field name="INSTANCE"></field> <field name="LOG"></field> <field name="SILENT">FALSE</field> <field name="PARSEMODE">default</field> <field name="DISABLE_WEB_PAGE_PREVIEW">FALSE</field> <value name="MESSAGE"> <shadow type="text"> <field name="TEXT">text</field> </shadow> <block type="text_join" id="pdJvRTVOAqqTgWsuM0=("> <mutation items="3"></mutation> <value name="ADD0"> <block type="text" id="e`mY6qI62dUY`KXno-Xp"> <field name="TEXT">Loadshedding Stage </field> </block> </value> <value name="ADD1"> <block type="variables_get" id=",TlZ^7d6Pr4s1s9.GWn@"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> </block> </value> <value name="ADD2"> <block type="text" id="_h0U*ZcT%ybl`S5NAJe0"> <field name="TEXT"> !</field> </block> </value> </block> </value> <next> <block type="debug" id="TSgttlP);c3gb:/kPy~9"> <field name="Severity">log</field> <value name="TEXT"> <shadow type="text" id="}D5x!3KgRD.8sC?sH@vA"> <field name="TEXT">test</field> </shadow> <block type="text_join" id="N2BU)%wygy#DNParJ1j="> <mutation items="3"></mutation> <value name="ADD0"> <block type="text" id="NFCD#EYXW:byw:pk*DW`"> <field name="TEXT"> https://loadshedding.eskom.co.za/LoadShedding/GetScheduleM/1060136/</field> </block> </value> <value name="ADD1"> <block type="variables_get" id="2F-k|z+0oU_Pg_H=Oq|_"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> </block> </value> <value name="ADD2"> <block type="text" id="6.(bm/gUi;DLn!*~|seu"> <field name="TEXT">/9/1</field> </block> </value> </block> </value> <next> <block type="request" id="Uv)xL=O2QDd.m?}ZxkDi"> <mutation xmlns="http://www.w3.org/1999/xhtml" with_statement="true"></mutation> <field name="WITH_STATEMENT">TRUE</field> <field name="LOG"></field> <value name="URL"> <shadow type="text" id="+P+Cw#A#oE1{}A.ANqa$"> <field name="TEXT">text</field> </shadow> <block type="text_join" id="^`*tZ-gq0{o@Od_cdbFF"> <mutation items="3"></mutation> <value name="ADD0"> <block type="text" id="do-A?DH7zWycQ}@K@[v:"> <field name="TEXT"> https://loadshedding.eskom.co.za/LoadShedding/GetScheduleM/1060136/</field> </block> </value> <value name="ADD1"> <block type="variables_get" id="Q?Y$7%+(Dm)zNMPDx8w9"> <field name="VAR" id="R)s|:FqAi|=+(TP$%*Tk">Schedule</field> </block> </value> <value name="ADD2"> <block type="text" id="O,|Qgo3,y``S53fErJPh"> <field name="TEXT">/9/1</field> </block> </value> </block> </value> <statement name="STATEMENT"> <block type="variables_set" id="XAfLF~J0M$hT2Fdj5dds"> <field name="VAR" id="R?~@1o?4ne4sFQ8XmAV[">Ergebnis</field> <value name="VALUE"> <block type="variables_get" id="7)?Wb`gvuOO;7/8tb_-0"> <field name="VAR" id="H}`S6gI.T)6$=yQf9Wk?">result</field> </block> </value> <next> <block type="debug" id="j/p4qjTqSL!FKPKG=WDv"> <field name="Severity">log</field> <value name="TEXT"> <shadow type="text" id="@q{z[[obkuUaqr!~2^Sw"> <field name="TEXT">test</field> </shadow> <block type="variables_get" id="h6vdhiOjY21sc^lfU:@H"> <field name="VAR" id="R?~@1o?4ne4sFQ8XmAV[">Ergebnis</field> </block> </value> </block> </next> </block> </statement> </block> </next> </block> </next> </block> </next> </block> </statement> </block> </next> </block> </statement> </block> </xml>
-
@joergh sagte in Daten aus Webseite ziehen:
oder @Homoran mir direkt helfen würde.
ich kann dir beim Regex helfen, aber nicht via Blockly.
brauche dann den vollständig Quelltext und was du daraus haben willst
-
@homoran Der Quelltext steckt oben hinter dem Spoiler.
-
@joergh sagte in Daten aus Webseite ziehen:
die erste, kommende Zeitspanne Tag
yMonth">[^\w]+(.+)
da gibt es 29 Treffer@joergh sagte in Daten aus Webseite ziehen:
Uhrzeit
"Time":"([\d,-: ]+)
-
@homoran Danke. Ja, ich brauche nur das erste, also naheliegenste Datum und die dazu passende Startzeit.
Wie kriege ich das nun ausgelesen?
Wen ich den Parseradapter nehme, dann muss ich da ja fix die Webseite in den Einstellungen eintragen, aber bei meiner Webseite kann sich die Adresse ändern...? -
@joergh sagte in Daten aus Webseite ziehen:
. Ja, ich brauche nur das erste, also naheliegenste Datum und die dazu passende Startzeit.
beim Parser stellst du dazu NUM auf 1
wie es mit Blockly geht, weiß ich nicht.
@liv-in-sky hat sowas in javascript gemacht.zum üben für Regexes ist regex101.com optimal, selbst am Tablet
-
@homoran @OliverIO Ok, jetzt habe ich die Daten ziehen können und bekomme auch ein Ergebnis angezeigt, wenn ich das Ganze in den Einstellungen teste.
Er legt die DP an, aber diese bleiben leider leer, obwohl er zuvor in den Einstellungen den String als Ergebnis angezeigt hat...?Woran liegt das nun wieder?
Die Einstellungen sehen so aus:
-
@joergh das angezeigte Ergebnis ist aber sehr lang.
Glaube nicht das du das so speichern möchtest.Ist die Seite im allgemeinen Zugriff ohne Passwort?
Dann könntest du uns die Daten mal Copy/Paste fähig bereit stellengenaue HTTP-Adresse
und welche Daten du da extrahieren willst.So ohne weiteres ist die analyse mit deinen Angaben nicht möglich
-
@oliverio sagte in Daten aus Webseite ziehen:
@joergh das angezeigte Ergebnis ist aber sehr lang.
Glaube nicht das du das so speichern möchtest.Eigentlich würde mir das Tagesdatum reichen (und die erste Uhrzeit), aber das hätte ich mir dann eben aus dem String rausgeschnitten...Ich habe den Suchparameter von @Homoran übernommen. Kann ich das kürzen?
Ist die Seite im allgemeinen Zugriff ohne Passwort?
Ja, ist sie. Es ist die Seite des staatlichen Stromanbieters, der so bekannt gibt wann er in bestimmten Gebieten den Saft abgdreht. Dazu gibt es je nach Stufe die er in den Regionen unterschiedlich festlegt eine andere Tabelle die zur Anwendung kommt. Die Adresse setzt sich also aus einem festen Teil und einer Variable (Stage) und dann wieder zwei festen Elementen zusammen für die Region zusammen.
Dann könntest du uns die Daten mal Copy/Paste fähig bereit stellen
genaue HTTP-Adresse
und welche Daten du da extrahieren willst.https://loadshedding.eskom.co.za/LoadShedding/GetScheduleM/1060136/2/9/1
Die Seite wird nur befüllt, wenn tatsächlich Loadshedding aktiv ist, ansonsten sind die nicht verfügbar. Bis morgen ist das derzeit der Fall.
So ohne weiteres ist die analyse mit deinen Angaben nicht möglich
Was fehlt denn? Im Spoiler hatte ich den kompletten Code der Seite derzeit abgebildet und die anderen Einstellungen im Parser habe ich zuletzt gepostet. Irgendwie übernimmt er aber das Ergebnis nicht in die Datenpunkte.
-
@oliverio sagte in Daten aus Webseite ziehen:
das angezeigte Ergebnis ist aber sehr lang.
ich weiß auch warum
hab hier am Tablet keinen Parser Adapter.muss mir am PC mal ansehen wie der Regex bei ioBroker umgesetzt wird
-
wäre das hier, das richtige ergebnis für das obere beispiel?
habe das in dein blockly zum testen hinzugefügt
hier dein blockly mit den test funktionen - bin nicht sicher, ob das result aus dem request genauso zurückkommt - einfach mal testen - dann sehen wir's
-
@joergh Versuch mal
yMonth">[^\S]+(\S+ \d+ \S+)
was ist mit dem Datum?
-
@liv-in-sky Danke!
Ich habe nun folgendes aus Deinen JS Skripten gebastelt:
var x, Schedule, result, Ergebnis, Tag, Uhrzeit; // Beschreibe diese Funktion … async function Tag2(x) { let z=x.replace(/\n/,"") y=z.match(/yMonth"> (.*?)<\/div>/gm) return y[0].replace('yMonth">',"").replace('<\/div>',""); } // Beschreibe diese Funktion … async function Uhrzeit2(x) { let y=x.match(/"Time":"([\d,-: ]+)/gm) return y[0].replace('"Time":"',""); } schedule("*/20 * * * * *", async function () { try { require("request")('https://loadshedding.eskom.co.za/LoadShedding/GetStatus', async function (error, response, result) { Schedule = parseFloat(parseFloat(result)) - 1; if (Schedule > 0) { console.log((['Loadshedding Stage ',Schedule,' !'].join(''))); try { require("request")(([' https://loadshedding.eskom.co.za/LoadShedding/GetScheduleM/1060136/',Schedule,'/9/1'].join('')), async function (error, response, result) { Ergebnis = result; Tag = await Tag2(Ergebnis); Uhrzeit = await Uhrzeit2(Ergebnis); console.log((String(Tag) + String(Uhrzeit))); }).on("error", function (e) {console.error(e);}); } catch (e) { console.error(e); } } }).on("error", function (e) {console.error(e);}); } catch (e) { console.error(e); } }); 
Da erscheinen folgende Fehlermeldungen:
8.3.2022, 11:38:51.622 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: {'errno':-104,'code':'ECONNRESET','syscall':'read'} 8.3.2022, 11:38:51.625 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property 'replace' of undefined 8.3.2022, 11:38:51.625 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:5:13) 8.3.2022, 11:38:51.625 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:34:21 8.3.2022, 11:39:01.979 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:39:17.857 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property '0' of null 8.3.2022, 11:39:17.859 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:11:13) 8.3.2022, 11:39:17.859 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21 8.3.2022, 11:39:21.412 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:39:24.164 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property '0' of null 8.3.2022, 11:39:24.165 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:11:13) 8.3.2022, 11:39:24.166 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21 8.3.2022, 11:39:40.215 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:39:45.390 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: {'errno':-104,'code':'ECONNRESET','syscall':'read'} 8.3.2022, 11:39:45.394 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property 'replace' of undefined 8.3.2022, 11:39:45.394 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:5:13) 8.3.2022, 11:39:45.396 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21 8.3.2022, 11:40:00.237 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:40:02.405 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property '0' of null 8.3.2022, 11:40:02.406 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:11:13) 8.3.2022, 11:40:02.406 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21 8.3.2022, 11:40:20.176 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:40:20.423 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property '0' of null 8.3.2022, 11:40:20.425 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:11:13) 8.3.2022, 11:40:20.425 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21 8.3.2022, 11:40:41.834 [info ]: javascript.0 (1484) script.js.Eskom_Loadshedding: Loadshedding Stage 2 ! 8.3.2022, 11:40:42.116 [error]: javascript.0 (1484) script.js.Eskom_Loadshedding: TypeError: Cannot read property '0' of null 8.3.2022, 11:40:42.117 [error]: javascript.0 (1484) at Tag2 (script.js.Eskom_Loadshedding:11:13) 8.3.2022, 11:40:42.118 [error]: javascript.0 (1484) at script.js.Eskom_Loadshedding:33:21
-
@joergh zeile 20 replace ist falsch
return y[0].replace('"Time":"',"");
sollte:
return y[0].replace('"Time"':',');
-
@homoran sagte in Daten aus Webseite ziehen:
@joergh Versuch mal
yMonth">[^\S]+(\S+ \d+ \S+)
was ist mit dem Datum?
Danke. Damit bekomme ich den Tag schon einmal perfekt ausgeschnitten. Fehlt nur noch das Datum und das entsprechende korrekte JS Skript, dann dürfte ich mit Blockly-Mitteln weiter schnipplen können.
-
warum fügst du eigentlich das blockly nicht einfach zusammen - dein ergebnis (result) bei meinen blocks nutzen und in den request mit reinschreiben ?
-
@liv-in-sky Das habe ich doch gemacht. Ich habe Deinen Code importiert und dann die Teile in mein Blockly eingebaut mit Copy/Paste oder was meinst Du?
-
@joergh sorry - da habe ich was falsch verstanden - diese werte gehören ja oben in den request -oder