Als Beispiel dient ein spezielles Projekt, eine Applikation, die sich Einträge auf Blogs anschaut und den eigentlichen Text, die Überschrift und den Zeitstempel ausliest, so dass man sie in ein anderes CMS importieren kann. Im Folgenden werden einige der Erfahrungen mit diesem Projekt beschrieben. Die Erkenntnisse daraus sollen das nächste Mal nützlich sein, wenn HTML-Code geparst werden muss.
Zum Parsen des HTML-Codes wird das Webbrowser-Steuerelement verwendet, ein .NET-Wrapper um das Internet-Explorer-ActiveX-Steuerelement. Mit dieser Komponente erledigt der Internet Explorer die Hauptarbeit hinsichtlich Parsen der Webseite und Bereitstellen der Eigenschaften. Jetzt muss man nur noch wissen, wie man an die Informationen herankommt. Leider weist der .NET-Wrapper nicht alle erforderlichen Funktionen auf, was eine zusätzliche Herausforderung darstellt.
Das Steuerelement zu instantiieren ist leicht – dafür muss nur der Standard-Konstruktor aufgerufen werden. Die Verarbeitung wird im Hintergrund erledigt, und dem Anwender muss kein Browser gezeigt werden. Um das Steuerelement auf eine Seite zu richten, kann man entweder die URL-Eigenschaft angeben oder die Navigate-Methode aufrufen.
Hier wird die Sache knifflig: Das Steuerelement macht alles asynchron, daher blockieren diese Aufrufe nichts. Wenn man versucht, auf das Dokument zuzugreifen, ist es wahrscheinlich noch nicht fertig, und man sieht lediglich ein leeres Dokument. Doch um die Sache noch komplizierter zu machen, kann man auch nicht einfach an der ReadyState-Eigenschaft drehen – man muss einen Aufruf von Application.DoEvents in diese Schleife einfügen, sonst wird die ReadyState-Eigenschaft nie auf Complete wechseln. Hier der dafür verwendete Code:
Wenn diese Schleife beendet wird, ist das Dokument vollständig geladen und kann verwendet werden. Das Projekt muss einen Verweis auf mshtml.tlb enthalten, und der Code muss mshtml verwenden beziehungsweise importieren.
Page: 1 2
Der Umsatz steigt um 15 Prozent, der Nettogewinn um 57 Prozent. Im nachbörslichen Handel kassiert…
Aus 61,9 Milliarden Dollar generiert das Unternehmen einen Nettoprofit von 21,9 Milliarden Dollar. Das größte…
Mehr Digitalisierung wird von den Unternehmen gefordert. Für KMU ist die Umsetzung jedoch nicht trivial,…
Der Nettoprofi wächst um 117 Prozent. Auch beim Umsatz erzielt die Facebook-Mutter ein deutliches Plus.…
Vom Standpunkt eines Verbrauchers aus betrachtet, stellt sich die Frage: Wie relevant und persönlich sind…
Scamio analysiert und bewertet die Gefahren und gibt Anwendern Ratschläge für den Umgang mit einer…