HTTPClient Content anders als Quelltext

  • VB.NET
  • .NET 7–8

Es gibt 4 Antworten in diesem Thema. Der letzte Beitrag () ist von trix0.

    HTTPClient Content anders als Quelltext

    Servus,

    ich möchte aus einer Webseite den Quelltext einlesen. Bei der Bearbeitung des eingelesenen Quelltext ist mir aufgefallen, das dieser anders ist als den, der original auf der Webseite ist.
    Der eingelesene Quelltext sieht wie folgt aus:
    <h2>Kontakt</h2><p><strong>Fon:</strong> 0000000<br/><strong>Fax:</strong> 000000000<br/><script type="text/javascript">document.addEventListener("DOMContentLoaded", korrekteDezimal("104 111 104 110 119 117 114 48 110 108 117 102 107 104 108 118 118 67 119 48 114 113 111 108 113 104 49 103 104" ))</script><br/></p><h2>Beruf</h2><


    der eigentliche Quellcode sieht wie folgt aus:
    <h2>Kontakt</h2><p><strong>Ansprechprechpartner:</strong> AAAAAA </p><p><strong>Fon:</strong>000000000<br><strong>Fax:</strong> 00000000<br><script type="text/javascript">document.addEventListener("DOMContentLoaded", korrekteDezimal("112 100 111 104 117 48 100 120 118 101 100 120 48 114 104 111 118 113 108 119 125 67 119 48 114 113 111 108 113 104 49 103 104" ))</script><a href="mailto:text@t-online.de">text@t-online.de</a><br>


    Mein Code sieht dabei so aus:

    VB.NET-Quellcode

    1. 'Daten aus Dataset lesen
    2. For Each item In _FirmenDS.Firmendaten
    3. Dim _hc As New HttpClient
    4. Dim _hrp As HttpResponseMessage = Await _hc.GetAsync(New Uri("https://www.webseite.de/" & item.Link))
    5. _hrp.EnsureSuccessStatusCode()
    6. Dim response = Await _hrp.Content.ReadAsStringAsync()
    7. ReadInformation(response.Replace(vbCrLf, "").Replace(vbLf, "").Replace(vbCr, ""), item)
    8. Next


    Wieso erhalte ich einen anderen Quelltext über meine Abfrage, als das es auf der Webseite angezeigt wird?
    Vielleicht eine Crawler- bzw. Bot-Abwehr? Denn es sieht für mich so aus, als würden die personenbezogenen Daten (teilweise) fehlen.

    Evtl. mal den User-Agent deines HttpClients ändern, z. B. auf das, was auch dein Browser übermitteln würde.
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum
    ich habe jetzt ein User-Agent hinzugefügt. Immer noch das selbe Ergebnis.

    VB.NET-Quellcode

    1. _hc.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:130.0) Gecko/20100101 Firefox/130.0")


    _______________EDIT________________
    Okay, die e-mailadresse wird berechnet über eine Funktion. Habe diese nachgebaut.

    Jetzt fehlt nur noch Thema, den Ansprechpartner herauszufiltern. Hierbei hilft keine Cookies oder User-Agent.

    Dieser Beitrag wurde bereits 3 mal editiert, zuletzt von „trix0“ ()

    Den Quellcode, den du im 1. Post als 2. gepostet hast, hast du den wirklich von der Seite (die heruntergeladene HTML-Datei mit einem Editor geöffnet) oder aus dem Inspektor deines Browsers? Ich frage mich, ob der Ansprechpartner nicht auch per JavaScript generiert wird.
    Besucht auch mein anderes Forum:
    Das Amateurfilm-Forum