Hallo Forengemeinde,
der Phenom hat mal wieder einen dicken Schlauch unter den Füßen. Könnte mir ein User auf den richtigen Weg helfen und mir damit ein paar Nerven ersparen?
Die Aufgabenstellung ist eigentlich - zumindest in der Theorie - recht easy. Ich finde nur gerade nicht den passenden Weg, um eine Lösung zu finden.
Ich versuche eine CSV-Liste automatisiert bearbeiten zu lassen. Dabei wird die Datei Zeile für Zeile eingelesen und mit Split in einzelne Spalten zerlegt.
Anschließend wird jede Zeile bearbeitet und mit dem Writer in eine andere CSV geschrieben. Im Prinzip lassen sich einfache Änderungen im Text/Code
recht leicht mit Replace durchführen. Nun hänge ich aber bei einer ganz bestimmten Aufgabe.
In einer der Spalten steht sehr langer HTML-Code (50.000+ Zeichen) der bereinigt werden muss. Irgendein lustiger Mensch hat gedacht, es ist toll,
wenn man Galerien mit Inline-Grafiken in den HTML-Code wirft. Diese stehen immer zwischen HTML-Kommentaren.
Passieren sollte Folgendes:
- Text (kompletten HTML-Code) in String werfen
- In String nach folgendem Inhalt A suchen:
- In String nach folgendem Inhalt B suchen:
- ALLES was zwischen A und B liegt, inklusive A und B selbst löschen.
= Bereinigter Text im String.
Wie zur Hölle kann ich das am einfachsten und schnellsten lösen?
Ich sehe mal wieder den Wald vor lauter Bäumen nicht.
Mit RegEx bin ich nicht so gut vertraut, da ich es so gut wie nie benötige.
Wäre super, wenn mir jemand auf die Sprünge helfen könnte.
THX!
der Phenom hat mal wieder einen dicken Schlauch unter den Füßen. Könnte mir ein User auf den richtigen Weg helfen und mir damit ein paar Nerven ersparen?
Die Aufgabenstellung ist eigentlich - zumindest in der Theorie - recht easy. Ich finde nur gerade nicht den passenden Weg, um eine Lösung zu finden.
Ich versuche eine CSV-Liste automatisiert bearbeiten zu lassen. Dabei wird die Datei Zeile für Zeile eingelesen und mit Split in einzelne Spalten zerlegt.
Anschließend wird jede Zeile bearbeitet und mit dem Writer in eine andere CSV geschrieben. Im Prinzip lassen sich einfache Änderungen im Text/Code
recht leicht mit Replace durchführen. Nun hänge ich aber bei einer ganz bestimmten Aufgabe.
In einer der Spalten steht sehr langer HTML-Code (50.000+ Zeichen) der bereinigt werden muss. Irgendein lustiger Mensch hat gedacht, es ist toll,
wenn man Galerien mit Inline-Grafiken in den HTML-Code wirft. Diese stehen immer zwischen HTML-Kommentaren.
Passieren sollte Folgendes:
- Text (kompletten HTML-Code) in String werfen
- In String nach folgendem Inhalt A suchen:
- In String nach folgendem Inhalt B suchen:
- ALLES was zwischen A und B liegt, inklusive A und B selbst löschen.
= Bereinigter Text im String.
Wie zur Hölle kann ich das am einfachsten und schnellsten lösen?
Ich sehe mal wieder den Wald vor lauter Bäumen nicht.
Mit RegEx bin ich nicht so gut vertraut, da ich es so gut wie nie benötige.
Wäre super, wenn mir jemand auf die Sprünge helfen könnte.
THX!