Einlesen Chinesischer Schriftzeichen aus Textdateien

Pinot · 10. Juni 2024, 16:57

Hallo zusammen,
Folgendes Problem
Ich will chinesische Strings in einer Textdatei finden.

Wie macht man das richtig? Mit meinen Versuchen komme ich nicht weiter

Zum HintergrundAus einer selbst erstellten Textdatei (zusammen kopiert) lese ich eine Reihe von Strings, die chinesisch oder englisch sein können.
Diese Textdatei1 lese ich mit IO.File.ReadAllLines (Pfad).
Das klappt, hier werden die chinesischen Zeichen übernommen. Diese will ich jetzt in einer zweiten Datei finden.

Hier fängt mein Problem an
Die zweite Textdatei stammt aus China und besteht auch aus chinesischen oder englischen Strings.
Wenn ich hier über IO.File.ReadAllLines(f) einlese, sehen die chinesischen Zeichen z.B. so aus ‚��,
anstelle 结果表格

Setze ich IO.File.ReadAllLines(f, Encoding.Default) ein, bekomme ich "½á¹û±í¸ñ
(Solche Zeichen bekomme ich auch, wenn ich beim Einlesen der ersten Textdatei ein endcoding.default verwende.)

Versuche ich mit Encoding.Unicode die Datei einzulesen, bekomme ich nur eine Line, die so tut als enthalte sie die Zeichen die ich suche. "﮹" & ChrW(2573) & "剔丠" & ChrW(11855) & …"
Da ist kein englischer String drin.

Meine Versuche, zeilenweise zu arbeiten, in dem ich entweder jede Zeile aus dem Array, das entsteht, wenn ich mit readalllines verwende, kommt auf das gleiche hinaus, wenn ich direkt endcoding.default verwende.
Das habe ich so versucht

VB.NET-Quellcode

Dim arr = IO.File.ReadAllLines(f, Encoding.Default)
For Each a In arr
Dim defaultCode As Encoding = Encoding.Default
Dim defauftByte = Encoding.Default.GetBytes(a)
Dim unicode As Encoding = Encoding.Unicode
Dim UniByte As Byte() = Encoding.Convert(defaultCode, unicode, defauftByte)
Dim Str = unicode.GetString(UniByte)
'Dim unicodeBytes As Byte() = unicode.GetBytes(a)
a = Str
Next

Wenn mir damit jemand helfen könnte, wäre das richtig klasse.

CodeTags gesetzt ~VaporiZed

RodFromGermany · 10. Juni 2024, 17:23

Pinot schrieb:

Encoding.Default

ist falsch. Du musst Dir die korrekte Codepage raussuchen.
Füge den chinesischen Text ins Notepad++ ein und klicker mal die Codierung durch.

exc-jdbi · 10. Juni 2024, 23:24

Pinot schrieb:

Encoding.Default

Was darf man unter Default verstehen? Ist es UTF8?

Eventuell kann dir geholfen werden, wenn du die Datei reinstellst?

Freundliche Grüsse

exc-jdbi

VaporiZed · 11. Juni 2024, 00:12

unter .NET ist es UTF-8, unter .NET Framework normalerweise irgend ne ANSI-Codepage:

Microsoft schrieb:

In .NET Framework ruft die Default Eigenschaft immer die aktive Codeseite des Systems ab

Eierlein · 11. Juni 2024, 08:21

Wie sieht’s mit einer Beispieldatei aus?

Pinot · 11. Juni 2024, 08:43

Hallo,
hier eine Beispieldatei.

Im Notepad ++ sagt wird GB2312 angezeigt.
Wie bekomme ich das im VB.NEt umgesetzt.

Was Endcoding default heißt, kann ich nicht sagen. WEnn ich es verewende, hat es in der Regel immer geklappt, was Umlaute betrift.

schon einmal vielen Dank für eure Mühe

Kleines Update,
ich habe mir unter Nugget von MS eine System.Text.Encoding.Codepage heruntergeladen. Jetzt frisst readalllines(f) die Datei. Also ohne weitere Parameter.
Ob das die richtige Lösung ist, weiß ich nicht. Verstehen tue ich das nicht. Da ich in Zukunft häufiger mit chinesischen Dateien zu tun haben werde, wäre mir eine Lösung, die nachvollziehbar ist, lieber

Vielen Dank an Alle

Eierlein · 11. Juni 2024, 09:21

Im Notepad ++ sagt wird GB2312 angezeigt.
Wie bekomme ich das im VB.NEt umgesetzt.

Versuch mal:

VB.NET-Quellcode

' Encoding.RegisterProvider(CodePagesEncodingProvider.Instance) 'Nur Bei NET Core erforderlich
IO.File.ReadAllLines(f, Encoding.GetEncoding(52936)

Was Endcoding default heißt, kann ich nicht sagen.

Wie Vaporizet schon schrieb:
Bei Net (Core) : UTF8
Bei Net Framework: Ansi (In DE CP1252)

exc-jdbi · 11. Juni 2024, 10:12

Hallo @Pinot

Wie du im Bild im Anhang (Net Core 8.0) erkennen kannst, hat das bei mir mit UTF8 perfekt geklappt.

Das Einlesen funktioniert also mit UTF8. Wenn du es jetzt natürlich in eine neue Datei speicherst, musst du schauen, dass auch wieder richtig reingeschrieben wird.

Freundliche Grüsse

exc-jdbi

Eierlein · 11. Juni 2024, 13:05

Da bei Pinot das Einlesen mit UTF8 nicht funktionierte und Notepad++ als Codepage GB2312 anzeigte, gehe ich davon aus, dass es sich nicht um eine unveränderte Originaldatei handelt.

@exc-jdbi
Bei der angehängten Datei handelt es sich um eine UTF8 Datei ohne BOM.
Notepad++ zeigt auch UTF8 an.
Deswegen funktioniert das Einlesen mit UTF8.

Pinot · 12. Juni 2024, 10:09

Sorry,
habe die falsche DAtei hochgeladen.
Versehentlich habe ich die Datei genommen, mit der ich rum expermitiert habe.
Hier die Datei, die mir Probleme bereitet.

Zwischenzeitlich habe ich es mit dem Vorschlag von Eierlein probiert,
IO.File.ReadAllLines(f, Encoding.GetEncoding(52936).
Der hat leider nicht geklappt.
Aber Dank des Hinweis konnte ich mit .getendcodings mir alle möglichen Varianten des Encodings anzeigen lassen.
Darunter fand sich 936, GB2312. Der klappt
Noch einmal vielen Dank.

RodFromGermany · 12. Juni 2024, 11:46

@Pinot Wie gesagt: Öffne das Dokument im Notepad++, da bekommst Du es angezeigt:

exc-jdbi · 13. Juni 2024, 04:38

Mit NotePad++ ist das wirklich noch praktisch.

Wenn du es per Code machen willst, wäre das hier sicher mal ein Anfang (siehe Code unten). Unglücklicherweise kenn ich noch nicht alle BOM-Bytes, sonst hätte ich es noch besser hingekriegt. Muss mich mal wieder in diese ganze Encoding-Geschichte rein schauen.

Wie man erkennen kann wäre Encoding gb2312 und x-cp20936 die richtige Wahl.

Freundliche Grüsse

exc-jdbi

Encodings

cs

vb

C#-Quellcode

WriteTextSippetsEncoding("20240410_1.csv","data.txt", 5);

Visual Basic-Quellcode

WriteTextSippetsEncoding("20240410_1.csv", "data.txt", 5)

Einlesen Chinesischer Schriftzeichen aus Textdateien

Einlesen Chinesischer Schriftzeichen aus Textdateien

VB.NET-Quellcode

Pinot schrieb:

Pinot schrieb:

Microsoft schrieb:

VB.NET-Quellcode

C#-Quellcode

VB.NET-Quellcode

C#-Quellcode

Visual Basic-Quellcode

Benutzer online 1

Tags

Ähnliche Themen

5 Benutzer haben hier geschrieben