keine eindeutige Lösung bei Huffman Codierung

Visual_Prog · 7. August 2024, 09:48

Moinsen,

ich würde gerne mal ein Übersetzer schreiben, der Buchstaben in Einsen und Nullen mit Hilfe der Huffman Codierung übersetzt.

NUn habe ich eine Frage zur Übersetzung des Wortes mississippi

ich kriege folgendes raus:
m:100
i:0
s:11
p:101 demnach lautet das Wort übersetzt --> 100 0 11 11 0 11 11 0 101 101 0

schön und gut. Was ich nicht verstehe:
das s und das i liegen jeweils 4 mal vor. also kann man sie doch bei der Übersetzung vertauschen oder nicht?
m:100
i:11
s:0
p:101 demnach lautet das Wort übersetzt --> 100 11 0 0 11 0 0 11 101 101 11

Das sind nach chronologischer Reihenfolge zwei unterscihedliche Ergebnisse.

Die einzige Rettung ist die Gesamtzahl der NUllen und Einsen. Das sind je an Einsen: 13 und an Nullen: 8 bei beiden Ergebnissen.

Ist das dann die Lösung? Also dass es quasi Egal ist in welcher Reihenfolge die binären Daten vorliegen, sondern zum Ende die Gesamtanzahl?

RodFromGermany · 7. August 2024, 09:57

Visual_Prog schrieb:

also kann man sie doch bei der Übersetzung vertauschen oder nicht?

Was genau schwebt Dir vor zu tauschen?
Letztenendes erstellst Du ein Dictionary<char, byte[]> und bekommst für jeden Buchstaben einen Code. So etwas wie ein Morse-Alphabet.
Frage: Ist diese Codierung reversibel?
Bekommst Du aus der 0-1-Folge den Ursprungstext generiert?

Haudruferzappeltnoch · 7. August 2024, 12:34

Das Kodierungsergebnis ist unterschiedlich, ja
Das Dekodierungsergebnis ist beide Male mississippi
Das Codebuch ist nicht eindeutig für jede gegebene Quellmenge. Theoretisch nie, man kann immer jede 0 mit jeder 1 tauschen.
Was willst du genau wissen?

Coldfire · 7. August 2024, 13:01

Ich glaube, du solltest die Kraftsche Ungleichung beachten de.wikipedia.org/wiki/Kraft-Ungleichung : Und ja, wer immer diesen Artikel geschrieben hatte, wollte es auf möglichts unverständliche weise formulieren.

Visual_Prog · 7. August 2024, 20:48

Was genau schwebt Dir vor zu tauschen?

Das s und das i habe ich in meinen beiden Beispielen vertauscht, weil das bei der Huffman Codierung egal ist, von welchem Buchstaben de Rede ist sondern nur wie oft er vorkommt.

Ja das habt ihr schon vorgegriffen das Ganze ist also anscheinend reversibel das ist natürlich erfreulich. Auch, dass es in meinem Beispiel egal ist, ob i und s vertauscht werden.

Ich glaube, du solltest die Kraftsche Ungleichung beachten de.wikipedia.org/wiki/Kraft-Ungleichung : Und ja, wer immer diesen Artikel geschrieben hatte, wollte es auf möglichts unverständliche weise formulieren.

Das sieht sehr spannend aus vielen dank.

Letztenendes erstellst Du ein Dictionary<char, byte[]> und bekommst für jeden Buchstaben einen Code. So etwas wie ein Morse-Alphabet.

Ja danke für die Idee werde das vermutlich so erstellen

exc-jdbi · 8. August 2024, 12:03

Für mich gibt es eine Lösung, wie das Beispiel auch zeigt (siehe Anhang).

Als Beispiel in der Tabelle gibt es keine 10 der im code 100011110111101011010 passt. Genau so auch z.B. bei "110" nicht.

Das wunderbare an der Sache ist, dass es nähmlich die einzelnen Konstellationen nur jeweils einmal in der oberen Tabelle gibt, wenn man von Links nach Rechts geht. 100-0-11-11-0-etc. Die Baumstrukture macht das so möglich. Daher kann es problemlos aufgelöst werden

Nachteilig ist aber, dass die obige individuell dafür erstellte Tabelle gebraucht wird, um den Huffman-Code aufzulösen. Sie muss also dem Compress-Code mitgeliefert werden.

Auch interessant ist, wie man erkennen kann, die Gesamtlänge beträgt 21. Um so mehrmals ein Buchstabe in der Menge vorkommt, um so kleiner ist die daraus resultierende Länge nach Huffman. I = 1; S = 2; P = 3; M = 4;
Das ist auch genau der Grund warum der Hoffman-Code "komprimiert".3

Freundliche Grüsse

exc-jdbi

Haudruferzappeltnoch · 8. August 2024, 12:36

Man sollte dazu sagen, dass es nicht Buchstaben sein müssen. Wenn sich ganze Wörter oder ganze Sätze oft genug wiederholen, wie in Logdateien zum Beispiel, ist die Schrumpfung deutlich höher.

Bluespide · 8. August 2024, 16:27

Also ich habe deine Frage jetzt noch nicht so richtig verstanden.

Zur Dekodierung eines Huffman-kodierten Datenstroms ist beim klassischen Verfahren das im Kodierer erstellte Codebuch notwendig

Du kannst nicht nur aus dem Übersetztem das Wort decoden. Dazu brauchst du das Wörterbuch. Das wird festgelegt oder mitgesendet. Und wenn du dann die Buchstaben tauscht, dann hast du ja auch das neue Wörterbuch mit den getauschten Buchstaben drin? Bin verwirrt. Ich verstehe die Frage noch nicht

.

keine eindeutige Lösung bei Huffman Codierung

keine eindeutige Lösung bei Huffman Codierung

Visual_Prog schrieb:

Benutzer online 1

Ähnliche Themen

6 Benutzer haben hier geschrieben