T

Text Machine

Leistungsstarke Text-Tools, direkt in Ihrem Browser

Häufigkeitsanalyse

Füge einen beliebigen Text ein, um zu sehen, wie oft jeder Buchstabe vorkommt — direkt verglichen mit den Häufigkeiten des geschriebenen Englisch. Lies die Bigramm- und Trigramm-Zählungen, prüfe den Koinzidenzindex, um eine monoalphabetische Chiffre von einer polyalphabetischen zu unterscheiden, und exportiere die Tabelle. Alles läuft in deinem Browser.

Beispiel ausprobieren:

Zu analysierender Text

Füge oben Text ein, und seine Buchstabenhäufigkeiten, Bigramme, Trigramme und der Koinzidenzindex erscheinen hier.

So verwenden Sie Häufigkeitsanalyse

  1. 1

    Füge deinen Text ein

    Kopiere den Text oder Chiffretext, den du untersuchen möchtest, und füge ihn in das Feld ein. Buchstaben werden ohne Beachtung der Groß- und Kleinschreibung gezählt, und Leerzeichen, Zahlen und Satzzeichen werden ignoriert.

  2. 2

    Lies die Zusammenfassung

    Prüfe die Zeichen- und Buchstabenzählung, wie viele verschiedene Buchstaben vorkommen, den häufigsten Buchstaben und den Koinzidenzindex, der andeutet, ob ein Alphabet oder mehrere verwendet wurden.

  3. 3

    Studiere das Buchstabenhäufigkeitsdiagramm

    Vergleiche den Balken jedes Buchstabens mit seinem englischen Marker. Wechsle zu 'Nach Häufigkeit', um die Buchstaben zu ordnen und die Gesamtform zu sehen — holprig bei einer Substitutionschiffre, flach bei einer polyalphabetischen.

  4. 4

    Überfliege die Bigramme und Trigramme

    Sieh dir die häufigsten Paare und Tripel an. In einer Chiffre ist das häufigste Trigramm oft ein verschleiertes THE, das dir drei Buchstaben auf einmal liefert.

  5. 5

    Exportieren oder teilen

    Lade die Häufigkeitstabelle als CSV für deine Notizen oder dein Tabellenprogramm herunter, oder kopiere einen teilbaren Link, der das Tool mit deinem exakten Text wieder öffnet. Alles bleibt in deinem Browser.

Buchstabenhäufigkeitsanalyse, erklärt

Was ist Häufigkeitsanalyse?

Häufigkeitsanalyse ist die Untersuchung, wie oft jeder Buchstabe, jedes Buchstabenpaar oder jedes Buchstabentripel in einem Text vorkommt. Da die Buchstaben einer Sprache nicht gleichmäßig verwendet werden — E und T sind im Englischen überall, während Q und Z selten sind — wirkt das Häufigkeitsmuster wie ein Fingerabdruck. Dieses Muster zu zählen ist die älteste und mächtigste Technik der klassischen Kryptoanalyse, erstmals niedergeschrieben vom arabischen Gelehrten al-Kindi im neunten Jahrhundert.

Dieses Tool zählt die Buchstaben in dem, was du einfügst, zeigt jeden als Balken neben der erwarteten englischen Häufigkeit, listet die häufigsten Bigramme und Trigramme auf und gibt den Koinzidenzindex an. Zusammen sagen dir diese Zahlen, ob der Text gewöhnlicher Text, eine einfache Substitutionschiffre oder etwas ist, das mehrere Alphabete zugleich verwendet — ohne dass du einen einzigen Buchstaben von Hand zählen musst.

Das Buchstabenhäufigkeitsdiagramm lesen

Jede Zeile ist ein Buchstabe des Alphabets. Der gefüllte Balken zeigt, wie oft dieser Buchstabe in deinem Text vorkommt, als Prozentsatz aller Buchstaben, und der dünne senkrechte Marker zeigt die Häufigkeit desselben Buchstabens im typischen Englisch. Wenn ein Balken deutlich über seinen Marker hinausreicht, ist dieser Buchstabe überrepräsentiert; bleibt er darunter, ist der Buchstabe seltener als gewöhnlich. Wechsle die Sortierung, um die Buchstaben vom häufigsten zum seltensten zu ordnen, was die Form der Verteilung auf einen Blick deutlich macht.

Im normalen Englisch sind die höchsten Balken E, T, A, O, I und N, und das Diagramm sieht uneben und holprig aus. Eine monoalphabetische Chiffre behält diese holprige Form bei, verschiebt aber die Spitzen auf andere Buchstaben, weil jeder Buchstabe einfach durch einen anderen ersetzt wird. Eine polyalphabetische Chiffre glättet das Diagramm, bis jeder Balken etwa gleich hoch ist, weil derselbe Klartextbuchstabe je nach Position unterschiedlich verschlüsselt wird. Diese beiden Formen zu erkennen ist die nützlichste Fähigkeit beim Brechen klassischer Chiffren.

Der Koinzidenzindex

Der Koinzidenzindex, oder IoC, misst die Wahrscheinlichkeit, dass zwei zufällig aus dem Text gezogene Buchstaben identisch sind. Gewöhnliches Englisch liegt bei etwa 0.067, weil seine Häufigkeiten so ungleichmäßig sind, während völlig zufälliger Text sich 0.038 nähert, wo jeder Buchstabe gleich wahrscheinlich ist. Eine einzige Zahl erfasst, wie holprig oder flach die Verteilung ist.

Das macht den IoC zum schnellsten Test, um Chiffrenfamilien zu unterscheiden. Cäsar, Atbash und Schlüsselwort-Substitutionschiffren benennen Buchstaben nur um, sodass das ungleichmäßige englische Profil erhalten bleibt und der IoC hoch bleibt, nahe 0.066. Vigenère und andere polyalphabetische Chiffren vermischen mehrere Alphabete, glätten die Häufigkeiten und ziehen den IoC in Richtung 0.04. Das Tool gibt den Wert mit einem kurzen Hinweis aus, sodass ein hoher Wert auf eine Substitutionschiffre und ein niedriger auf eine polyalphabetische Chiffre deutet.

Bigramme, Trigramme und Kontaktmuster

Einzelne Buchstaben sind nur der Anfang. Das Englische hat auch stark bevorzugte Buchstabenpaare und -tripel: TH, HE, IN, ER und AN sind die häufigsten Bigramme, und THE, AND, ING und ENT dominieren die Trigramme. Das Tool listet die häufigsten Paare und Tripel in deinem Text auf und zählt sie nur innerhalb von Wörtern, sodass ein Leerzeichen niemals zwei zusammenhanglose Buchstaben zu einem falschen Paar verbindet.

Diese Kontaktmuster sind unschätzbar wertvoll, wenn eine einfache Buchstabenzählung nicht ausreicht. In einer Substitutionschiffre taucht die verschleierte Version von THE oft als häufigstes Trigramm auf und liefert dir drei Buchstaben auf einmal. Wiederholte Bigramme können die Länge eines Vigenère-Schlüssels über die Kasiski-Methode verraten. Selbst das Fehlen doppelter Buchstaben oder eine verdächtige Folge seltener Paare ist ein Hinweis darauf, mit welcher Chiffre du es zu tun hast.

Chiffren mit Häufigkeitsanalyse brechen

Um eine monoalphabetische Substitutionschiffre anzugreifen, sortiere das Diagramm nach Häufigkeit und stelle es dem Englischen gegenüber. Der häufigste Chiffrebuchstabe ist wahrscheinlich E, der nächste wahrscheinlich T, und das häufigste Trigramm ist wahrscheinlich THE. Trage diese Vermutungen ein und erweitere sie dann mithilfe der Bigramm- und Trigramm-Listen — sobald du E und T kennst, fallen das Paar TH und das Wort THE schnell an ihren Platz, und der Rest der Nachricht entwirrt sich von dort aus.

Bei einer Cäsar-Chiffre ist dieselbe Logik noch einfacher, weil sich jeder Buchstabe um denselben Betrag verschiebt: Finde die Verschiebung, die die Spitze der Chiffre mit dem E des Englischen ausrichtet, und du hast den Schlüssel. Bei einer Vigenère-Chiffre funktioniert die Häufigkeitsanalyse weiterhin, aber erst, nachdem du den Text anhand der Schlüssellänge in Spalten aufgeteilt hast, da jede Spalte dann eine eigene Cäsar-Chiffre ist, die du für sich lösen kannst. Den Koinzidenzindex zuerst zu kennen sagt dir, ob dieser Spaltentrick überhaupt nötig ist.

Monoalphabetisch versus polyalphabetisch auf einen Blick

Wenn du dir nur eine Sache merkst, dann diese. Ein hoher Koinzidenzindex und ein holpriges Diagramm mit klaren hohen Balken bedeuten eine monoalphabetische Chiffre, bei der jeder Buchstabe genau auf einen anderen abgebildet wird — Cäsar, Atbash, affin oder eine Schlüsselwort-Substitution. Diese geben der Häufigkeitsanalyse direkt nach, weil die Statistik des Klartexts geradewegs durchscheint.

Ein niedriger Koinzidenzindex und ein flaches Diagramm, in dem jeder Balken etwa gleich hoch ist, bedeuten eine polyalphabetische Chiffre, bei der ein Klartextbuchstabe zu vielen verschiedenen Chiffrebuchstaben werden kann — Vigenère, Beaufort, Gronsfeld oder Porta. Diese verbergen die rohen Buchstabenhäufigkeiten, sodass du zuerst die Schlüssellänge ermitteln und dann jede Position einzeln analysieren musst. Das Diagramm und der IoC sagen dir, in welcher dieser beiden Welten du dich befindest, bevor du Mühe investierst.

Grenzen und gute Praxis

Häufigkeitsanalyse ist statistisch, also braucht sie genügend Text, um vertrauenswürdig zu sein. Eine kurze Nachricht von einem Dutzend Buchstaben kann allein durch Zufall völlig irreführende Häufigkeiten zeigen, während ein ganzer Absatz sich nahe an das erwartete Muster einpendelt. Wenn eine Stichprobe mehrdeutig wirkt, liegt das meist daran, dass sie zu kurz ist, und nicht daran, dass die Methode versagt hat.

Beachte, dass die hier gezeigte englische Basislinie für gewöhnliche Prosa gilt. Spezialisierter Text — eine Namensliste, ein Stück Quellcode oder Text in einer anderen Sprache — hat sein eigenes Profil und wird nicht passen. Das Tool ignoriert Leerzeichen, Ziffern und Satzzeichen und fasst Groß- und Kleinschreibung zusammen, was genau das ist, was du für klassische Chiffren brauchst, aber es bedeutet, dass es nur Buchstaben analysiert, nicht die Struktur einer Kodierung wie Base64 oder Morse. Für diese identifiziere zuerst die Kodierung und dekodiere sie, und führe dann die Häufigkeitsanalyse auf den Buchstaben darunter aus.

Häufig gestellte Fragen

Was ist Häufigkeitsanalyse?
Häufigkeitsanalyse zählt, wie oft jeder Buchstabe, jedes Paar und jedes Tripel in einem Text vorkommt. Da Sprachen Buchstaben ungleichmäßig verwenden — E und T sind im Englischen häufig, Q und Z selten — wirkt dieses Muster wie ein Fingerabdruck. Sie ist die älteste Technik der Kryptoanalyse und die wichtigste Methode, mit der klassische Substitutionschiffren gebrochen werden.
Wie nutze ich die Häufigkeitsanalyse, um eine Chiffre zu brechen?
Sortiere das Diagramm nach Häufigkeit und gleiche es mit dem Englischen ab: Der häufigste Chiffrebuchstabe ist wahrscheinlich E, der nächste T, und das häufigste Trigramm ist wahrscheinlich THE. Trage diese Vermutungen ein und erweitere sie dann mit den Bigramm- und Trigramm-Listen, bis sich die Nachricht lesen lässt. Bei einer Cäsar-Chiffre finde einfach die Verschiebung, die die Spitze mit E ausrichtet.
Was ist der Koinzidenzindex?
Der Koinzidenzindex misst die Wahrscheinlichkeit, dass zwei zufällig aus dem Text gewählte Buchstaben gleich sind. Englisch liegt bei etwa 0.067 und zufälliger Text bei etwa 0.038. Monoalphabetische Chiffren halten den Wert hoch, nahe 0.066, während polyalphabetische Chiffren wie Vigenère ihn in Richtung 0.04 abflachen, was der schnellste Weg ist, die beiden Familien zu unterscheiden.
Was ist der Unterschied zwischen monoalphabetisch und polyalphabetisch?
In einer monoalphabetischen Chiffre wird jeder Buchstabe immer auf denselben anderen Buchstaben abgebildet, sodass das holprige englische Häufigkeitsprofil erhalten bleibt und ein hoher Koinzidenzindex und ein unebenes Diagramm es verraten. Eine polyalphabetische Chiffre verwendet mehrere Alphabete, sodass ein Klartextbuchstabe zu vielen Chiffrebuchstaben wird, was das Diagramm glättet und den Koinzidenzindex senkt.
Warum zeigt das Tool Bigramme und Trigramme?
Einzelne Buchstaben reichen nicht immer aus. Das Englische hat stark bevorzugte Paare und Tripel wie TH, HE, THE und ING. In einer Substitutionschiffre ist das verschleierte THE meist das häufigste Trigramm und liefert dir drei Buchstaben auf einmal, und wiederholte Bigramme können über die Kasiski-Methode eine Vigenère-Schlüssellänge verraten.
Was bedeuten die Balken und der senkrechte Marker?
Der gefüllte Balken zeigt, wie oft ein Buchstabe in deinem Text vorkommt, als Prozentsatz aller Buchstaben. Der dünne senkrechte Marker in derselben Zeile ist die Häufigkeit dieses Buchstabens im typischen Englisch. Ein Balken, der seinen Marker überragt, ist überrepräsentiert; einer, der darunter bleibt, ist seltener als gewöhnlich. Der Vergleich zeigt auf einen Blick, wie sich dein Text vom Klartext-Englisch unterscheidet.
Wie viel Text brauche ich für zuverlässige Ergebnisse?
Häufigkeitsanalyse ist statistisch, also ist länger besser. Ein Dutzend Buchstaben kann durch reinen Zufall irreführende Häufigkeiten zeigen, während ein ganzer Absatz sich nahe an das erwartete Muster einpendelt. Wenn eine Stichprobe mehrdeutig wirkt, ist sie meist zu kurz, statt dass die Methode versagt. Strebe mindestens einen oder zwei Sätze an.
Funktioniert es für andere Sprachen als Englisch?
Es zählt die Buchstaben A bis Z und vergleicht sie mit der englischen Basislinie, sodass die Zählungen für jeden Text korrekt sind, der Vergleich aber nur für englische Prosa sinnvoll ist. Andere Sprachen haben ihre eigenen Häufigkeitsprofile, sodass die Balken nicht mit den Markern übereinstimmen, obwohl die rohen Zählungen, Bigramme und der Koinzidenzindex weiterhin nützlich sind.
Kann ich Base64, Morse oder Binär analysieren?
Dieses Tool untersucht Buchstabenhäufigkeiten, sodass es am besten bei alphabetischem Text und Chiffren funktioniert. Kodierungen wie Base64, Morse oder Binär stellen Text als Symbole oder Zahlen statt als Buchstaben dar, sodass du sie zuerst identifizieren und dekodieren und dann die Häufigkeitsanalyse auf den Buchstaben darunter ausführen solltest. Der Chiffre-Identifikator kann dir sagen, welche Kodierung du hast.
Wird mein Text auf einen Server hochgeladen?
Nein. Die gesamte Zählung geschieht vollständig in deinem Browser, sodass dein Text nie hochgeladen, protokolliert oder gespeichert wird. Selbst ein Teilen-Link hält deinen Text in dem Teil der URL nach dem Rautezeichen, den Browser nie an einen Server senden, sodass er privat bleibt, bis du dich entscheidest, ihn zu teilen.
Kann ich die Häufigkeitstabelle exportieren?
Ja. Die Schaltfläche 'CSV exportieren' lädt die vollständige A-bis-Z-Tabelle mit der Anzahl jedes Buchstabens, seinem Prozentsatz in deinem Text und dem englischen Basisprozentsatz herunter, bereit zum Öffnen in einem Tabellenprogramm oder zum Einfügen in deine Notizen. Du kannst auch einen teilbaren Link kopieren, der das Tool mit demselben Text wieder öffnet.

Verwandte Tools

Machen Sie weiter mit diesen praktischen Tools

Substitutionschiffre-Löser

Unix-Zeitstempel-Konverter

JSON-zu-CSV-Konverter

CSV-zu-JSON-Konverter

JSON-zu-YAML-Konverter

Text-zu-Binär-Konverter