Häufigkeitsanalyse
Füge einen beliebigen Text ein, um zu sehen, wie oft jeder Buchstabe vorkommt — direkt verglichen mit den Häufigkeiten des geschriebenen Englisch. Lies die Bigramm- und Trigramm-Zählungen, prüfe den Koinzidenzindex, um eine monoalphabetische Chiffre von einer polyalphabetischen zu unterscheiden, und exportiere die Tabelle. Alles läuft in deinem Browser.
Beispiel ausprobieren:
Füge oben Text ein, und seine Buchstabenhäufigkeiten, Bigramme, Trigramme und der Koinzidenzindex erscheinen hier.
So verwenden Sie Häufigkeitsanalyse
- 1
Füge deinen Text ein
Kopiere den Text oder Chiffretext, den du untersuchen möchtest, und füge ihn in das Feld ein. Buchstaben werden ohne Beachtung der Groß- und Kleinschreibung gezählt, und Leerzeichen, Zahlen und Satzzeichen werden ignoriert.
- 2
Lies die Zusammenfassung
Prüfe die Zeichen- und Buchstabenzählung, wie viele verschiedene Buchstaben vorkommen, den häufigsten Buchstaben und den Koinzidenzindex, der andeutet, ob ein Alphabet oder mehrere verwendet wurden.
- 3
Studiere das Buchstabenhäufigkeitsdiagramm
Vergleiche den Balken jedes Buchstabens mit seinem englischen Marker. Wechsle zu 'Nach Häufigkeit', um die Buchstaben zu ordnen und die Gesamtform zu sehen — holprig bei einer Substitutionschiffre, flach bei einer polyalphabetischen.
- 4
Überfliege die Bigramme und Trigramme
Sieh dir die häufigsten Paare und Tripel an. In einer Chiffre ist das häufigste Trigramm oft ein verschleiertes THE, das dir drei Buchstaben auf einmal liefert.
- 5
Exportieren oder teilen
Lade die Häufigkeitstabelle als CSV für deine Notizen oder dein Tabellenprogramm herunter, oder kopiere einen teilbaren Link, der das Tool mit deinem exakten Text wieder öffnet. Alles bleibt in deinem Browser.
Buchstabenhäufigkeitsanalyse, erklärt
Was ist Häufigkeitsanalyse?
Häufigkeitsanalyse ist die Untersuchung, wie oft jeder Buchstabe, jedes Buchstabenpaar oder jedes Buchstabentripel in einem Text vorkommt. Da die Buchstaben einer Sprache nicht gleichmäßig verwendet werden — E und T sind im Englischen überall, während Q und Z selten sind — wirkt das Häufigkeitsmuster wie ein Fingerabdruck. Dieses Muster zu zählen ist die älteste und mächtigste Technik der klassischen Kryptoanalyse, erstmals niedergeschrieben vom arabischen Gelehrten al-Kindi im neunten Jahrhundert.
Dieses Tool zählt die Buchstaben in dem, was du einfügst, zeigt jeden als Balken neben der erwarteten englischen Häufigkeit, listet die häufigsten Bigramme und Trigramme auf und gibt den Koinzidenzindex an. Zusammen sagen dir diese Zahlen, ob der Text gewöhnlicher Text, eine einfache Substitutionschiffre oder etwas ist, das mehrere Alphabete zugleich verwendet — ohne dass du einen einzigen Buchstaben von Hand zählen musst.
Das Buchstabenhäufigkeitsdiagramm lesen
Jede Zeile ist ein Buchstabe des Alphabets. Der gefüllte Balken zeigt, wie oft dieser Buchstabe in deinem Text vorkommt, als Prozentsatz aller Buchstaben, und der dünne senkrechte Marker zeigt die Häufigkeit desselben Buchstabens im typischen Englisch. Wenn ein Balken deutlich über seinen Marker hinausreicht, ist dieser Buchstabe überrepräsentiert; bleibt er darunter, ist der Buchstabe seltener als gewöhnlich. Wechsle die Sortierung, um die Buchstaben vom häufigsten zum seltensten zu ordnen, was die Form der Verteilung auf einen Blick deutlich macht.
Im normalen Englisch sind die höchsten Balken E, T, A, O, I und N, und das Diagramm sieht uneben und holprig aus. Eine monoalphabetische Chiffre behält diese holprige Form bei, verschiebt aber die Spitzen auf andere Buchstaben, weil jeder Buchstabe einfach durch einen anderen ersetzt wird. Eine polyalphabetische Chiffre glättet das Diagramm, bis jeder Balken etwa gleich hoch ist, weil derselbe Klartextbuchstabe je nach Position unterschiedlich verschlüsselt wird. Diese beiden Formen zu erkennen ist die nützlichste Fähigkeit beim Brechen klassischer Chiffren.
Der Koinzidenzindex
Der Koinzidenzindex, oder IoC, misst die Wahrscheinlichkeit, dass zwei zufällig aus dem Text gezogene Buchstaben identisch sind. Gewöhnliches Englisch liegt bei etwa 0.067, weil seine Häufigkeiten so ungleichmäßig sind, während völlig zufälliger Text sich 0.038 nähert, wo jeder Buchstabe gleich wahrscheinlich ist. Eine einzige Zahl erfasst, wie holprig oder flach die Verteilung ist.
Das macht den IoC zum schnellsten Test, um Chiffrenfamilien zu unterscheiden. Cäsar, Atbash und Schlüsselwort-Substitutionschiffren benennen Buchstaben nur um, sodass das ungleichmäßige englische Profil erhalten bleibt und der IoC hoch bleibt, nahe 0.066. Vigenère und andere polyalphabetische Chiffren vermischen mehrere Alphabete, glätten die Häufigkeiten und ziehen den IoC in Richtung 0.04. Das Tool gibt den Wert mit einem kurzen Hinweis aus, sodass ein hoher Wert auf eine Substitutionschiffre und ein niedriger auf eine polyalphabetische Chiffre deutet.
Bigramme, Trigramme und Kontaktmuster
Einzelne Buchstaben sind nur der Anfang. Das Englische hat auch stark bevorzugte Buchstabenpaare und -tripel: TH, HE, IN, ER und AN sind die häufigsten Bigramme, und THE, AND, ING und ENT dominieren die Trigramme. Das Tool listet die häufigsten Paare und Tripel in deinem Text auf und zählt sie nur innerhalb von Wörtern, sodass ein Leerzeichen niemals zwei zusammenhanglose Buchstaben zu einem falschen Paar verbindet.
Diese Kontaktmuster sind unschätzbar wertvoll, wenn eine einfache Buchstabenzählung nicht ausreicht. In einer Substitutionschiffre taucht die verschleierte Version von THE oft als häufigstes Trigramm auf und liefert dir drei Buchstaben auf einmal. Wiederholte Bigramme können die Länge eines Vigenère-Schlüssels über die Kasiski-Methode verraten. Selbst das Fehlen doppelter Buchstaben oder eine verdächtige Folge seltener Paare ist ein Hinweis darauf, mit welcher Chiffre du es zu tun hast.
Chiffren mit Häufigkeitsanalyse brechen
Um eine monoalphabetische Substitutionschiffre anzugreifen, sortiere das Diagramm nach Häufigkeit und stelle es dem Englischen gegenüber. Der häufigste Chiffrebuchstabe ist wahrscheinlich E, der nächste wahrscheinlich T, und das häufigste Trigramm ist wahrscheinlich THE. Trage diese Vermutungen ein und erweitere sie dann mithilfe der Bigramm- und Trigramm-Listen — sobald du E und T kennst, fallen das Paar TH und das Wort THE schnell an ihren Platz, und der Rest der Nachricht entwirrt sich von dort aus.
Bei einer Cäsar-Chiffre ist dieselbe Logik noch einfacher, weil sich jeder Buchstabe um denselben Betrag verschiebt: Finde die Verschiebung, die die Spitze der Chiffre mit dem E des Englischen ausrichtet, und du hast den Schlüssel. Bei einer Vigenère-Chiffre funktioniert die Häufigkeitsanalyse weiterhin, aber erst, nachdem du den Text anhand der Schlüssellänge in Spalten aufgeteilt hast, da jede Spalte dann eine eigene Cäsar-Chiffre ist, die du für sich lösen kannst. Den Koinzidenzindex zuerst zu kennen sagt dir, ob dieser Spaltentrick überhaupt nötig ist.
Monoalphabetisch versus polyalphabetisch auf einen Blick
Wenn du dir nur eine Sache merkst, dann diese. Ein hoher Koinzidenzindex und ein holpriges Diagramm mit klaren hohen Balken bedeuten eine monoalphabetische Chiffre, bei der jeder Buchstabe genau auf einen anderen abgebildet wird — Cäsar, Atbash, affin oder eine Schlüsselwort-Substitution. Diese geben der Häufigkeitsanalyse direkt nach, weil die Statistik des Klartexts geradewegs durchscheint.
Ein niedriger Koinzidenzindex und ein flaches Diagramm, in dem jeder Balken etwa gleich hoch ist, bedeuten eine polyalphabetische Chiffre, bei der ein Klartextbuchstabe zu vielen verschiedenen Chiffrebuchstaben werden kann — Vigenère, Beaufort, Gronsfeld oder Porta. Diese verbergen die rohen Buchstabenhäufigkeiten, sodass du zuerst die Schlüssellänge ermitteln und dann jede Position einzeln analysieren musst. Das Diagramm und der IoC sagen dir, in welcher dieser beiden Welten du dich befindest, bevor du Mühe investierst.
Grenzen und gute Praxis
Häufigkeitsanalyse ist statistisch, also braucht sie genügend Text, um vertrauenswürdig zu sein. Eine kurze Nachricht von einem Dutzend Buchstaben kann allein durch Zufall völlig irreführende Häufigkeiten zeigen, während ein ganzer Absatz sich nahe an das erwartete Muster einpendelt. Wenn eine Stichprobe mehrdeutig wirkt, liegt das meist daran, dass sie zu kurz ist, und nicht daran, dass die Methode versagt hat.
Beachte, dass die hier gezeigte englische Basislinie für gewöhnliche Prosa gilt. Spezialisierter Text — eine Namensliste, ein Stück Quellcode oder Text in einer anderen Sprache — hat sein eigenes Profil und wird nicht passen. Das Tool ignoriert Leerzeichen, Ziffern und Satzzeichen und fasst Groß- und Kleinschreibung zusammen, was genau das ist, was du für klassische Chiffren brauchst, aber es bedeutet, dass es nur Buchstaben analysiert, nicht die Struktur einer Kodierung wie Base64 oder Morse. Für diese identifiziere zuerst die Kodierung und dekodiere sie, und führe dann die Häufigkeitsanalyse auf den Buchstaben darunter aus.
Häufig gestellte Fragen
Was ist Häufigkeitsanalyse?
Wie nutze ich die Häufigkeitsanalyse, um eine Chiffre zu brechen?
Was ist der Koinzidenzindex?
Was ist der Unterschied zwischen monoalphabetisch und polyalphabetisch?
Warum zeigt das Tool Bigramme und Trigramme?
Was bedeuten die Balken und der senkrechte Marker?
Wie viel Text brauche ich für zuverlässige Ergebnisse?
Funktioniert es für andere Sprachen als Englisch?
Kann ich Base64, Morse oder Binär analysieren?
Wird mein Text auf einen Server hochgeladen?
Kann ich die Häufigkeitstabelle exportieren?
Verwandte Tools
Machen Sie weiter mit diesen praktischen Tools