Analyse de fréquence
Collez un texte pour voir à quelle fréquence chaque lettre apparaît, comparée côte à côte avec les fréquences de l'anglais écrit. Lisez les comptages des bigrammes et des trigrammes, vérifiez l'indice de coïncidence pour distinguer un chiffre monoalphabétique d'un chiffre polyalphabétique, et exportez le tableau. Tout fonctionne dans votre navigateur.
Essayez un exemple :
Collez un texte ci-dessus et ses fréquences de lettres, ses bigrammes, ses trigrammes et son indice de coïncidence apparaîtront ici.
Comment utiliser Analyse de fréquence
- 1
Collez votre texte
Copiez le texte ou le texte chiffré que vous voulez étudier et collez-le dans la zone. Les lettres sont comptées sans tenir compte de la casse, et les espaces, nombres et signes de ponctuation sont ignorés.
- 2
Lisez la synthèse
Vérifiez le nombre de caractères et de lettres, combien de lettres distinctes apparaissent, la lettre la plus fréquente, et l'indice de coïncidence, qui suggère si un seul alphabet ou plusieurs ont été utilisés.
- 3
Étudiez le graphique de fréquence des lettres
Comparez la barre de chaque lettre à son repère anglais. Passez à « Par fréquence » pour classer les lettres et voir la forme d'ensemble — irrégulière pour un chiffre de substitution, plate pour un chiffre polyalphabétique.
- 4
Parcourez les bigrammes et les trigrammes
Regardez les paires et triplets les plus courants. Dans un chiffre, le trigramme en tête est souvent un THE déguisé, ce qui vous livre trois lettres d'un coup.
- 5
Exportez ou partagez
Téléchargez le tableau des fréquences au format CSV pour vos notes ou votre tableur, ou copiez un lien partageable qui rouvre l'outil avec votre texte exact. Tout reste dans votre navigateur.
L'analyse de la fréquence des lettres, expliquée
Qu'est-ce que l'analyse de fréquence ?
L'analyse de fréquence est l'étude de la fréquence à laquelle chaque lettre, paire de lettres ou triplet de lettres apparaît dans un texte. Comme les lettres d'une langue ne sont pas employées de façon égale — E et T sont partout en anglais alors que Q et Z sont rares — le profil des fréquences agit comme une empreinte digitale. Compter ce profil est la technique la plus ancienne et la plus puissante de la cryptanalyse classique, consignée pour la première fois par le savant arabe al-Kindi au neuvième siècle.
Cet outil compte les lettres de tout ce que vous collez, affiche chacune sous forme de barre à côté de la fréquence anglaise attendue, énumère les bigrammes et trigrammes les plus courants, et indique l'indice de coïncidence. Ensemble, ces nombres vous disent si le texte est de l'écriture ordinaire, un simple chiffre de substitution, ou quelque chose qui utilise plusieurs alphabets à la fois — sans que vous ayez à compter une seule lettre à la main.
Lire le graphique de fréquence des lettres
Chaque ligne correspond à une lettre de l'alphabet. La barre pleine montre la fréquence à laquelle cette lettre apparaît dans votre texte en pourcentage de toutes les lettres, et le fin repère vertical indique la fréquence de la même lettre en anglais courant. Lorsqu'une barre dépasse nettement son repère, la lettre est surreprésentée ; lorsqu'elle reste en deçà, la lettre est plus rare que d'habitude. Changez l'ordre de tri pour classer les lettres de la plus fréquente à la moins fréquente, ce qui rend la forme de la distribution évidente au premier coup d'œil.
En anglais normal, les barres les plus hautes sont E, T, A, O, I et N, et le graphique paraît irrégulier et inégal. Un chiffre monoalphabétique conserve cette forme irrégulière mais déplace les pics vers d'autres lettres, car chaque lettre est simplement remplacée par une autre. Un chiffre polyalphabétique aplatit le graphique jusqu'à ce que toutes les barres aient à peu près la même hauteur, car la même lettre du texte clair est chiffrée différemment selon sa position. Reconnaître ces deux formes est la compétence la plus utile pour casser les chiffres classiques.
L'indice de coïncidence
L'indice de coïncidence, ou IoC, mesure la probabilité que deux lettres prises au hasard dans le texte soient identiques. L'anglais ordinaire se situe autour de 0.067 parce que ses fréquences sont très inégales, tandis qu'un texte entièrement aléatoire approche 0.038, où chaque lettre est également probable. Un seul nombre résume à quel point la distribution est irrégulière ou plate.
C'est ce qui fait de l'IoC le test le plus rapide pour distinguer les familles de chiffres. Les chiffres de César, d'Atbash et de substitution à mot-clé ne font que réétiqueter les lettres, de sorte que le profil anglais inégal survit et que l'IoC reste élevé, proche de 0.066. Vigenère et les autres chiffres polyalphabétiques mêlent plusieurs alphabets, ce qui aplatit les fréquences et fait chuter l'IoC vers 0.04. L'outil affiche la valeur accompagnée d'une courte indication : une valeur élevée vous oriente vers un chiffre de substitution et une valeur faible vers un chiffre polyalphabétique.
Bigrammes, trigrammes et motifs de contact
Les lettres isolées ne sont qu'un début. L'anglais a aussi des paires et des triplets de lettres fortement privilégiés : TH, HE, IN, ER et AN sont les bigrammes les plus courants, et THE, AND, ING et ENT dominent les trigrammes. L'outil énumère les paires et triplets les plus fréquents de votre texte, en ne les comptant qu'à l'intérieur des mots afin qu'une espace ne réunisse jamais deux lettres sans rapport en une fausse paire.
Ces motifs de contact sont précieux lorsqu'un simple comptage de lettres ne suffit pas. Dans un chiffre de substitution, la version déguisée de THE apparaît souvent comme le trigramme le plus courant, vous donnant trois lettres d'un coup. Des bigrammes répétés peuvent trahir la longueur d'une clé de Vigenère par la méthode de Kasiski. Même l'absence de lettres doublées, ou une suite suspecte de paires rares, est un indice sur le chiffre auquel vous avez affaire.
Casser des chiffres avec l'analyse de fréquence
Pour attaquer un chiffre de substitution monoalphabétique, triez le graphique par fréquence et alignez-le sur l'anglais. La lettre chiffrée la plus courante est probablement E, la suivante probablement T, et le trigramme le plus fréquent est probablement THE. Notez ces hypothèses au crayon, puis utilisez les listes de bigrammes et de trigrammes pour les étendre — une fois que vous connaissez E et T, la paire TH et le mot THE se mettent vite en place, et le reste du message se dévide à partir de là.
Pour un chiffre de César, la même logique est encore plus simple, car chaque lettre se décale du même montant : trouvez le décalage qui aligne le pic du texte chiffré sur le E de l'anglais et vous avez la clé. Pour un chiffre de Vigenère, l'analyse de fréquence fonctionne toujours, mais seulement après avoir réparti le texte en colonnes selon la longueur de la clé, puisque chaque colonne est alors un chiffre de César distinct que vous pouvez résoudre séparément. Connaître d'abord l'indice de coïncidence vous indique si cette astuce des colonnes est même nécessaire.
Monoalphabétique contre polyalphabétique en un coup d'œil
Si vous ne retenez qu'une seule chose, retenez ceci. Un indice de coïncidence élevé et un graphique irrégulier avec des barres nettement hautes signifient un chiffre monoalphabétique, où chaque lettre correspond à exactement une autre lettre — César, Atbash, affine ou substitution à mot-clé. Ceux-ci cèdent directement à l'analyse de fréquence, car les statistiques du texte clair transparaissent telles quelles.
Un indice de coïncidence faible et un graphique plat où toutes les barres ont à peu près la même hauteur signifient un chiffre polyalphabétique, où une lettre du texte clair peut devenir de nombreuses lettres chiffrées différentes — Vigenère, Beaufort, Gronsfeld ou Porta. Ceux-ci masquent les fréquences brutes des lettres : vous devez d'abord retrouver la longueur de la clé, puis analyser chaque position séparément. Le graphique et l'IoC vous disent dans lequel de ces deux mondes vous vous trouvez avant que vous n'y consacriez le moindre effort.
Limites et bonnes pratiques
L'analyse de fréquence est statistique : il lui faut donc assez de texte pour être fiable. Un message court d'une douzaine de lettres peut afficher des fréquences extrêmement trompeuses par simple hasard, tandis qu'un paragraphe entier se rapproche du profil attendu. Quand un échantillon paraît ambigu, la cause habituelle est qu'il est trop court, et non que la méthode a échoué.
Gardez à l'esprit que la référence anglaise montrée ici concerne la prose ordinaire. Un texte spécialisé — une liste de noms, un extrait de code source, ou de l'écriture dans une autre langue — possède son propre profil et ne correspondra pas. L'outil ignore les espaces, les chiffres et la ponctuation et fusionne majuscules et minuscules, ce qui est exactement ce que vous voulez pour les chiffres classiques, mais cela signifie qu'il n'analyse que les lettres, pas la structure d'un encodage comme Base64 ou Morse. Pour ceux-là, identifiez d'abord l'encodage et décodez-le, puis lancez l'analyse de fréquence sur les lettres sous-jacentes.
Questions fréquentes
Qu'est-ce que l'analyse de fréquence ?
Comment utiliser l'analyse de fréquence pour casser un chiffre ?
Qu'est-ce que l'indice de coïncidence ?
Quelle est la différence entre monoalphabétique et polyalphabétique ?
Pourquoi l'outil affiche-t-il des bigrammes et des trigrammes ?
Que signifient les barres et le repère vertical ?
De combien de texte ai-je besoin pour des résultats fiables ?
Cela fonctionne-t-il pour d'autres langues que l'anglais ?
Puis-je analyser du Base64, du Morse ou du binaire ?
Mon texte est-il envoyé à un serveur ?
Puis-je exporter le tableau des fréquences ?
Outils similaires
Continuez avec ces outils pratiques