Analyse de fréquence

Collez un texte pour voir à quelle fréquence chaque lettre apparaît, comparée côte à côte avec les fréquences de l'anglais écrit. Lisez les comptages des bigrammes et des trigrammes, vérifiez l'indice de coïncidence pour distinguer un chiffre monoalphabétique d'un chiffre polyalphabétique, et exportez le tableau. Tout fonctionne dans votre navigateur.

Essayez un exemple :

Texte à analyser

Collez un texte ci-dessus et ses fréquences de lettres, ses bigrammes, ses trigrammes et son indice de coïncidence apparaîtront ici.

Comment utiliser Analyse de fréquence

1
Collez votre texte
Copiez le texte ou le texte chiffré que vous voulez étudier et collez-le dans la zone. Les lettres sont comptées sans tenir compte de la casse, et les espaces, nombres et signes de ponctuation sont ignorés.
2
Lisez la synthèse
Vérifiez le nombre de caractères et de lettres, combien de lettres distinctes apparaissent, la lettre la plus fréquente, et l'indice de coïncidence, qui suggère si un seul alphabet ou plusieurs ont été utilisés.
3
Étudiez le graphique de fréquence des lettres
Comparez la barre de chaque lettre à son repère anglais. Passez à « Par fréquence » pour classer les lettres et voir la forme d'ensemble — irrégulière pour un chiffre de substitution, plate pour un chiffre polyalphabétique.
4
Parcourez les bigrammes et les trigrammes
Regardez les paires et triplets les plus courants. Dans un chiffre, le trigramme en tête est souvent un THE déguisé, ce qui vous livre trois lettres d'un coup.

5
Exportez ou partagez
Téléchargez le tableau des fréquences au format CSV pour vos notes ou votre tableur, ou copiez un lien partageable qui rouvre l'outil avec votre texte exact. Tout reste dans votre navigateur.

L'analyse de la fréquence des lettres, expliquée

Qu'est-ce que l'analyse de fréquence ?

L'analyse de fréquence est l'étude de la fréquence à laquelle chaque lettre, paire de lettres ou triplet de lettres apparaît dans un texte. Comme les lettres d'une langue ne sont pas employées de façon égale — E et T sont partout en anglais alors que Q et Z sont rares — le profil des fréquences agit comme une empreinte digitale. Compter ce profil est la technique la plus ancienne et la plus puissante de la cryptanalyse classique, consignée pour la première fois par le savant arabe al-Kindi au neuvième siècle.

Cet outil compte les lettres de tout ce que vous collez, affiche chacune sous forme de barre à côté de la fréquence anglaise attendue, énumère les bigrammes et trigrammes les plus courants, et indique l'indice de coïncidence. Ensemble, ces nombres vous disent si le texte est de l'écriture ordinaire, un simple chiffre de substitution, ou quelque chose qui utilise plusieurs alphabets à la fois — sans que vous ayez à compter une seule lettre à la main.

Lire le graphique de fréquence des lettres

Chaque ligne correspond à une lettre de l'alphabet. La barre pleine montre la fréquence à laquelle cette lettre apparaît dans votre texte en pourcentage de toutes les lettres, et le fin repère vertical indique la fréquence de la même lettre en anglais courant. Lorsqu'une barre dépasse nettement son repère, la lettre est surreprésentée ; lorsqu'elle reste en deçà, la lettre est plus rare que d'habitude. Changez l'ordre de tri pour classer les lettres de la plus fréquente à la moins fréquente, ce qui rend la forme de la distribution évidente au premier coup d'œil.

En anglais normal, les barres les plus hautes sont E, T, A, O, I et N, et le graphique paraît irrégulier et inégal. Un chiffre monoalphabétique conserve cette forme irrégulière mais déplace les pics vers d'autres lettres, car chaque lettre est simplement remplacée par une autre. Un chiffre polyalphabétique aplatit le graphique jusqu'à ce que toutes les barres aient à peu près la même hauteur, car la même lettre du texte clair est chiffrée différemment selon sa position. Reconnaître ces deux formes est la compétence la plus utile pour casser les chiffres classiques.

L'indice de coïncidence

L'indice de coïncidence, ou IoC, mesure la probabilité que deux lettres prises au hasard dans le texte soient identiques. L'anglais ordinaire se situe autour de 0.067 parce que ses fréquences sont très inégales, tandis qu'un texte entièrement aléatoire approche 0.038, où chaque lettre est également probable. Un seul nombre résume à quel point la distribution est irrégulière ou plate.

C'est ce qui fait de l'IoC le test le plus rapide pour distinguer les familles de chiffres. Les chiffres de César, d'Atbash et de substitution à mot-clé ne font que réétiqueter les lettres, de sorte que le profil anglais inégal survit et que l'IoC reste élevé, proche de 0.066. Vigenère et les autres chiffres polyalphabétiques mêlent plusieurs alphabets, ce qui aplatit les fréquences et fait chuter l'IoC vers 0.04. L'outil affiche la valeur accompagnée d'une courte indication : une valeur élevée vous oriente vers un chiffre de substitution et une valeur faible vers un chiffre polyalphabétique.

Bigrammes, trigrammes et motifs de contact

Les lettres isolées ne sont qu'un début. L'anglais a aussi des paires et des triplets de lettres fortement privilégiés : TH, HE, IN, ER et AN sont les bigrammes les plus courants, et THE, AND, ING et ENT dominent les trigrammes. L'outil énumère les paires et triplets les plus fréquents de votre texte, en ne les comptant qu'à l'intérieur des mots afin qu'une espace ne réunisse jamais deux lettres sans rapport en une fausse paire.

Ces motifs de contact sont précieux lorsqu'un simple comptage de lettres ne suffit pas. Dans un chiffre de substitution, la version déguisée de THE apparaît souvent comme le trigramme le plus courant, vous donnant trois lettres d'un coup. Des bigrammes répétés peuvent trahir la longueur d'une clé de Vigenère par la méthode de Kasiski. Même l'absence de lettres doublées, ou une suite suspecte de paires rares, est un indice sur le chiffre auquel vous avez affaire.

Casser des chiffres avec l'analyse de fréquence

Pour attaquer un chiffre de substitution monoalphabétique, triez le graphique par fréquence et alignez-le sur l'anglais. La lettre chiffrée la plus courante est probablement E, la suivante probablement T, et le trigramme le plus fréquent est probablement THE. Notez ces hypothèses au crayon, puis utilisez les listes de bigrammes et de trigrammes pour les étendre — une fois que vous connaissez E et T, la paire TH et le mot THE se mettent vite en place, et le reste du message se dévide à partir de là.

Pour un chiffre de César, la même logique est encore plus simple, car chaque lettre se décale du même montant : trouvez le décalage qui aligne le pic du texte chiffré sur le E de l'anglais et vous avez la clé. Pour un chiffre de Vigenère, l'analyse de fréquence fonctionne toujours, mais seulement après avoir réparti le texte en colonnes selon la longueur de la clé, puisque chaque colonne est alors un chiffre de César distinct que vous pouvez résoudre séparément. Connaître d'abord l'indice de coïncidence vous indique si cette astuce des colonnes est même nécessaire.

Monoalphabétique contre polyalphabétique en un coup d'œil

Si vous ne retenez qu'une seule chose, retenez ceci. Un indice de coïncidence élevé et un graphique irrégulier avec des barres nettement hautes signifient un chiffre monoalphabétique, où chaque lettre correspond à exactement une autre lettre — César, Atbash, affine ou substitution à mot-clé. Ceux-ci cèdent directement à l'analyse de fréquence, car les statistiques du texte clair transparaissent telles quelles.

Un indice de coïncidence faible et un graphique plat où toutes les barres ont à peu près la même hauteur signifient un chiffre polyalphabétique, où une lettre du texte clair peut devenir de nombreuses lettres chiffrées différentes — Vigenère, Beaufort, Gronsfeld ou Porta. Ceux-ci masquent les fréquences brutes des lettres : vous devez d'abord retrouver la longueur de la clé, puis analyser chaque position séparément. Le graphique et l'IoC vous disent dans lequel de ces deux mondes vous vous trouvez avant que vous n'y consacriez le moindre effort.

Limites et bonnes pratiques

L'analyse de fréquence est statistique : il lui faut donc assez de texte pour être fiable. Un message court d'une douzaine de lettres peut afficher des fréquences extrêmement trompeuses par simple hasard, tandis qu'un paragraphe entier se rapproche du profil attendu. Quand un échantillon paraît ambigu, la cause habituelle est qu'il est trop court, et non que la méthode a échoué.

Gardez à l'esprit que la référence anglaise montrée ici concerne la prose ordinaire. Un texte spécialisé — une liste de noms, un extrait de code source, ou de l'écriture dans une autre langue — possède son propre profil et ne correspondra pas. L'outil ignore les espaces, les chiffres et la ponctuation et fusionne majuscules et minuscules, ce qui est exactement ce que vous voulez pour les chiffres classiques, mais cela signifie qu'il n'analyse que les lettres, pas la structure d'un encodage comme Base64 ou Morse. Pour ceux-là, identifiez d'abord l'encodage et décodez-le, puis lancez l'analyse de fréquence sur les lettres sous-jacentes.

Questions fréquentes

Qu'est-ce que l'analyse de fréquence ?

L'analyse de fréquence compte la fréquence à laquelle chaque lettre, paire et triplet apparaît dans un texte. Comme les langues emploient les lettres de façon inégale — E et T sont courants en anglais, Q et Z rares — ce profil agit comme une empreinte digitale. C'est la plus ancienne technique de cryptanalyse et le principal moyen de casser les chiffres de substitution classiques.

Comment utiliser l'analyse de fréquence pour casser un chiffre ?

Triez le graphique par fréquence et comparez-le à l'anglais : la lettre chiffrée la plus courante est probablement E, la suivante T, et le trigramme en tête est probablement THE. Notez ces hypothèses au crayon, puis étendez-les avec les listes de bigrammes et de trigrammes jusqu'à ce que le message se lise. Pour un chiffre de César, trouvez simplement le décalage qui aligne le pic sur le E.

Qu'est-ce que l'indice de coïncidence ?

L'indice de coïncidence mesure la probabilité que deux lettres prises au hasard dans le texte soient identiques. L'anglais est à environ 0.067 et un texte aléatoire à environ 0.038. Les chiffres monoalphabétiques maintiennent la valeur élevée, proche de 0.066, tandis que les chiffres polyalphabétiques comme Vigenère l'aplatissent vers 0.04, ce qui est le moyen le plus rapide de distinguer les deux familles.

Quelle est la différence entre monoalphabétique et polyalphabétique ?

Dans un chiffre monoalphabétique, chaque lettre correspond toujours à la même autre lettre, de sorte que le profil de fréquence irrégulier de l'anglais survit et qu'un indice de coïncidence élevé et un graphique inégal le trahissent. Un chiffre polyalphabétique utilise plusieurs alphabets, donc une lettre du texte clair devient de nombreuses lettres chiffrées, ce qui aplatit le graphique et abaisse l'indice de coïncidence.

Pourquoi l'outil affiche-t-il des bigrammes et des trigrammes ?

Les lettres isolées ne suffisent pas toujours. L'anglais a des paires et des triplets fortement privilégiés comme TH, HE, THE et ING. Dans un chiffre de substitution, le THE déguisé est généralement le trigramme le plus courant, vous donnant trois lettres d'un coup, et des bigrammes répétés peuvent révéler la longueur d'une clé de Vigenère par la méthode de Kasiski.

Que signifient les barres et le repère vertical ?

La barre pleine indique la fréquence à laquelle une lettre apparaît dans votre texte, en pourcentage de toutes les lettres. Le fin repère vertical sur la même ligne est la fréquence de cette lettre en anglais courant. Une barre qui dépasse son repère est surreprésentée ; une barre qui reste en deçà est plus rare que d'habitude. La comparaison montre d'un coup d'œil en quoi votre texte diffère de l'anglais ordinaire.

De combien de texte ai-je besoin pour des résultats fiables ?

L'analyse de fréquence est statistique : plus c'est long, mieux c'est. Une douzaine de lettres peut afficher des fréquences trompeuses par pur hasard, tandis qu'un paragraphe entier se rapproche du profil attendu. Si un échantillon paraît ambigu, il est généralement trop court plutôt que la méthode ne fonctionne pas. Visez au moins une phrase ou deux.

Cela fonctionne-t-il pour d'autres langues que l'anglais ?

L'outil compte les lettres de A à Z et les compare à la référence anglaise : les comptages sont donc corrects pour n'importe quel texte, mais la comparaison n'a de sens que pour la prose anglaise. Les autres langues ont leurs propres profils de fréquence, donc les barres ne s'aligneront pas avec les repères, même si les comptages bruts, les bigrammes et l'indice de coïncidence restent utiles.

Puis-je analyser du Base64, du Morse ou du binaire ?

Cet outil étudie les fréquences des lettres : il fonctionne donc au mieux sur du texte alphabétique et des chiffres. Les encodages comme Base64, Morse ou binaire représentent le texte sous forme de symboles ou de nombres plutôt que de lettres ; vous devez donc d'abord les identifier et les décoder, puis lancer l'analyse de fréquence sur les lettres sous-jacentes. L'Identificateur de chiffre peut vous dire de quel encodage il s'agit.

Mon texte est-il envoyé à un serveur ?

Non. Tout le comptage se déroule entièrement dans votre navigateur, votre texte n'est donc jamais envoyé, journalisé ni stocké. Même un lien de partage conserve votre texte dans la partie de l'URL après le dièse, que les navigateurs n'envoient jamais à un serveur, il reste donc privé jusqu'à ce que vous choisissiez de le partager.

Puis-je exporter le tableau des fréquences ?

Oui. Le bouton Export CSV télécharge le tableau complet de A à Z avec, pour chaque lettre, son comptage, son pourcentage dans votre texte et le pourcentage de référence de l'anglais, prêt à ouvrir dans un tableur ou à coller dans vos notes. Vous pouvez aussi copier un lien partageable qui rouvre l'outil avec le même texte.

Outils similaires

Continuez avec ces outils pratiques

Solveur de Substitution

Convertisseur de Timestamp Unix

Convertisseur JSON en CSV

Convertisseur CSV en JSON

Convertisseur JSON en YAML

Convertisseur Texte en Binaire