Análisis de frecuencia
Pega cualquier texto para ver con qué frecuencia aparece cada letra, comparada lado a lado con las frecuencias del inglés escrito. Consulta el recuento de bigramas y trigramas, comprueba el índice de coincidencia para distinguir un cifrado monoalfabético de uno polialfabético y exporta la tabla. Todo funciona en tu navegador.
Prueba un ejemplo:
Pega algún texto arriba y aquí aparecerán sus frecuencias de letras, bigramas, trigramas e índice de coincidencia.
Cómo usar Análisis de frecuencia
- 1
Pega tu texto
Copia el texto o texto cifrado que quieras estudiar y pégalo en el cuadro. Las letras se cuentan sin tener en cuenta mayúsculas, y los espacios, números y signos de puntuación se ignoran.
- 2
Lee el resumen
Consulta el recuento de caracteres y de letras, cuántas letras distintas aparecen, la letra más frecuente y el índice de coincidencia, que indica si se usó uno o varios alfabetos.
- 3
Estudia el gráfico de frecuencia de letras
Compara la barra de cada letra con su marcador del inglés. Cambia a 'Por frecuencia' para clasificar las letras y ver la forma general: irregular para un cifrado de sustitución, plana para uno polialfabético.
- 4
Revisa los bigramas y trigramas
Observa los pares y triples más comunes. En un cifrado, el trigrama más frecuente suele ser un THE disfrazado, que te entrega tres letras de golpe.
- 5
Exporta o comparte
Descarga la tabla de frecuencias como CSV para tus notas o tu hoja de cálculo, o copia un enlace para compartir que reabre la herramienta con tu texto exacto. Todo permanece en tu navegador.
El análisis de frecuencia de letras, explicado
¿Qué es el análisis de frecuencia?
El análisis de frecuencia es el estudio de con qué frecuencia aparece cada letra, par de letras o triple de letras en un fragmento de texto. Como las letras de un idioma no se usan por igual —la E y la T están por todas partes en inglés, mientras que la Q y la Z son raras—, el patrón de frecuencias actúa como una huella dactilar. Contar ese patrón es la técnica más antigua y poderosa del criptoanálisis clásico, descrita por primera vez por el erudito árabe al-Kindi en el siglo IX.
Esta herramienta cuenta las letras de lo que pegues, muestra cada una como una barra junto a la frecuencia esperada del inglés, enumera los bigramas y trigramas más comunes e informa del índice de coincidencia. En conjunto, estos números te dicen si el texto es escritura corriente, un cifrado de sustitución simple o algo que usa varios alfabetos a la vez, sin que tengas que contar una sola letra a mano.
Leer el gráfico de frecuencia de letras
Cada fila es una letra del alfabeto. La barra rellena muestra con qué frecuencia aparece esa letra en tu texto como porcentaje del total de letras, y el fino marcador vertical muestra la frecuencia de esa misma letra en el inglés típico. Cuando una barra supera con creces su marcador, esa letra está sobrerrepresentada; cuando se queda corta, la letra es más rara de lo habitual. Cambia el orden para clasificar las letras de la más frecuente a la menos frecuente, lo que deja a la vista la forma de la distribución de un solo vistazo.
En el inglés normal, las barras más altas son E, T, A, O, I y N, y el gráfico tiene un aspecto irregular y desigual. Un cifrado monoalfabético mantiene esa forma irregular pero desplaza los picos a otras letras, porque cada letra simplemente se intercambia por otra. Un cifrado polialfabético aplana el gráfico hasta que todas las barras tienen aproximadamente la misma altura, porque la misma letra del texto claro se cifra de forma distinta según su posición. Reconocer esas dos formas es la habilidad más útil para descifrar cifrados clásicos.
El índice de coincidencia
El índice de coincidencia, o IoC, mide la probabilidad de que dos letras tomadas al azar del texto sean idénticas. El inglés corriente ronda 0.067 porque sus frecuencias son muy desiguales, mientras que el texto completamente aleatorio se acerca a 0.038, donde todas las letras son igual de probables. Un solo número capta lo irregular o lo plana que es la distribución.
Esto convierte al IoC en la prueba más rápida para distinguir familias de cifrados. Los cifrados César, Atbash y de sustitución por palabra clave solo reetiquetan letras, así que el perfil desigual del inglés sobrevive y el IoC se mantiene alto, cerca de 0.066. Vigenère y otros cifrados polialfabéticos mezclan varios alfabetos, aplanando las frecuencias y arrastrando el IoC hacia 0.04. La herramienta muestra el valor con una breve pista, de modo que una lectura alta te apunta a un cifrado de sustitución y una baja te apunta a un cifrado polialfabético.
Bigramas, trigramas y patrones de contacto
Las letras sueltas son solo el comienzo. El inglés también tiene pares y triples de letras muy preferidos: TH, HE, IN, ER y AN son los bigramas más comunes, y THE, AND, ING y ENT dominan los trigramas. La herramienta enumera los pares y triples más frecuentes de tu texto, contándolos solo dentro de las palabras para que un espacio nunca una dos letras no relacionadas en un par falso.
Estos patrones de contacto son valiosísimos cuando un simple recuento de letras no basta. En un cifrado de sustitución, la versión disfrazada de THE suele aparecer como el trigrama más común, dándote tres letras de golpe. Los bigramas repetidos pueden delatar la longitud de una clave Vigenère mediante el método de Kasiski. Incluso la ausencia de letras dobles, o una sospechosa serie de pares raros, es una pista sobre qué cifrado tienes delante.
Descifrar cifrados con análisis de frecuencia
Para atacar un cifrado de sustitución monoalfabética, ordena el gráfico por frecuencia y alinéalo con el inglés. La letra cifrada más común es probablemente la E, la siguiente probablemente la T, y el trigrama más frecuente es probablemente THE. Anota esas conjeturas a lápiz y luego usa las listas de bigramas y trigramas para ampliarlas: una vez que conoces la E y la T, el par TH y la palabra THE encajan rápido, y el resto del mensaje se desenreda a partir de ahí.
Para un cifrado César la misma lógica es aún más sencilla, porque todas las letras se desplazan la misma cantidad: encuentra el desplazamiento que alinea el pico del cifrado con la E del inglés y tendrás la clave. Para un cifrado Vigenère, el análisis de frecuencia sigue funcionando, pero solo después de dividir el texto en columnas según la longitud de la clave, ya que cada columna es entonces un cifrado César independiente que puedes resolver por separado. Conocer primero el índice de coincidencia te dice si este truco de las columnas es siquiera necesario.
Monoalfabético frente a polialfabético de un vistazo
Si solo recuerdas una cosa, que sea esta. Un índice de coincidencia alto y un gráfico irregular con barras claramente altas significan un cifrado monoalfabético, donde cada letra corresponde a exactamente otra letra: César, Atbash, afín o una sustitución por palabra clave. Estos ceden directamente ante el análisis de frecuencia, porque las estadísticas del texto claro se traslucen sin más.
Un índice de coincidencia bajo y un gráfico plano donde todas las barras tienen más o menos la misma altura significan un cifrado polialfabético, donde una letra del texto claro puede convertirse en muchas letras cifradas distintas: Vigenère, Beaufort, Gronsfeld o Porta. Estos ocultan las frecuencias de letras en bruto, así que primero debes recuperar la longitud de la clave y luego analizar cada posición por separado. El gráfico y el IoC te dicen en cuál de estos dos mundos estás antes de que dediques esfuerzo alguno.
Límites y buenas prácticas
El análisis de frecuencia es estadístico, así que necesita suficiente texto para ser fiable. Un mensaje corto de una docena de letras puede mostrar frecuencias muy engañosas por puro azar, mientras que un párrafo completo se asienta cerca del patrón esperado. Cuando una muestra parece ambigua, la causa habitual es que es demasiado corta, no que el método haya fallado.
Ten en cuenta que la referencia del inglés que se muestra aquí es para prosa corriente. Un texto especializado —una lista de nombres, un fragmento de código fuente o un escrito en otro idioma— tiene su propio perfil y no coincidirá. La herramienta ignora los espacios, dígitos y signos de puntuación y funde mayúsculas y minúsculas, que es justo lo que quieres para los cifrados clásicos, pero eso significa que solo analiza letras, no la estructura de una codificación como Base64 o Morse. Para esas, identifica primero la codificación y descodifícala, y luego ejecuta el análisis de frecuencia sobre las letras subyacentes.
Preguntas frecuentes
¿Qué es el análisis de frecuencia?
¿Cómo uso el análisis de frecuencia para descifrar un cifrado?
¿Qué es el índice de coincidencia?
¿Cuál es la diferencia entre monoalfabético y polialfabético?
¿Por qué la herramienta muestra bigramas y trigramas?
¿Qué significan las barras y el marcador vertical?
¿Cuánto texto necesito para obtener resultados fiables?
¿Funciona con idiomas distintos del inglés?
¿Puedo analizar Base64, Morse o binario?
¿Se sube mi texto a un servidor?
¿Puedo exportar la tabla de frecuencias?
Herramientas relacionadas
Sigue trabajando con estas prácticas herramientas