Análisis de frecuencia

Pega cualquier texto para ver con qué frecuencia aparece cada letra, comparada lado a lado con las frecuencias del inglés escrito. Consulta el recuento de bigramas y trigramas, comprueba el índice de coincidencia para distinguir un cifrado monoalfabético de uno polialfabético y exporta la tabla. Todo funciona en tu navegador.

Prueba un ejemplo:

Texto a analizar

Pega algún texto arriba y aquí aparecerán sus frecuencias de letras, bigramas, trigramas e índice de coincidencia.

Cómo usar Análisis de frecuencia

1
Pega tu texto
Copia el texto o texto cifrado que quieras estudiar y pégalo en el cuadro. Las letras se cuentan sin tener en cuenta mayúsculas, y los espacios, números y signos de puntuación se ignoran.
2
Lee el resumen
Consulta el recuento de caracteres y de letras, cuántas letras distintas aparecen, la letra más frecuente y el índice de coincidencia, que indica si se usó uno o varios alfabetos.
3
Estudia el gráfico de frecuencia de letras
Compara la barra de cada letra con su marcador del inglés. Cambia a 'Por frecuencia' para clasificar las letras y ver la forma general: irregular para un cifrado de sustitución, plana para uno polialfabético.
4
Revisa los bigramas y trigramas
Observa los pares y triples más comunes. En un cifrado, el trigrama más frecuente suele ser un THE disfrazado, que te entrega tres letras de golpe.

5
Exporta o comparte
Descarga la tabla de frecuencias como CSV para tus notas o tu hoja de cálculo, o copia un enlace para compartir que reabre la herramienta con tu texto exacto. Todo permanece en tu navegador.

El análisis de frecuencia de letras, explicado

¿Qué es el análisis de frecuencia?

El análisis de frecuencia es el estudio de con qué frecuencia aparece cada letra, par de letras o triple de letras en un fragmento de texto. Como las letras de un idioma no se usan por igual —la E y la T están por todas partes en inglés, mientras que la Q y la Z son raras—, el patrón de frecuencias actúa como una huella dactilar. Contar ese patrón es la técnica más antigua y poderosa del criptoanálisis clásico, descrita por primera vez por el erudito árabe al-Kindi en el siglo IX.

Esta herramienta cuenta las letras de lo que pegues, muestra cada una como una barra junto a la frecuencia esperada del inglés, enumera los bigramas y trigramas más comunes e informa del índice de coincidencia. En conjunto, estos números te dicen si el texto es escritura corriente, un cifrado de sustitución simple o algo que usa varios alfabetos a la vez, sin que tengas que contar una sola letra a mano.

Leer el gráfico de frecuencia de letras

Cada fila es una letra del alfabeto. La barra rellena muestra con qué frecuencia aparece esa letra en tu texto como porcentaje del total de letras, y el fino marcador vertical muestra la frecuencia de esa misma letra en el inglés típico. Cuando una barra supera con creces su marcador, esa letra está sobrerrepresentada; cuando se queda corta, la letra es más rara de lo habitual. Cambia el orden para clasificar las letras de la más frecuente a la menos frecuente, lo que deja a la vista la forma de la distribución de un solo vistazo.

En el inglés normal, las barras más altas son E, T, A, O, I y N, y el gráfico tiene un aspecto irregular y desigual. Un cifrado monoalfabético mantiene esa forma irregular pero desplaza los picos a otras letras, porque cada letra simplemente se intercambia por otra. Un cifrado polialfabético aplana el gráfico hasta que todas las barras tienen aproximadamente la misma altura, porque la misma letra del texto claro se cifra de forma distinta según su posición. Reconocer esas dos formas es la habilidad más útil para descifrar cifrados clásicos.

El índice de coincidencia

El índice de coincidencia, o IoC, mide la probabilidad de que dos letras tomadas al azar del texto sean idénticas. El inglés corriente ronda 0.067 porque sus frecuencias son muy desiguales, mientras que el texto completamente aleatorio se acerca a 0.038, donde todas las letras son igual de probables. Un solo número capta lo irregular o lo plana que es la distribución.

Esto convierte al IoC en la prueba más rápida para distinguir familias de cifrados. Los cifrados César, Atbash y de sustitución por palabra clave solo reetiquetan letras, así que el perfil desigual del inglés sobrevive y el IoC se mantiene alto, cerca de 0.066. Vigenère y otros cifrados polialfabéticos mezclan varios alfabetos, aplanando las frecuencias y arrastrando el IoC hacia 0.04. La herramienta muestra el valor con una breve pista, de modo que una lectura alta te apunta a un cifrado de sustitución y una baja te apunta a un cifrado polialfabético.

Bigramas, trigramas y patrones de contacto

Las letras sueltas son solo el comienzo. El inglés también tiene pares y triples de letras muy preferidos: TH, HE, IN, ER y AN son los bigramas más comunes, y THE, AND, ING y ENT dominan los trigramas. La herramienta enumera los pares y triples más frecuentes de tu texto, contándolos solo dentro de las palabras para que un espacio nunca una dos letras no relacionadas en un par falso.

Estos patrones de contacto son valiosísimos cuando un simple recuento de letras no basta. En un cifrado de sustitución, la versión disfrazada de THE suele aparecer como el trigrama más común, dándote tres letras de golpe. Los bigramas repetidos pueden delatar la longitud de una clave Vigenère mediante el método de Kasiski. Incluso la ausencia de letras dobles, o una sospechosa serie de pares raros, es una pista sobre qué cifrado tienes delante.

Descifrar cifrados con análisis de frecuencia

Para atacar un cifrado de sustitución monoalfabética, ordena el gráfico por frecuencia y alinéalo con el inglés. La letra cifrada más común es probablemente la E, la siguiente probablemente la T, y el trigrama más frecuente es probablemente THE. Anota esas conjeturas a lápiz y luego usa las listas de bigramas y trigramas para ampliarlas: una vez que conoces la E y la T, el par TH y la palabra THE encajan rápido, y el resto del mensaje se desenreda a partir de ahí.

Para un cifrado César la misma lógica es aún más sencilla, porque todas las letras se desplazan la misma cantidad: encuentra el desplazamiento que alinea el pico del cifrado con la E del inglés y tendrás la clave. Para un cifrado Vigenère, el análisis de frecuencia sigue funcionando, pero solo después de dividir el texto en columnas según la longitud de la clave, ya que cada columna es entonces un cifrado César independiente que puedes resolver por separado. Conocer primero el índice de coincidencia te dice si este truco de las columnas es siquiera necesario.

Monoalfabético frente a polialfabético de un vistazo

Si solo recuerdas una cosa, que sea esta. Un índice de coincidencia alto y un gráfico irregular con barras claramente altas significan un cifrado monoalfabético, donde cada letra corresponde a exactamente otra letra: César, Atbash, afín o una sustitución por palabra clave. Estos ceden directamente ante el análisis de frecuencia, porque las estadísticas del texto claro se traslucen sin más.

Un índice de coincidencia bajo y un gráfico plano donde todas las barras tienen más o menos la misma altura significan un cifrado polialfabético, donde una letra del texto claro puede convertirse en muchas letras cifradas distintas: Vigenère, Beaufort, Gronsfeld o Porta. Estos ocultan las frecuencias de letras en bruto, así que primero debes recuperar la longitud de la clave y luego analizar cada posición por separado. El gráfico y el IoC te dicen en cuál de estos dos mundos estás antes de que dediques esfuerzo alguno.

Límites y buenas prácticas

El análisis de frecuencia es estadístico, así que necesita suficiente texto para ser fiable. Un mensaje corto de una docena de letras puede mostrar frecuencias muy engañosas por puro azar, mientras que un párrafo completo se asienta cerca del patrón esperado. Cuando una muestra parece ambigua, la causa habitual es que es demasiado corta, no que el método haya fallado.

Ten en cuenta que la referencia del inglés que se muestra aquí es para prosa corriente. Un texto especializado —una lista de nombres, un fragmento de código fuente o un escrito en otro idioma— tiene su propio perfil y no coincidirá. La herramienta ignora los espacios, dígitos y signos de puntuación y funde mayúsculas y minúsculas, que es justo lo que quieres para los cifrados clásicos, pero eso significa que solo analiza letras, no la estructura de una codificación como Base64 o Morse. Para esas, identifica primero la codificación y descodifícala, y luego ejecuta el análisis de frecuencia sobre las letras subyacentes.

Preguntas frecuentes

¿Qué es el análisis de frecuencia?

El análisis de frecuencia cuenta con qué frecuencia aparece cada letra, par y triple en un texto. Como los idiomas usan las letras de forma desigual —la E y la T son comunes en inglés, la Q y la Z raras—, ese patrón actúa como una huella dactilar. Es la técnica más antigua del criptoanálisis y la forma principal de descifrar los cifrados de sustitución clásicos.

¿Cómo uso el análisis de frecuencia para descifrar un cifrado?

Ordena el gráfico por frecuencia y compáralo con el inglés: la letra cifrada más común es probablemente la E, la siguiente la T, y el trigrama más frecuente es probablemente THE. Anota esas conjeturas a lápiz y luego amplíalas con las listas de bigramas y trigramas hasta que el mensaje se lea. Para un cifrado César, basta con encontrar el desplazamiento que alinea el pico con la E.

¿Qué es el índice de coincidencia?

El índice de coincidencia mide la probabilidad de que dos letras tomadas al azar del texto sean iguales. El inglés ronda 0.067 y el texto aleatorio unos 0.038. Los cifrados monoalfabéticos mantienen el valor alto, cerca de 0.066, mientras que los polialfabéticos como Vigenère lo aplanan hacia 0.04, lo cual es la forma más rápida de distinguir las dos familias.

¿Cuál es la diferencia entre monoalfabético y polialfabético?

En un cifrado monoalfabético cada letra corresponde siempre a la misma otra letra, así que el irregular perfil de frecuencias del inglés sobrevive y un índice de coincidencia alto y un gráfico desigual lo delatan. Un cifrado polialfabético usa varios alfabetos, de modo que una letra del texto claro se convierte en muchas letras cifradas, aplanando el gráfico y bajando el índice de coincidencia.

¿Por qué la herramienta muestra bigramas y trigramas?

Las letras sueltas no siempre bastan. El inglés tiene pares y triples muy preferidos como TH, HE, THE e ING. En un cifrado de sustitución, el THE disfrazado suele ser el trigrama más común, dándote tres letras de golpe, y los bigramas repetidos pueden revelar la longitud de una clave Vigenère mediante el método de Kasiski.

¿Qué significan las barras y el marcador vertical?

La barra rellena es con qué frecuencia aparece una letra en tu texto, como porcentaje del total de letras. El fino marcador vertical de la misma fila es la frecuencia de esa letra en el inglés típico. Una barra que rebasa su marcador está sobrerrepresentada; una que se queda corta es más rara de lo habitual. La comparación muestra de un vistazo en qué se diferencia tu texto del inglés plano.

¿Cuánto texto necesito para obtener resultados fiables?

El análisis de frecuencia es estadístico, así que cuanto más largo, mejor. Una docena de letras puede mostrar frecuencias engañosas por puro azar, mientras que un párrafo completo se asienta cerca del patrón esperado. Si una muestra parece ambigua, suele ser demasiado corta más que un fallo del método. Apunta al menos a una o dos frases.

¿Funciona con idiomas distintos del inglés?

Cuenta las letras de la A a la Z y las compara con la referencia del inglés, así que los recuentos son correctos para cualquier texto pero la comparación solo tiene sentido para la prosa en inglés. Otros idiomas tienen sus propios perfiles de frecuencia, así que las barras no se alinearán con los marcadores, aunque los recuentos en bruto, los bigramas y el índice de coincidencia siguen siendo útiles.

¿Puedo analizar Base64, Morse o binario?

Esta herramienta estudia las frecuencias de letras, así que funciona mejor con texto alfabético y cifrados. Codificaciones como Base64, Morse o binario representan el texto como símbolos o números en lugar de letras, así que conviene identificarlas y descodificarlas primero, y luego ejecutar el análisis de frecuencia sobre las letras subyacentes. El Identificador de cifrado puede decirte qué codificación tienes.

¿Se sube mi texto a un servidor?

No. Todo el recuento ocurre por completo en tu navegador, así que tu texto nunca se sube, registra ni almacena. Incluso un enlace para compartir mantiene tu texto en la parte de la URL posterior al símbolo de almohadilla, que los navegadores nunca envían a un servidor, así que permanece privado hasta que decidas compartirlo.

¿Puedo exportar la tabla de frecuencias?

Sí. El botón Exportar CSV descarga la tabla completa de la A a la Z con el recuento de cada letra, su porcentaje en tu texto y el porcentaje de referencia del inglés, listo para abrir en una hoja de cálculo o pegar en tus notas. También puedes copiar un enlace para compartir que reabre la herramienta con el mismo texto.

Herramientas relacionadas

Sigue trabajando con estas prácticas herramientas

Solucionador de Sustitución

Convertidor de Timestamp Unix

Convertidor de JSON a CSV

Conversor de CSV a JSON

Convertidor de JSON a YAML

Convertidor de Texto a Binario