T

Text Machine

Alat teks andal, di browser Anda

Analisis Frekuensi

Tempel teks apa pun untuk melihat seberapa sering setiap huruf muncul, dibandingkan berdampingan dengan frekuensi bahasa Inggris tertulis. Baca jumlah bigram dan trigram, periksa indeks kebetulan untuk membedakan sandi monoalfabetik dari yang polialfabetik, dan ekspor tabelnya. Semuanya berjalan di peramban Anda.

Coba contoh:

Teks untuk dianalisis

Tempel teks di atas dan frekuensi huruf, bigram, trigram, serta indeks kebetulannya akan muncul di sini.

Cara menggunakan Analisis Frekuensi

  1. 1

    Tempel teks Anda

    Salin teks atau teksandi yang ingin Anda pelajari dan tempel ke dalam kotak. Huruf dihitung tanpa membedakan huruf besar-kecil, dan spasi, angka, serta tanda baca diabaikan.

  2. 2

    Baca ringkasan

    Periksa jumlah karakter dan huruf, berapa banyak huruf berbeda yang muncul, huruf yang paling sering, dan indeks kebetulan, yang mengisyaratkan apakah satu alfabet atau beberapa yang digunakan.

  3. 3

    Pelajari diagram frekuensi huruf

    Bandingkan batang setiap huruf dengan penanda bahasa Inggrisnya. Beralih ke 'Berdasarkan frekuensi' untuk memeringkat huruf dan melihat bentuk keseluruhannya — bergerigi untuk sandi substitusi, rata untuk yang polialfabetik.

  4. 4

    Telusuri bigram dan trigram

    Lihat pasangan dan tiga huruf yang paling umum. Dalam sebuah sandi, trigram teratas sering kali adalah THE yang tersamar, yang menyerahkan tiga huruf kepada Anda sekaligus.

  5. 5

    Ekspor atau bagikan

    Unduh tabel frekuensi sebagai CSV untuk catatan atau lembar kerja Anda, atau salin tautan yang dapat dibagikan yang membuka kembali alat dengan teks persis Anda. Semuanya tetap berada di peramban Anda.

Analisis frekuensi huruf, dijelaskan

Apa itu analisis frekuensi?

Analisis frekuensi adalah studi tentang seberapa sering setiap huruf, pasangan huruf, atau tiga huruf muncul dalam sepotong teks. Karena huruf-huruf suatu bahasa tidak digunakan secara merata — E dan T ada di mana-mana dalam bahasa Inggris sementara Q dan Z jarang — pola frekuensinya bertindak seperti sidik jari. Menghitung pola itu adalah teknik tertua dan paling ampuh dalam kriptanalisis klasik, pertama kali ditulis oleh cendekiawan Arab al-Kindi pada abad kesembilan.

Alat ini menghitung huruf dalam apa pun yang Anda tempel, menampilkan masing-masing sebagai batang di samping frekuensi bahasa Inggris yang diharapkan, mendaftar bigram dan trigram yang paling umum, dan melaporkan indeks kebetulan. Bersama-sama, angka-angka ini memberi tahu Anda apakah teks itu tulisan biasa, sandi substitusi sederhana, atau sesuatu yang menggunakan beberapa alfabet sekaligus — tanpa Anda harus menghitung satu huruf pun secara manual.

Membaca diagram frekuensi huruf

Setiap baris adalah satu huruf alfabet. Batang yang terisi menunjukkan seberapa sering huruf itu muncul dalam teks Anda sebagai persentase dari seluruh huruf, dan penanda vertikal tipis menunjukkan frekuensi huruf yang sama dalam bahasa Inggris pada umumnya. Ketika sebuah batang melampaui penandanya jauh, huruf itu terlalu sering muncul; ketika kurang, huruf itu lebih jarang dari biasanya. Ubah urutannya untuk memeringkat huruf dari yang paling sering ke paling jarang, sehingga bentuk distribusinya jelas sekilas pandang.

Dalam bahasa Inggris biasa, batang tertinggi adalah E, T, A, O, I, dan N, dan diagramnya tampak bergerigi dan tidak rata. Sandi monoalfabetik mempertahankan bentuk bergerigi itu tetapi menggeser puncaknya ke huruf yang berbeda, karena setiap huruf hanya ditukar dengan huruf lain. Sandi polialfabetik meratakan diagram hingga setiap batang kira-kira setinggi yang lain, karena huruf teks asli yang sama dienkripsi berbeda tergantung posisinya. Mengenali kedua bentuk itu adalah keterampilan paling berguna dalam memecahkan sandi klasik.

Indeks kebetulan

Indeks kebetulan, atau IoC, mengukur peluang bahwa dua huruf yang diambil secara acak dari teks itu sama. Bahasa Inggris biasa berada di sekitar 0.067 karena frekuensinya begitu tidak merata, sementara teks yang sepenuhnya acak mendekati 0.038, di mana setiap huruf memiliki kemungkinan yang sama. Satu angka menangkap seberapa bergerigi atau ratanya distribusi itu.

Hal ini menjadikan IoC sebagai uji tercepat untuk membedakan keluarga sandi. Sandi Caesar, Atbash, dan substitusi kata kunci hanya menamai ulang huruf, sehingga profil bahasa Inggris yang tidak merata tetap bertahan dan IoC tetap tinggi, mendekati 0.066. Vigenère dan sandi polialfabetik lainnya memadukan beberapa alfabet, meratakan frekuensi dan menarik IoC turun ke arah 0.04. Alat ini mencetak nilainya dengan petunjuk singkat, sehingga bacaan tinggi mengarahkan Anda ke sandi substitusi dan bacaan rendah mengarahkan Anda ke sandi polialfabetik.

Bigram, trigram, dan pola kontak

Huruf tunggal hanyalah permulaan. Bahasa Inggris juga memiliki pasangan dan tiga huruf yang sangat disukai: TH, HE, IN, ER, dan AN adalah bigram yang paling umum, dan THE, AND, ING, serta ENT mendominasi trigram. Alat ini mendaftar pasangan dan tiga huruf yang paling sering dalam teks Anda, menghitungnya hanya di dalam kata sehingga spasi tidak pernah menyatukan dua huruf yang tidak berkaitan menjadi pasangan palsu.

Pola kontak ini sangat berharga ketika sekadar menghitung huruf tidak cukup. Dalam sandi substitusi, versi tersamar dari THE sering muncul sebagai trigram yang paling umum, memberi Anda tiga huruf sekaligus. Bigram berulang dapat membongkar panjang kunci Vigenère melalui metode Kasiski. Bahkan ketiadaan huruf ganda, atau rentetan pasangan langka yang mencurigakan, adalah petunjuk tentang sandi mana yang Anda hadapi.

Memecahkan sandi dengan analisis frekuensi

Untuk menyerang sandi substitusi monoalfabetik, urutkan diagram berdasarkan frekuensi dan sejajarkan dengan bahasa Inggris. Huruf sandi yang paling umum kemungkinan adalah E, yang berikutnya kemungkinan T, dan trigram teratas kemungkinan adalah THE. Tuliskan tebakan-tebakan itu, lalu gunakan daftar bigram dan trigram untuk memperluasnya — begitu Anda mengetahui E dan T, pasangan TH dan kata THE cepat masuk ke tempatnya, dan sisa pesan terurai dari situ.

Untuk sandi Caesar, logika yang sama bahkan lebih sederhana, karena setiap huruf bergeser dengan jumlah yang sama: temukan geseran yang menyejajarkan puncak sandi dengan E bahasa Inggris dan Anda mendapatkan kuncinya. Untuk sandi Vigenère, analisis frekuensi tetap berhasil, tetapi hanya setelah Anda membagi teks menjadi kolom-kolom berdasarkan panjang kunci, karena setiap kolom kemudian menjadi sandi Caesar tersendiri yang dapat Anda pecahkan satu per satu. Mengetahui indeks kebetulan lebih dulu memberi tahu Anda apakah trik kolom ini bahkan diperlukan.

Monoalfabetik versus polialfabetik secara sekilas

Jika Anda mengingat hanya satu hal, jadikan itu yang ini. Indeks kebetulan tinggi dan diagram bergerigi dengan batang tinggi yang jelas berarti sandi monoalfabetik, di mana setiap huruf dipetakan tepat ke satu huruf lain — Caesar, Atbash, afin, atau substitusi kata kunci. Sandi-sandi ini menyerah pada analisis frekuensi secara langsung, karena statistik teks asli bersinar langsung menembusnya.

Indeks kebetulan rendah dan diagram rata di mana setiap batang kira-kira setinggi yang lain berarti sandi polialfabetik, di mana satu huruf teks asli dapat menjadi banyak huruf sandi yang berbeda — Vigenère, Beaufort, Gronsfeld, atau Porta. Sandi-sandi ini menyembunyikan frekuensi huruf mentah, sehingga Anda harus terlebih dahulu memulihkan panjang kunci lalu menganalisis setiap posisi secara terpisah. Diagram dan IoC memberi tahu Anda berada di dunia mana dari kedua ini sebelum Anda mengeluarkan usaha apa pun.

Keterbatasan dan praktik yang baik

Analisis frekuensi bersifat statistik, sehingga membutuhkan teks yang cukup agar dapat dipercaya. Pesan pendek yang terdiri dari belasan huruf dapat menunjukkan frekuensi yang sangat menyesatkan semata-mata karena kebetulan, sementara satu paragraf penuh akan mendekati pola yang diharapkan. Ketika sampel tampak ambigu, penyebab yang biasa adalah teksnya terlalu pendek, bukan karena metodenya gagal.

Perlu diingat bahwa acuan bahasa Inggris yang ditampilkan di sini adalah untuk prosa biasa. Teks khusus — daftar nama, sepotong kode sumber, atau tulisan dalam bahasa lain — memiliki profilnya sendiri dan tidak akan cocok. Alat ini mengabaikan spasi, angka, dan tanda baca serta menyatukan huruf besar dan kecil, yang persis seperti yang Anda inginkan untuk sandi klasik, tetapi ini berarti alat ini hanya menganalisis huruf, bukan struktur pengodean seperti Base64 atau Morse. Untuk itu, identifikasi pengodeannya terlebih dahulu dan dekode, lalu jalankan analisis frekuensi pada huruf di baliknya.

Pertanyaan yang sering diajukan

Apa itu analisis frekuensi?
Analisis frekuensi menghitung seberapa sering setiap huruf, pasangan, dan tiga huruf muncul dalam suatu teks. Karena bahasa menggunakan huruf secara tidak merata — E dan T umum dalam bahasa Inggris, Q dan Z jarang — pola itu bertindak sebagai sidik jari. Ini adalah teknik tertua dalam kriptanalisis dan cara utama sandi substitusi klasik dipecahkan.
Bagaimana cara saya menggunakan analisis frekuensi untuk memecahkan sandi?
Urutkan diagram berdasarkan frekuensi dan cocokkan dengan bahasa Inggris: huruf sandi yang paling umum kemungkinan adalah E, yang berikutnya T, dan trigram teratas kemungkinan adalah THE. Tuliskan tebakan-tebakan itu, lalu perluas dengan daftar bigram dan trigram sampai pesannya terbaca. Untuk sandi Caesar, cukup temukan geseran yang menyejajarkan puncak dengan E.
Apa itu indeks kebetulan?
Indeks kebetulan mengukur peluang bahwa dua huruf yang dipilih secara acak dari teks itu sama. Bahasa Inggris sekitar 0.067 dan teks acak sekitar 0.038. Sandi monoalfabetik menjaga nilainya tetap tinggi, mendekati 0.066, sementara sandi polialfabetik seperti Vigenère meratakannya ke arah 0.04, yang merupakan cara tercepat untuk membedakan kedua keluarga itu.
Apa perbedaan antara monoalfabetik dan polialfabetik?
Dalam sandi monoalfabetik, setiap huruf selalu dipetakan ke huruf lain yang sama, sehingga profil frekuensi bahasa Inggris yang bergerigi tetap bertahan dan indeks kebetulan tinggi serta diagram yang tidak rata membongkarnya. Sandi polialfabetik menggunakan beberapa alfabet, sehingga satu huruf teks asli menjadi banyak huruf sandi, meratakan diagram dan menurunkan indeks kebetulan.
Mengapa alat ini menampilkan bigram dan trigram?
Huruf tunggal tidak selalu cukup. Bahasa Inggris memiliki pasangan dan tiga huruf yang sangat disukai seperti TH, HE, THE, dan ING. Dalam sandi substitusi, THE yang tersamar biasanya adalah trigram yang paling umum, memberi Anda tiga huruf sekaligus, dan bigram berulang dapat mengungkap panjang kunci Vigenère melalui metode Kasiski.
Apa arti batang dan penanda vertikal itu?
Batang yang terisi adalah seberapa sering sebuah huruf muncul dalam teks Anda, sebagai persentase dari seluruh huruf. Penanda vertikal tipis pada baris yang sama adalah frekuensi huruf itu dalam bahasa Inggris pada umumnya. Batang yang melampaui penandanya terlalu sering muncul; yang kurang lebih jarang dari biasanya. Perbandingan ini menunjukkan sekilas bagaimana teks Anda berbeda dari bahasa Inggris biasa.
Berapa banyak teks yang saya perlukan untuk hasil yang andal?
Analisis frekuensi bersifat statistik, jadi makin panjang makin baik. Belasan huruf dapat menunjukkan frekuensi yang menyesatkan murni karena kebetulan, sementara satu paragraf penuh mendekati pola yang diharapkan. Jika sebuah sampel tampak ambigu, biasanya itu terlalu pendek, bukan karena metodenya gagal. Usahakan setidaknya satu atau dua kalimat.
Apakah ia berfungsi untuk bahasa selain bahasa Inggris?
Alat ini menghitung huruf A sampai Z dan membandingkannya dengan acuan bahasa Inggris, sehingga jumlahnya benar untuk teks apa pun tetapi perbandingannya hanya masuk akal untuk prosa bahasa Inggris. Bahasa lain memiliki profil frekuensinya sendiri, sehingga batang tidak akan sejajar dengan penanda, meskipun jumlah mentah, bigram, dan indeks kebetulan tetap berguna.
Bisakah saya menganalisis Base64, Morse, atau biner?
Alat ini mempelajari frekuensi huruf, sehingga berfungsi paling baik pada teks alfabetik dan sandi. Pengodean seperti Base64, Morse, atau biner mewakili teks sebagai simbol atau angka, bukan huruf, jadi sebaiknya Anda mengidentifikasi dan mendekodenya terlebih dahulu, lalu jalankan analisis frekuensi pada huruf di baliknya. Pengidentifikasi Sandi dapat memberi tahu Anda pengodean apa yang Anda miliki.
Apakah teks saya diunggah ke server?
Tidak. Semua penghitungan terjadi sepenuhnya di peramban Anda, sehingga teks Anda tidak pernah diunggah, dicatat, atau disimpan. Bahkan tautan berbagi menyimpan teks Anda di bagian URL setelah tanda pagar, yang tidak pernah dikirim peramban ke server, jadi tetap pribadi sampai Anda memilih untuk membagikannya.
Bisakah saya mengekspor tabel frekuensi?
Ya. Tombol Ekspor CSV mengunduh tabel A sampai Z lengkap dengan jumlah setiap huruf, persentasenya dalam teks Anda, dan persentase acuan bahasa Inggris, siap dibuka di lembar kerja atau ditempel ke catatan Anda. Anda juga dapat menyalin tautan yang dapat dibagikan yang membuka kembali alat dengan teks yang sama.

Alat terkait

Lanjutkan dengan alat praktis ini

Pemecah Sandi Substitusi

Konverter Unix Timestamp

Konverter JSON ↔ CSV

Konverter CSV ke JSON

Konverter JSON ↔ YAML

Konverter Teks ke Biner