आवृत्ति विश्लेषण
कोई भी टेक्स्ट पेस्ट करें और देखें कि हर अक्षर कितनी बार आता है, लिखित अंग्रेज़ी की आवृत्तियों के साथ अगल-बगल तुलना करके। बाइग्राम और ट्राइग्राम गणना पढ़ें, मोनोअल्फाबेटिक साइफर को पॉलीअल्फाबेटिक से अलग बताने के लिए इंडेक्स ऑफ कोइनसिडेंस जांचें, और तालिका निर्यात करें। सब कुछ आपके ब्राउज़र में चलता है।
एक नमूना आज़माएं:
ऊपर कुछ टेक्स्ट पेस्ट करें और इसकी अक्षर आवृत्तियां, बाइग्राम, ट्राइग्राम और इंडेक्स ऑफ कोइनसिडेंस यहां दिखाई देंगे।
आवृत्ति विश्लेषण का उपयोग कैसे करें
- 1
अपना टेक्स्ट पेस्ट करें
जिस टेक्स्ट या साइफरटेक्स्ट का अध्ययन करना चाहते हैं उसे कॉपी करें और बॉक्स में पेस्ट करें। अक्षर केस की परवाह किए बिना गिने जाते हैं, और रिक्त स्थान, संख्याएं और विराम चिह्न अनदेखे किए जाते हैं।
- 2
सारांश पढ़ें
वर्ण और अक्षर गणना देखें, कितने विशिष्ट अक्षर आते हैं, सबसे अधिक आवृत्ति वाला अक्षर, और इंडेक्स ऑफ कोइनसिडेंस, जो संकेत देता है कि एक वर्णमाला इस्तेमाल हुई या कई।
- 3
अक्षर-आवृत्ति चार्ट का अध्ययन करें
हर अक्षर की बार की उसके अंग्रेज़ी निशान से तुलना करें। अक्षरों को रैंक करने और समग्र आकार देखने के लिए 'आवृत्ति के अनुसार' पर स्विच करें — एक प्रतिस्थापन साइफर के लिए ऊबड़-खाबड़, एक पॉलीअल्फाबेटिक के लिए समतल।
- 4
बाइग्राम और ट्राइग्राम पर नज़र डालें
सबसे सामान्य जोड़ों और त्रिकों को देखें। एक साइफर में, शीर्ष ट्राइग्राम अक्सर एक प्रच्छन्न THE होता है, जो आपको एक साथ तीन अक्षर सौंप देता है।
- 5
निर्यात करें या साझा करें
आवृत्ति तालिका को अपने नोट्स या स्प्रेडशीट के लिए CSV के रूप में डाउनलोड करें, या एक साझा करने योग्य लिंक कॉपी करें जो टूल को आपके ठीक उसी टेक्स्ट के साथ फिर से खोलता है। सब कुछ आपके ब्राउज़र में रहता है।
अक्षर आवृत्ति विश्लेषण, समझाया गया
आवृत्ति विश्लेषण क्या है?
आवृत्ति विश्लेषण इस बात का अध्ययन है कि किसी टेक्स्ट के टुकड़े में हर अक्षर, अक्षरों का जोड़ा, या अक्षरों का त्रिक कितनी बार आता है। चूंकि किसी भाषा के अक्षर समान रूप से इस्तेमाल नहीं होते — अंग्रेज़ी में E और T हर जगह होते हैं जबकि Q और Z दुर्लभ हैं — आवृत्तियों का पैटर्न एक उंगली की छाप की तरह काम करता है। इस पैटर्न को गिनना शास्त्रीय क्रिप्टविश्लेषण की सबसे पुरानी और सबसे शक्तिशाली तकनीक है, जिसे सबसे पहले नौवीं शताब्दी में अरब विद्वान अल-किंदी ने लिखा था।
यह टूल आप जो भी पेस्ट करते हैं उसके अक्षर गिनता है, हर एक को अपेक्षित अंग्रेज़ी आवृत्ति के बगल में एक बार के रूप में दिखाता है, सबसे सामान्य बाइग्राम और ट्राइग्राम सूचीबद्ध करता है, और इंडेक्स ऑफ कोइनसिडेंस बताता है। ये संख्याएं मिलकर आपको बताती हैं कि टेक्स्ट सामान्य लेखन है, एक सरल प्रतिस्थापन साइफर है, या ऐसा कुछ जो एक साथ कई वर्णमालाओं का उपयोग करता है — और इसके लिए आपको हाथ से एक भी अक्षर गिनने की ज़रूरत नहीं।
अक्षर-आवृत्ति चार्ट पढ़ना
हर पंक्ति वर्णमाला का एक अक्षर है। भरी हुई बार दिखाती है कि वह अक्षर आपके टेक्स्ट में सभी अक्षरों के प्रतिशत के रूप में कितनी बार आता है, और पतला ऊर्ध्वाधर निशान सामान्य अंग्रेज़ी में उसी अक्षर की आवृत्ति दिखाता है। जब कोई बार अपने निशान से काफी आगे पहुंच जाती है, तो वह अक्षर अधिक-प्रदर्शित है; जब वह कम पड़ जाती है, तो अक्षर सामान्य से दुर्लभ है। अक्षरों को सबसे अधिक से सबसे कम आवृत्ति तक रैंक करने के लिए छांटने का क्रम बदलें, जो वितरण के आकार को एक नज़र में स्पष्ट कर देता है।
सामान्य अंग्रेज़ी में सबसे ऊंची बार E, T, A, O, I और N की होती हैं, और चार्ट ऊबड़-खाबड़ और असमान दिखता है। एक मोनोअल्फाबेटिक साइफर उस ऊबड़-खाबड़ आकार को बनाए रखता है लेकिन शिखरों को अलग अक्षरों पर खिसका देता है, क्योंकि हर अक्षर बस किसी दूसरे से बदल दिया जाता है। एक पॉलीअल्फाबेटिक साइफर चार्ट को तब तक समतल कर देता है जब तक हर बार लगभग समान ऊंचाई की न हो जाए, क्योंकि वही प्लेनटेक्स्ट अक्षर अपनी स्थिति के आधार पर अलग-अलग तरीके से एन्क्रिप्ट होता है। उन दो आकारों को पहचानना शास्त्रीय साइफर तोड़ने का सबसे उपयोगी एकल कौशल है।
इंडेक्स ऑफ कोइनसिडेंस
इंडेक्स ऑफ कोइनसिडेंस, या IoC, इस संभावना को मापता है कि टेक्स्ट से बेतरतीब चुने गए दो अक्षर समान हों। सामान्य अंग्रेज़ी लगभग 0.067 पर बैठती है क्योंकि इसकी आवृत्तियां इतनी असमान हैं, जबकि पूरी तरह बेतरतीब टेक्स्ट 0.038 के पास पहुंचता है, जहां हर अक्षर समान रूप से संभावित होता है। एक एकल संख्या यह बता देती है कि वितरण कितना ऊबड़-खाबड़ या समतल है।
यह IoC को साइफर परिवारों को अलग बताने का सबसे तेज़ परीक्षण बनाता है। सीज़र, Atbash और कीवर्ड प्रतिस्थापन साइफर केवल अक्षरों को फिर से लेबल करते हैं, इसलिए असमान अंग्रेज़ी प्रोफ़ाइल बची रहती है और IoC उच्च रहता है, 0.066 के पास। Vigenère और अन्य पॉलीअल्फाबेटिक साइफर कई वर्णमालाओं को मिला देते हैं, जो आवृत्तियों को समतल कर देता है और IoC को 0.04 की ओर खींच लाता है। यह टूल मान को एक छोटे संकेत के साथ छापता है, इसलिए एक उच्च रीडिंग आपको एक प्रतिस्थापन साइफर की ओर इशारा करती है और एक निम्न रीडिंग आपको एक पॉलीअल्फाबेटिक साइफर की ओर इशारा करती है।
बाइग्राम, ट्राइग्राम और संपर्क पैटर्न
एकल अक्षर तो बस शुरुआत हैं। अंग्रेज़ी में दृढ़ता से पसंदीदा अक्षर जोड़े और त्रिक भी होते हैं: TH, HE, IN, ER और AN सबसे सामान्य बाइग्राम हैं, और THE, AND, ING तथा ENT ट्राइग्रामों पर हावी रहते हैं। यह टूल आपके टेक्स्ट में सबसे अधिक आवृत्ति वाले जोड़ों और त्रिकों को सूचीबद्ध करता है, उन्हें केवल शब्दों के भीतर गिनते हुए ताकि कोई रिक्त स्थान दो असंबंधित अक्षरों को कभी एक झूठे जोड़े में न जोड़ दे।
ये संपर्क पैटर्न तब अमूल्य होते हैं जब एक सरल अक्षर गणना पर्याप्त नहीं होती। एक प्रतिस्थापन साइफर में THE का प्रच्छन्न रूप अक्सर सबसे सामान्य ट्राइग्राम के रूप में सामने आता है, जो आपको एक साथ तीन अक्षर दे देता है। दोहराए गए बाइग्राम Kasiski विधि के माध्यम से Vigenère कुंजी की लंबाई को उजागर कर सकते हैं। यहां तक कि दोहरे अक्षरों का अभाव, या दुर्लभ जोड़ों की एक संदिग्ध श्रृंखला, इस बारे में एक सुराग है कि आप किस साइफर का सामना कर रहे हैं।
आवृत्ति विश्लेषण से साइफर तोड़ना
एक मोनोअल्फाबेटिक प्रतिस्थापन साइफर पर हमला करने के लिए, चार्ट को आवृत्ति के अनुसार छांटें और इसे अंग्रेज़ी के सामने रखें। सबसे सामान्य साइफर अक्षर संभवतः E है, अगला संभवतः T, और शीर्ष ट्राइग्राम संभवतः THE है। उन अनुमानों को पेंसिल से लिख लें, फिर उन्हें बढ़ाने के लिए बाइग्राम और ट्राइग्राम सूचियों का उपयोग करें — एक बार जब आप E और T जान लेते हैं, तो जोड़ा TH और शब्द THE जल्दी अपनी जगह आ जाते हैं, और बाकी संदेश वहीं से सुलझने लगता है।
एक सीज़र साइफर के लिए यही तर्क और भी सरल है, क्योंकि हर अक्षर समान मात्रा में खिसकता है: वह शिफ्ट खोजें जो साइफर के शिखर को अंग्रेज़ी के E के साथ संरेखित करे और आपके पास कुंजी है। एक Vigenère साइफर के लिए, आवृत्ति विश्लेषण फिर भी काम करता है, लेकिन तभी जब आप कुंजी की लंबाई के अनुसार टेक्स्ट को स्तंभों में बांट लें, क्योंकि तब हर स्तंभ एक अलग सीज़र साइफर होता है जिसे आप अपने आप हल कर सकते हैं। पहले इंडेक्स ऑफ कोइनसिडेंस जानना आपको बता देता है कि यह स्तंभ वाली तरकीब आवश्यक भी है या नहीं।
मोनोअल्फाबेटिक बनाम पॉलीअल्फाबेटिक एक नज़र में
यदि आप केवल एक बात याद रखें, तो यही रखें। एक उच्च इंडेक्स ऑफ कोइनसिडेंस और स्पष्ट ऊंची बारों वाला एक ऊबड़-खाबड़ चार्ट एक मोनोअल्फाबेटिक साइफर का अर्थ है, जहां हर अक्षर ठीक एक दूसरे अक्षर में मैप होता है — सीज़र, Atbash, एफाइन, या एक कीवर्ड प्रतिस्थापन। ये आवृत्ति विश्लेषण के आगे सीधे झुक जाते हैं, क्योंकि प्लेनटेक्स्ट के आंकड़े सीधे आर-पार झलकते हैं।
एक निम्न इंडेक्स ऑफ कोइनसिडेंस और एक समतल चार्ट जहां हर बार लगभग समान ऊंचाई की हो, एक पॉलीअल्फाबेटिक साइफर का अर्थ है, जहां एक प्लेनटेक्स्ट अक्षर कई अलग-अलग साइफर अक्षर बन सकता है — Vigenère, Beaufort, Gronsfeld या Porta। ये कच्ची अक्षर आवृत्तियों को छिपा देते हैं, इसलिए आपको पहले कुंजी की लंबाई पुनर्प्राप्त करनी होगी और फिर हर स्थान का अलग से विश्लेषण करना होगा। चार्ट और IoC आपको कोई प्रयास खर्च करने से पहले बता देते हैं कि आप इन दोनों दुनियाओं में से किसमें हैं।
सीमाएं और अच्छा अभ्यास
आवृत्ति विश्लेषण सांख्यिकीय है, इसलिए विश्वसनीय होने के लिए इसे पर्याप्त टेक्स्ट की आवश्यकता होती है। एक दर्जन अक्षरों का एक छोटा संदेश केवल संयोग से बेहद भ्रामक आवृत्तियां दिखा सकता है, जबकि एक पूरा पैराग्राफ अपेक्षित पैटर्न के पास स्थिर हो जाता है। जब कोई नमूना अस्पष्ट दिखे, तो सामान्य कारण यह होता है कि वह बहुत छोटा है, न कि यह कि विधि विफल हो गई।
ध्यान रखें कि यहां दिखाया गया अंग्रेज़ी आधार सामान्य गद्य के लिए है। विशिष्ट टेक्स्ट — नामों की एक सूची, सोर्स कोड का एक हिस्सा, या किसी अन्य भाषा में लेखन — का अपना प्रोफ़ाइल होता है और मेल नहीं खाएगा। यह टूल रिक्त स्थान, अंक और विराम चिह्न अनदेखे करता है और बड़े व छोटे केस को एक साथ मिला देता है, जो शास्त्रीय साइफरों के लिए ठीक वही है जो आप चाहते हैं, लेकिन इसका मतलब है कि यह केवल अक्षरों का विश्लेषण करता है, न कि Base64 या Morse जैसी एन्कोडिंग की संरचना का। उनके लिए, पहले एन्कोडिंग की पहचान करें और उसे डिकोड करें, फिर नीचे के अक्षरों पर आवृत्ति विश्लेषण चलाएं।
अक्सर पूछे जाने वाले प्रश्न
आवृत्ति विश्लेषण क्या है?
मैं किसी साइफर को तोड़ने के लिए आवृत्ति विश्लेषण का उपयोग कैसे करूं?
इंडेक्स ऑफ कोइनसिडेंस क्या है?
मोनोअल्फाबेटिक और पॉलीअल्फाबेटिक में क्या अंतर है?
यह टूल बाइग्राम और ट्राइग्राम क्यों दिखाता है?
बार और ऊर्ध्वाधर निशान का क्या मतलब है?
विश्वसनीय परिणामों के लिए मुझे कितने टेक्स्ट की आवश्यकता है?
क्या यह अंग्रेज़ी के अलावा अन्य भाषाओं के लिए काम करता है?
क्या मैं Base64, Morse या बाइनरी का विश्लेषण कर सकता हूं?
क्या मेरा टेक्स्ट किसी सर्वर पर अपलोड होता है?
क्या मैं आवृत्ति तालिका निर्यात कर सकता हूं?
संबंधित टूल्स
इन उपयोगी टूल्स के साथ आगे बढ़ें