T

Text Machine

शक्तिशाली टेक्स्ट टूल्स, आपके ब्राउज़र में

आवृत्ति विश्लेषण

कोई भी टेक्स्ट पेस्ट करें और देखें कि हर अक्षर कितनी बार आता है, लिखित अंग्रेज़ी की आवृत्तियों के साथ अगल-बगल तुलना करके। बाइग्राम और ट्राइग्राम गणना पढ़ें, मोनोअल्फाबेटिक साइफर को पॉलीअल्फाबेटिक से अलग बताने के लिए इंडेक्स ऑफ कोइनसिडेंस जांचें, और तालिका निर्यात करें। सब कुछ आपके ब्राउज़र में चलता है।

एक नमूना आज़माएं:

विश्लेषण के लिए टेक्स्ट

ऊपर कुछ टेक्स्ट पेस्ट करें और इसकी अक्षर आवृत्तियां, बाइग्राम, ट्राइग्राम और इंडेक्स ऑफ कोइनसिडेंस यहां दिखाई देंगे।

आवृत्ति विश्लेषण का उपयोग कैसे करें

  1. 1

    अपना टेक्स्ट पेस्ट करें

    जिस टेक्स्ट या साइफरटेक्स्ट का अध्ययन करना चाहते हैं उसे कॉपी करें और बॉक्स में पेस्ट करें। अक्षर केस की परवाह किए बिना गिने जाते हैं, और रिक्त स्थान, संख्याएं और विराम चिह्न अनदेखे किए जाते हैं।

  2. 2

    सारांश पढ़ें

    वर्ण और अक्षर गणना देखें, कितने विशिष्ट अक्षर आते हैं, सबसे अधिक आवृत्ति वाला अक्षर, और इंडेक्स ऑफ कोइनसिडेंस, जो संकेत देता है कि एक वर्णमाला इस्तेमाल हुई या कई।

  3. 3

    अक्षर-आवृत्ति चार्ट का अध्ययन करें

    हर अक्षर की बार की उसके अंग्रेज़ी निशान से तुलना करें। अक्षरों को रैंक करने और समग्र आकार देखने के लिए 'आवृत्ति के अनुसार' पर स्विच करें — एक प्रतिस्थापन साइफर के लिए ऊबड़-खाबड़, एक पॉलीअल्फाबेटिक के लिए समतल।

  4. 4

    बाइग्राम और ट्राइग्राम पर नज़र डालें

    सबसे सामान्य जोड़ों और त्रिकों को देखें। एक साइफर में, शीर्ष ट्राइग्राम अक्सर एक प्रच्छन्न THE होता है, जो आपको एक साथ तीन अक्षर सौंप देता है।

  5. 5

    निर्यात करें या साझा करें

    आवृत्ति तालिका को अपने नोट्स या स्प्रेडशीट के लिए CSV के रूप में डाउनलोड करें, या एक साझा करने योग्य लिंक कॉपी करें जो टूल को आपके ठीक उसी टेक्स्ट के साथ फिर से खोलता है। सब कुछ आपके ब्राउज़र में रहता है।

अक्षर आवृत्ति विश्लेषण, समझाया गया

आवृत्ति विश्लेषण क्या है?

आवृत्ति विश्लेषण इस बात का अध्ययन है कि किसी टेक्स्ट के टुकड़े में हर अक्षर, अक्षरों का जोड़ा, या अक्षरों का त्रिक कितनी बार आता है। चूंकि किसी भाषा के अक्षर समान रूप से इस्तेमाल नहीं होते — अंग्रेज़ी में E और T हर जगह होते हैं जबकि Q और Z दुर्लभ हैं — आवृत्तियों का पैटर्न एक उंगली की छाप की तरह काम करता है। इस पैटर्न को गिनना शास्त्रीय क्रिप्टविश्लेषण की सबसे पुरानी और सबसे शक्तिशाली तकनीक है, जिसे सबसे पहले नौवीं शताब्दी में अरब विद्वान अल-किंदी ने लिखा था।

यह टूल आप जो भी पेस्ट करते हैं उसके अक्षर गिनता है, हर एक को अपेक्षित अंग्रेज़ी आवृत्ति के बगल में एक बार के रूप में दिखाता है, सबसे सामान्य बाइग्राम और ट्राइग्राम सूचीबद्ध करता है, और इंडेक्स ऑफ कोइनसिडेंस बताता है। ये संख्याएं मिलकर आपको बताती हैं कि टेक्स्ट सामान्य लेखन है, एक सरल प्रतिस्थापन साइफर है, या ऐसा कुछ जो एक साथ कई वर्णमालाओं का उपयोग करता है — और इसके लिए आपको हाथ से एक भी अक्षर गिनने की ज़रूरत नहीं।

अक्षर-आवृत्ति चार्ट पढ़ना

हर पंक्ति वर्णमाला का एक अक्षर है। भरी हुई बार दिखाती है कि वह अक्षर आपके टेक्स्ट में सभी अक्षरों के प्रतिशत के रूप में कितनी बार आता है, और पतला ऊर्ध्वाधर निशान सामान्य अंग्रेज़ी में उसी अक्षर की आवृत्ति दिखाता है। जब कोई बार अपने निशान से काफी आगे पहुंच जाती है, तो वह अक्षर अधिक-प्रदर्शित है; जब वह कम पड़ जाती है, तो अक्षर सामान्य से दुर्लभ है। अक्षरों को सबसे अधिक से सबसे कम आवृत्ति तक रैंक करने के लिए छांटने का क्रम बदलें, जो वितरण के आकार को एक नज़र में स्पष्ट कर देता है।

सामान्य अंग्रेज़ी में सबसे ऊंची बार E, T, A, O, I और N की होती हैं, और चार्ट ऊबड़-खाबड़ और असमान दिखता है। एक मोनोअल्फाबेटिक साइफर उस ऊबड़-खाबड़ आकार को बनाए रखता है लेकिन शिखरों को अलग अक्षरों पर खिसका देता है, क्योंकि हर अक्षर बस किसी दूसरे से बदल दिया जाता है। एक पॉलीअल्फाबेटिक साइफर चार्ट को तब तक समतल कर देता है जब तक हर बार लगभग समान ऊंचाई की न हो जाए, क्योंकि वही प्लेनटेक्स्ट अक्षर अपनी स्थिति के आधार पर अलग-अलग तरीके से एन्क्रिप्ट होता है। उन दो आकारों को पहचानना शास्त्रीय साइफर तोड़ने का सबसे उपयोगी एकल कौशल है।

इंडेक्स ऑफ कोइनसिडेंस

इंडेक्स ऑफ कोइनसिडेंस, या IoC, इस संभावना को मापता है कि टेक्स्ट से बेतरतीब चुने गए दो अक्षर समान हों। सामान्य अंग्रेज़ी लगभग 0.067 पर बैठती है क्योंकि इसकी आवृत्तियां इतनी असमान हैं, जबकि पूरी तरह बेतरतीब टेक्स्ट 0.038 के पास पहुंचता है, जहां हर अक्षर समान रूप से संभावित होता है। एक एकल संख्या यह बता देती है कि वितरण कितना ऊबड़-खाबड़ या समतल है।

यह IoC को साइफर परिवारों को अलग बताने का सबसे तेज़ परीक्षण बनाता है। सीज़र, Atbash और कीवर्ड प्रतिस्थापन साइफर केवल अक्षरों को फिर से लेबल करते हैं, इसलिए असमान अंग्रेज़ी प्रोफ़ाइल बची रहती है और IoC उच्च रहता है, 0.066 के पास। Vigenère और अन्य पॉलीअल्फाबेटिक साइफर कई वर्णमालाओं को मिला देते हैं, जो आवृत्तियों को समतल कर देता है और IoC को 0.04 की ओर खींच लाता है। यह टूल मान को एक छोटे संकेत के साथ छापता है, इसलिए एक उच्च रीडिंग आपको एक प्रतिस्थापन साइफर की ओर इशारा करती है और एक निम्न रीडिंग आपको एक पॉलीअल्फाबेटिक साइफर की ओर इशारा करती है।

बाइग्राम, ट्राइग्राम और संपर्क पैटर्न

एकल अक्षर तो बस शुरुआत हैं। अंग्रेज़ी में दृढ़ता से पसंदीदा अक्षर जोड़े और त्रिक भी होते हैं: TH, HE, IN, ER और AN सबसे सामान्य बाइग्राम हैं, और THE, AND, ING तथा ENT ट्राइग्रामों पर हावी रहते हैं। यह टूल आपके टेक्स्ट में सबसे अधिक आवृत्ति वाले जोड़ों और त्रिकों को सूचीबद्ध करता है, उन्हें केवल शब्दों के भीतर गिनते हुए ताकि कोई रिक्त स्थान दो असंबंधित अक्षरों को कभी एक झूठे जोड़े में न जोड़ दे।

ये संपर्क पैटर्न तब अमूल्य होते हैं जब एक सरल अक्षर गणना पर्याप्त नहीं होती। एक प्रतिस्थापन साइफर में THE का प्रच्छन्न रूप अक्सर सबसे सामान्य ट्राइग्राम के रूप में सामने आता है, जो आपको एक साथ तीन अक्षर दे देता है। दोहराए गए बाइग्राम Kasiski विधि के माध्यम से Vigenère कुंजी की लंबाई को उजागर कर सकते हैं। यहां तक कि दोहरे अक्षरों का अभाव, या दुर्लभ जोड़ों की एक संदिग्ध श्रृंखला, इस बारे में एक सुराग है कि आप किस साइफर का सामना कर रहे हैं।

आवृत्ति विश्लेषण से साइफर तोड़ना

एक मोनोअल्फाबेटिक प्रतिस्थापन साइफर पर हमला करने के लिए, चार्ट को आवृत्ति के अनुसार छांटें और इसे अंग्रेज़ी के सामने रखें। सबसे सामान्य साइफर अक्षर संभवतः E है, अगला संभवतः T, और शीर्ष ट्राइग्राम संभवतः THE है। उन अनुमानों को पेंसिल से लिख लें, फिर उन्हें बढ़ाने के लिए बाइग्राम और ट्राइग्राम सूचियों का उपयोग करें — एक बार जब आप E और T जान लेते हैं, तो जोड़ा TH और शब्द THE जल्दी अपनी जगह आ जाते हैं, और बाकी संदेश वहीं से सुलझने लगता है।

एक सीज़र साइफर के लिए यही तर्क और भी सरल है, क्योंकि हर अक्षर समान मात्रा में खिसकता है: वह शिफ्ट खोजें जो साइफर के शिखर को अंग्रेज़ी के E के साथ संरेखित करे और आपके पास कुंजी है। एक Vigenère साइफर के लिए, आवृत्ति विश्लेषण फिर भी काम करता है, लेकिन तभी जब आप कुंजी की लंबाई के अनुसार टेक्स्ट को स्तंभों में बांट लें, क्योंकि तब हर स्तंभ एक अलग सीज़र साइफर होता है जिसे आप अपने आप हल कर सकते हैं। पहले इंडेक्स ऑफ कोइनसिडेंस जानना आपको बता देता है कि यह स्तंभ वाली तरकीब आवश्यक भी है या नहीं।

मोनोअल्फाबेटिक बनाम पॉलीअल्फाबेटिक एक नज़र में

यदि आप केवल एक बात याद रखें, तो यही रखें। एक उच्च इंडेक्स ऑफ कोइनसिडेंस और स्पष्ट ऊंची बारों वाला एक ऊबड़-खाबड़ चार्ट एक मोनोअल्फाबेटिक साइफर का अर्थ है, जहां हर अक्षर ठीक एक दूसरे अक्षर में मैप होता है — सीज़र, Atbash, एफाइन, या एक कीवर्ड प्रतिस्थापन। ये आवृत्ति विश्लेषण के आगे सीधे झुक जाते हैं, क्योंकि प्लेनटेक्स्ट के आंकड़े सीधे आर-पार झलकते हैं।

एक निम्न इंडेक्स ऑफ कोइनसिडेंस और एक समतल चार्ट जहां हर बार लगभग समान ऊंचाई की हो, एक पॉलीअल्फाबेटिक साइफर का अर्थ है, जहां एक प्लेनटेक्स्ट अक्षर कई अलग-अलग साइफर अक्षर बन सकता है — Vigenère, Beaufort, Gronsfeld या Porta। ये कच्ची अक्षर आवृत्तियों को छिपा देते हैं, इसलिए आपको पहले कुंजी की लंबाई पुनर्प्राप्त करनी होगी और फिर हर स्थान का अलग से विश्लेषण करना होगा। चार्ट और IoC आपको कोई प्रयास खर्च करने से पहले बता देते हैं कि आप इन दोनों दुनियाओं में से किसमें हैं।

सीमाएं और अच्छा अभ्यास

आवृत्ति विश्लेषण सांख्यिकीय है, इसलिए विश्वसनीय होने के लिए इसे पर्याप्त टेक्स्ट की आवश्यकता होती है। एक दर्जन अक्षरों का एक छोटा संदेश केवल संयोग से बेहद भ्रामक आवृत्तियां दिखा सकता है, जबकि एक पूरा पैराग्राफ अपेक्षित पैटर्न के पास स्थिर हो जाता है। जब कोई नमूना अस्पष्ट दिखे, तो सामान्य कारण यह होता है कि वह बहुत छोटा है, न कि यह कि विधि विफल हो गई।

ध्यान रखें कि यहां दिखाया गया अंग्रेज़ी आधार सामान्य गद्य के लिए है। विशिष्ट टेक्स्ट — नामों की एक सूची, सोर्स कोड का एक हिस्सा, या किसी अन्य भाषा में लेखन — का अपना प्रोफ़ाइल होता है और मेल नहीं खाएगा। यह टूल रिक्त स्थान, अंक और विराम चिह्न अनदेखे करता है और बड़े व छोटे केस को एक साथ मिला देता है, जो शास्त्रीय साइफरों के लिए ठीक वही है जो आप चाहते हैं, लेकिन इसका मतलब है कि यह केवल अक्षरों का विश्लेषण करता है, न कि Base64 या Morse जैसी एन्कोडिंग की संरचना का। उनके लिए, पहले एन्कोडिंग की पहचान करें और उसे डिकोड करें, फिर नीचे के अक्षरों पर आवृत्ति विश्लेषण चलाएं।

अक्सर पूछे जाने वाले प्रश्न

आवृत्ति विश्लेषण क्या है?
आवृत्ति विश्लेषण गिनता है कि किसी टेक्स्ट में हर अक्षर, जोड़ा और त्रिक कितनी बार आता है। चूंकि भाषाएं अक्षरों का असमान रूप से उपयोग करती हैं — अंग्रेज़ी में E और T सामान्य हैं, Q और Z दुर्लभ — वह पैटर्न एक उंगली की छाप की तरह काम करता है। यह क्रिप्टविश्लेषण की सबसे पुरानी तकनीक है और शास्त्रीय प्रतिस्थापन साइफरों को तोड़ने का मुख्य तरीका है।
मैं किसी साइफर को तोड़ने के लिए आवृत्ति विश्लेषण का उपयोग कैसे करूं?
चार्ट को आवृत्ति के अनुसार छांटें और इसे अंग्रेज़ी के सामने मिलाएं: सबसे सामान्य साइफर अक्षर संभवतः E है, अगला T, और शीर्ष ट्राइग्राम संभवतः THE। उन अनुमानों को पेंसिल से लिख लें, फिर बाइग्राम और ट्राइग्राम सूचियों से उन्हें तब तक बढ़ाएं जब तक संदेश पढ़ने योग्य न हो जाए। एक सीज़र साइफर के लिए, बस वह शिफ्ट खोजें जो शिखर को E के साथ संरेखित करे।
इंडेक्स ऑफ कोइनसिडेंस क्या है?
इंडेक्स ऑफ कोइनसिडेंस इस संभावना को मापता है कि टेक्स्ट से बेतरतीब चुने गए दो अक्षर समान हों। अंग्रेज़ी लगभग 0.067 है और बेतरतीब टेक्स्ट लगभग 0.038। मोनोअल्फाबेटिक साइफर मान को उच्च, 0.066 के पास रखते हैं, जबकि Vigenère जैसे पॉलीअल्फाबेटिक साइफर इसे 0.04 की ओर समतल कर देते हैं, जो दोनों परिवारों को अलग बताने का सबसे तेज़ तरीका है।
मोनोअल्फाबेटिक और पॉलीअल्फाबेटिक में क्या अंतर है?
एक मोनोअल्फाबेटिक साइफर में हर अक्षर हमेशा उसी दूसरे अक्षर में मैप होता है, इसलिए ऊबड़-खाबड़ अंग्रेज़ी आवृत्ति प्रोफ़ाइल बची रहती है और एक उच्च इंडेक्स ऑफ कोइनसिडेंस तथा असमान चार्ट इसे उजागर कर देते हैं। एक पॉलीअल्फाबेटिक साइफर कई वर्णमालाओं का उपयोग करता है, इसलिए एक प्लेनटेक्स्ट अक्षर कई साइफर अक्षर बन जाता है, जो चार्ट को समतल कर देता है और इंडेक्स ऑफ कोइनसिडेंस को कम कर देता है।
यह टूल बाइग्राम और ट्राइग्राम क्यों दिखाता है?
एकल अक्षर हमेशा पर्याप्त नहीं होते। अंग्रेज़ी में TH, HE, THE और ING जैसे दृढ़ता से पसंदीदा जोड़े और त्रिक होते हैं। एक प्रतिस्थापन साइफर में प्रच्छन्न THE आमतौर पर सबसे सामान्य ट्राइग्राम होता है, जो आपको एक साथ तीन अक्षर दे देता है, और दोहराए गए बाइग्राम Kasiski विधि के माध्यम से एक Vigenère कुंजी की लंबाई उजागर कर सकते हैं।
बार और ऊर्ध्वाधर निशान का क्या मतलब है?
भरी हुई बार यह है कि कोई अक्षर आपके टेक्स्ट में कितनी बार आता है, सभी अक्षरों के प्रतिशत के रूप में। उसी पंक्ति पर पतला ऊर्ध्वाधर निशान सामान्य अंग्रेज़ी में उस अक्षर की आवृत्ति है। एक बार जो अपने निशान से आगे निकल जाती है, वह अधिक-प्रदर्शित है; जो कम पड़ जाती है, वह सामान्य से दुर्लभ है। यह तुलना एक नज़र में दिखाती है कि आपका टेक्स्ट सादा अंग्रेज़ी से कितना अलग है।
विश्वसनीय परिणामों के लिए मुझे कितने टेक्स्ट की आवश्यकता है?
आवृत्ति विश्लेषण सांख्यिकीय है, इसलिए जितना लंबा, उतना बेहतर। एक दर्जन अक्षर शुद्ध संयोग से भ्रामक आवृत्तियां दिखा सकते हैं, जबकि एक पूरा पैराग्राफ अपेक्षित पैटर्न के पास स्थिर हो जाता है। यदि कोई नमूना अस्पष्ट दिखे, तो आमतौर पर वह बहुत छोटा होता है, न कि विधि विफल हो रही है। कम से कम एक या दो वाक्य का लक्ष्य रखें।
क्या यह अंग्रेज़ी के अलावा अन्य भाषाओं के लिए काम करता है?
यह A से Z तक के अक्षर गिनता है और उनकी अंग्रेज़ी आधार से तुलना करता है, इसलिए किसी भी टेक्स्ट के लिए गणना सही होती है पर तुलना केवल अंग्रेज़ी गद्य के लिए ही अर्थपूर्ण है। अन्य भाषाओं का अपना आवृत्ति प्रोफ़ाइल होता है, इसलिए बार निशानों के साथ संरेखित नहीं होंगी, हालांकि कच्ची गणना, बाइग्राम और इंडेक्स ऑफ कोइनसिडेंस फिर भी उपयोगी रहते हैं।
क्या मैं Base64, Morse या बाइनरी का विश्लेषण कर सकता हूं?
यह टूल अक्षर आवृत्तियों का अध्ययन करता है, इसलिए यह अक्षर-आधारित टेक्स्ट और साइफरों पर सबसे अच्छा काम करता है। Base64, Morse या बाइनरी जैसी एन्कोडिंग टेक्स्ट को अक्षरों के बजाय प्रतीकों या संख्याओं के रूप में दर्शाती हैं, इसलिए आपको पहले उन्हें पहचानकर डिकोड करना चाहिए, फिर नीचे के अक्षरों पर आवृत्ति विश्लेषण चलाना चाहिए। साइफर पहचानकर्ता आपको बता सकता है कि आपके पास कौन सी एन्कोडिंग है।
क्या मेरा टेक्स्ट किसी सर्वर पर अपलोड होता है?
नहीं। सारी गिनती पूरी तरह आपके ब्राउज़र में होती है, इसलिए आपका टेक्स्ट कभी अपलोड, लॉग, या संग्रहीत नहीं होता। यहां तक कि एक साझा लिंक भी आपके टेक्स्ट को URL के उस हिस्से में रखता है जो हैश के बाद आता है, जिसे ब्राउज़र कभी सर्वर पर नहीं भेजते, इसलिए जब तक आप साझा करना न चुनें यह निजी रहता है।
क्या मैं आवृत्ति तालिका निर्यात कर सकता हूं?
हां। CSV निर्यात बटन पूरी A-से-Z तालिका डाउनलोड करता है जिसमें हर अक्षर की गणना, आपके टेक्स्ट में उसका प्रतिशत, और अंग्रेज़ी आधार प्रतिशत होता है, जो स्प्रेडशीट में खोलने या आपके नोट्स में पेस्ट करने के लिए तैयार है। आप एक साझा करने योग्य लिंक भी कॉपी कर सकते हैं जो टूल को उसी टेक्स्ट के साथ फिर से खोलता है।

संबंधित टूल्स

इन उपयोगी टूल्स के साथ आगे बढ़ें

प्रतिस्थापन सॉल्वर

Unix टाइमस्टैम्प परिवर्तक

JSON से CSV परिवर्तक

CSV से JSON कन्वर्टर

JSON से YAML परिवर्तक

टेक्स्ट से बाइनरी कन्वर्टर