रोबोट्स.टेक्स्ट जनरेटर

वेबसाइट URL (वैकल्पिक)

नियम

यूजर-एजेंट

निर्देश

पाथ

साइटमैप URLs (प्रति लाइन एक)

क्रॉल विलंब (सेकंड)

noindex मेटा टैग रिमाइंडर जोड़ें

रोबोट्स.टेक्स्ट जनरेटर का उपयोग कैसे करें

1
क्रॉल नियम जोड़ें
Add Rule पर क्लिक करें और User-agent सेट करें, Allow या Disallow चुनें, और वह पाथ दर्ज करें जिस पर हर नियम लागू होना चाहिए।
2
वैकल्पिक डायरेक्टिव सेट करें
अपने sitemap URL (प्रति लाइन एक) और एक वैकल्पिक crawl-delay (सेकंड में) जोड़ें ताकि सर्च इंजन आपकी साइट को कैसे क्रॉल करें यह नियंत्रित हो सके।
3
फ़ाइल जनरेट करें
अपने नियमों और डायरेक्टिव से एक सही फ़ॉर्मैट वाली फ़ाइल बनाने के लिए Generate robots.txt पर क्लिक करें।

4
कॉपी करें या डाउनलोड करें
Copy to Clipboard या Download robots.txt का इस्तेमाल करें, फिर फ़ाइल को अपने डोमेन की रूट (yoursite.com/robots.txt) पर अपलोड करें।

robots.txt असल में कैसे काम करता है: एक व्यावहारिक गाइड

robots.txt क्या है और इसे कहाँ रहना चाहिए

robots.txt एक सादा टेक्स्ट फ़ाइल है जो Robots Exclusion Protocol को लागू करती है — यह एक स्वैच्छिक मानक है जो वेब क्रॉलर को बताता है कि उन्हें आपकी साइट के किन हिस्सों का अनुरोध नहीं करना चाहिए। इसे ठीक एक ही जगह से परोसा जाना चाहिए: आपके डोमेन की रूट पर, यानी yoursite.com/robots.txt पर। किसी सबडायरेक्टरी में रखी गई robots.txt, जैसे yoursite.com/blog/robots.txt, को बस नज़रअंदाज़ कर दिया जाता है। हर सबडोमेन और हर प्रोटोकॉल का अपना अलग दायरा होता है, इसलिए blog.yoursite.com को yoursite.com वाली फ़ाइल से अलग, अपनी ख़ुद की फ़ाइल चाहिए।

इसका पालन पूरी तरह भरोसे पर टिका है। Googlebot, Bingbot और बाकी मुख्यधारा के क्रॉलर robots.txt का पालन करते हैं, पर दुर्भावनापूर्ण स्क्रेपर और कई AI बॉट शायद न करें। robots.txt को कभी भी सुरक्षा का साधन न समझें। यह सुशील क्रॉलर के लिए एक शिष्टाचार-व्यवस्था है, निजी सामग्री पर लगा ताला नहीं; जो कुछ भी सचमुच संवेदनशील है उसके लिए Disallow लाइन नहीं, बल्कि ऑथेंटिकेशन चाहिए।

वे चार डायरेक्टिव जिन्हें आप असल में इस्तेमाल करते हैं

robots.txt को समूहों में व्यवस्थित किया जाता है, जिनमें से हर समूह एक या एक से अधिक User-agent लाइनों से शुरू होता है जो बताती हैं कि नियम किस क्रॉलर पर लागू होते हैं, और इसके बाद Allow तथा Disallow नियम आते हैं। User-agent: * हर उस क्रॉलर को लक्षित करता है जिसका कोई अधिक विशिष्ट समूह मौजूद नहीं है। Disallow: /admin/ किसी पाथ को ब्लॉक करता है, और एक ख़ाली Disallow (यानी Disallow: जिसके बाद कुछ न लिखा हो) का मतलब है सब कुछ की अनुमति देना। Allow का इस्तेमाल किसी बड़े ब्लॉक में से कोई अपवाद निकालने के लिए होता है, जैसे किसी अन्यथा ब्लॉक किए गए फ़ोल्डर के अंदर एक फ़ाइल की अनुमति देना।

Sitemap डायरेक्टिव ख़ास है: यह किसी भी User-agent समूह से स्वतंत्र होता है और फ़ाइल में कहीं भी आ सकता है, आम तौर पर सबसे ऊपर या सबसे नीचे। इसे आपके XML sitemap के पूरे ऐब्सॉल्यूट URL की ओर इशारा करना चाहिए, जैसे https://yoursite.com/sitemap.xml, और अगर आपके पास एक से अधिक हैं तो आप कई sitemap लाइनें सूचीबद्ध कर सकते हैं। सर्च इंजन को आपके सभी URL खोजने में मदद करने का यह सबसे सस्ता तरीका है।

बेहद अहम फ़र्क: क्रॉलिंग बनाम इंडेक्सिंग

robots.txt के बारे में सबसे ज़्यादा ग़लत समझी जाने वाली बात यही है, और इसे ग़लत समझने से असली नुक़सान होता है। robots.txt क्रॉलिंग को नियंत्रित करता है, इंडेक्सिंग को नहीं। किसी URL को Disallow करने से क्रॉलर उसकी सामग्री लाना बंद कर देते हैं, पर इससे वह URL सर्च नतीजों से नहीं हटता। अगर दूसरे पेज किसी ब्लॉक किए गए URL से लिंक करते हैं, तो Google उसे फिर भी सिर्फ़ एक लिंक के रूप में इंडेक्स कर सकता है, जो अक्सर इस बेकार से नोट के साथ दिखता है कि पेज robots.txt द्वारा ब्लॉक होने के कारण कोई विवरण उपलब्ध नहीं है।

इससे भी बुरा यह है कि किसी पेज को robots.txt में ब्लॉक करने से Google उस पेज पर लगे noindex टैग को कभी देख ही नहीं पाता, क्योंकि वह टैग पढ़ने के लिए पेज को क्रॉल ही नहीं कर सकता। इसलिए किसी पेज को सर्च से हटाने का सही तरीका वह नहीं है जो ज़्यादातर लोग मानते हैं, बल्कि उसका ठीक उल्टा है: पेज को क्रॉल करने योग्य रहने दें और उस पर एक noindex मेटा टैग या X-Robots-Tag हेडर जोड़ें। robots.txt में तभी ब्लॉक करें जब आपका मक़सद क्रॉल बजट बचाना हो, न कि किसी पेज को इंडेक्स से छिपाना।

वाइल्डकार्ड और पैटर्न मैचिंग

आधुनिक क्रॉलर दो पैटर्न कैरेक्टर को सपोर्ट करते हैं। तारांकन (*) कैरेक्टरों के किसी भी अनुक्रम से मैच करता है, और डॉलर चिह्न ($) मैच को URL के अंत से बाँध देता है। तो Disallow: /*.pdf$ हर उस URL को ब्लॉक करता है जो .pdf पर ख़त्म होता है, और Disallow: /*?sort= किसी भी ऐसे URL को ब्लॉक करता है जिसमें sort क्वेरी पैरामीटर हो — faceted-navigation से बनने वाली डुप्लिकेट को क्रॉल से बाहर रखने का यह एक आम तरीका है। पाथ को प्रिफ़िक्स के रूप में मैच किया जाता है, इसलिए Disallow: /private एक साथ /private, /private/, और /private-files सभी को ब्लॉक कर देता है।

पैटर्न शक्तिशाली होते हैं पर इन्हें ज़रूरत से ज़्यादा लगा देना आसान है। किसी भी मामूली से अधिक नियम को लागू करने से पहले उसे जाँच लें; एक भी ग़लत जगह रखा तारांकन इरादे से कहीं ज़्यादा ब्लॉक कर सकता है। Google Search Console में एक robots.txt टेस्टर शामिल है जो दिखाता है कि कोई दिया गया URL आपके नियमों के तहत अनुमत है या ब्लॉक — सबसे सरल फ़ाइल से आगे की किसी भी चीज़ के लिए इसका इस्तेमाल करना सार्थक है।

Crawl-delay और क्रॉल रेट

Crawl-delay डायरेक्टिव किसी क्रॉलर से कहता है कि वह लगातार आने वाले अनुरोधों के बीच इतने सेकंड रुके, जिससे किसी छोटे या नाज़ुक सर्वर पर लोड कम हो सकता है। पेच यह है कि इसका सपोर्ट एक-सा नहीं है: Bing और Yandex Crawl-delay का पालन करते हैं, पर Google इसे पूरी तरह नज़रअंदाज़ कर देता है। इसके बजाय Google क्रॉल रेट अपने आप तय करता है और पहले Search Console में एक मैनुअल ओवरराइड देता था। अगर आपकी चिंता ख़ास तौर पर Googlebot के आपके सर्वर पर लगातार चोट करने की है, तो Crawl-delay कुछ नहीं करेगा; इसके बदले आपको सर्वर-साइड रेट लिमिटिंग या Search Console सेटिंग्स की ज़रूरत होगी।

ज़्यादातर साइटों के लिए, आपको क्रॉल विलंब बिल्कुल भी सेट नहीं करना चाहिए। क्रॉलर को धीमा करने से यह भी धीमा हो जाता है कि नई और अपडेट की गई सामग्री कितनी जल्दी खोजी और इंडेक्स होती है। इसे सिर्फ़ तब के लिए रखें जब सर्वर की क्षमता की कोई असली समस्या हो, और मान को मामूली रखें।

आम ग़लतियाँ जो चुपचाप SEO को डुबो देती हैं

सबसे विनाशकारी ग़लती है ऐसी स्टेजिंग फ़ाइल को लाइव कर देना जिसमें User-agent: * के नीचे Disallow: / लिखा हो। वह एक लाइन आपकी पूरी साइट को हर क्रॉलर से ब्लॉक कर देती है, और ऐसा अक्सर तब होता है जब कोई साइट लाइव होती है और कोई भी डेवलपमेंट वाली robots.txt को बदलना भूल जाता है। किसी भी लॉन्च या माइग्रेशन के बाद, सबसे पहले यही जाँचें कि आपकी प्रोडक्शन robots.txt में सब कुछ ब्लॉक करने वाला कोई Disallow न हो।

दूसरी क्लासिक ग़लती है CSS और JavaScript डायरेक्टरियों को ब्लॉक कर देना। Google पेजों को एक ब्राउज़र की तरह रेंडर करता है, और अगर वह आपकी स्टाइलशीट और स्क्रिप्ट नहीं ला पाता तो उसे एक टूटा-फूटा, बिना स्टाइल वाला पेज दिख सकता है और वह उसे ख़राब मोबाइल अनुभव या पतली सामग्री वाला मान सकता है। क्रॉलर को अपनी एसेट तक पहुँचने दें। अन्य आम चूकों में शामिल है — किसी पेज को डीइंडेक्स करने के लिए robots.txt का इस्तेमाल करना (इसके बजाय noindex का इस्तेमाल करें), यह भूल जाना कि फ़ाइल अपने पाथ में केस-सेंसिटिव होती है, और फ़ाइल को डोमेन रूट के अलावा कहीं और रख देना।

ज़्यादातर वेबसाइटों के लिए एक समझदार डिफ़ॉल्ट

कई साइटों के लिए सबसे अच्छा यही रहता है कि robots.txt जानबूझकर उदार रखी जाए: User-agent: * का एक अकेला समूह जिसमें एक ख़ाली Disallow हो ताकि सब कुछ क्रॉल किया जा सके, साथ ही आपके XML sitemap की ओर इशारा करती एक Sitemap लाइन। उस खुले आधार से फिर आप सिर्फ़ उन्हीं चीज़ों के लिए सीमित दायरे के Disallow नियम जोड़ें जिन्हें सचमुच क्रॉल नहीं किया जाना चाहिए, जैसे आंतरिक सर्च नतीजों के पेज, एडमिन क्षेत्र, कार्ट और चेकआउट के URL, और पैरामीटर वाली डुप्लिकेट URL।

ज़रूरत से ज़्यादा इंजीनियरिंग करने के लालच से बचें। एक छोटी, सही robots.txt जिसे आप पूरी तरह समझते हैं, उस लंबी फ़ाइल से कहीं ज़्यादा सुरक्षित है जिसे कहीं और से कॉपी किया गया हो और जिसके नियम आप समझा न सकें। अपनी फ़ाइल जनरेट करने के बाद, उसे किसी ब्राउज़र में खोलकर पुष्टि करें कि वह रूट पर सादे टेक्स्ट के रूप में परोसी जा रही है, फिर उस पर निर्भर होने से पहले किसी टेस्टर में अहम पाथों को सत्यापित करें।

अक्सर पूछे जाने वाले प्रश्न

robots.txt फ़ाइल किसलिए होती है?

robots.txt फ़ाइल सर्च इंजन क्रॉलर को बताती है कि वे आपकी साइट के किन हिस्सों तक पहुँच सकते हैं या नहीं। यह User-agent, Allow, और Disallow डायरेक्टिव का इस्तेमाल करती है और आपके डोमेन की रूट पर रखी जाती है ताकि बॉट क्रॉल करने से पहले इसे पढ़ें।

Allow और Disallow नियम कैसे काम करते हैं?

Disallow क्रॉलर को किसी पाथ से रोकता है, जबकि Allow किसी एक को स्पष्ट रूप से अनुमति देता है, जो किसी अन्यथा ब्लॉक की गई डायरेक्टरी के अंदर एक सबफ़ोल्डर खोलने के लिए उपयोगी है। आप सभी बॉट को सभी robots के लिए User-agent से लक्षित कर सकते हैं, या Googlebot जैसे विशिष्ट क्रॉलर के लिए अलग नियम लिख सकते हैं।

crawl-delay क्या करता है?

crawl-delay सुझाव देता है कि किसी क्रॉलर को अनुरोधों के बीच कितने सेकंड रुकना चाहिए, जो सर्वर लोड घटा सकता है। ध्यान दें कि सभी सर्च इंजन इसका पालन नहीं करते; उदाहरण के लिए, Google crawl-delay को नज़रअंदाज़ करता है और Search Console में crawl-rate सेटिंग्स को तरजीह देता है।

sitemap लाइन क्यों जोड़ें?

एक Sitemap डायरेक्टिव शामिल करना क्रॉलर को आपके XML sitemap की ओर इशारा करता है ताकि वे आपके पेज अधिक कुशलता से खोज सकें। टूल आपको कई sitemap URL, प्रति लाइन एक, सूचीबद्ध करने देता है और उन्हें आपके लिए फ़ाइल में लिख देता है।

क्या robots.txt इस बात की गारंटी देता है कि कोई पेज Google से बाहर रहेगा?

नहीं। Disallow क्रॉलिंग रोकता है पर एक ब्लॉक किया URL तब भी इंडेक्स हो सकता है अगर अन्य पेज उससे लिंक करते हों। किसी पेज को सर्च नतीजों से बाहर रखने के लिए, केवल robots.txt पर निर्भर रहने के बजाय एक क्रॉल करने योग्य पेज पर noindex मेटा टैग या हेडर का इस्तेमाल करें।