सेमाल्ट: डारोडर रोबोट्स को कैसे ब्लॉक करें

Robots.txt फ़ाइल एक विशिष्ट पाठ फ़ाइल है जिसमें वेब क्रॉलर या बॉट को किसी साइट को क्रॉल करने के निर्देश हैं। उनका आवेदन खोज इंजन बॉट्स में स्पष्ट है जो कई अनुकूलित वेबसाइटों में आम हैं। रोबोट एक्सक्लूज़न प्रोटोकॉल (REP) के एक भाग के रूप में, robots.txt फ़ाइल वेबसाइट सामग्री को अनुक्रमित करने के साथ-साथ उपयोगकर्ता अनुरोधों को प्रमाणित करने के लिए सर्वर को सक्षम करने का एक आवश्यक पहलू बनाती है।
सेमल्ट सीनियर कस्टमर सक्सेस मैनेजर जूलिया वशनेवा बताती हैं कि लिंकिंग सर्च इंजन ऑप्टिमाइजेशन (एसईओ) का एक पहलू है, जिसमें आपके आला के भीतर अन्य डोमेन से ट्रैफ़िक प्राप्त करना शामिल है। लिंक जूस को ट्रांसफर करने के लिए "फॉलो" लिंक के लिए, आपकी वेबसाइट होस्टिंग स्पेस पर एक robots.txt फाइल को शामिल करना आवश्यक है, जो सर्वर को आपकी साइट के साथ इंटरैक्ट करने के प्रशिक्षक के रूप में कार्य करता हो। इस संग्रह से, कुछ विशिष्ट उपयोगकर्ता एजेंट कैसे व्यवहार करते हैं, यह अनुमति या अस्वीकार करके निर्देश मौजूद हैं।
Robots.txt फ़ाइल का मूल स्वरूप
Robots.txt फ़ाइल में दो आवश्यक लाइनें हैं:
उपयोगकर्ता-एजेंट: [उपयोगकर्ता-एजेंट का नाम]
अस्वीकृत करें: [URL स्ट्रिंग को क्रॉल नहीं किया जाना चाहिए]
एक पूरी robots.txt फ़ाइल में ये दो पंक्तियाँ होनी चाहिए। हालांकि, उनमें से कुछ में उपयोगकर्ता-एजेंट और निर्देशों की कई लाइनें हो सकती हैं। इन आदेशों में अनुमति, अस्वीकार या क्रॉल-देरी जैसे पहलू शामिल हो सकते हैं। आमतौर पर एक लाइन ब्रेक होता है जो निर्देश के प्रत्येक सेट को अलग करता है। प्रत्येक को अनुमति या अस्वीकार निर्देश इस लाइन ब्रेक द्वारा अलग किया गया है, विशेष रूप से कई पंक्तियों के साथ robots.txt के लिए।

उदाहरण
उदाहरण के लिए, एक robots.txt फ़ाइल में कोड हो सकते हैं जैसे:
उपयोगकर्ता-एजेंट: डारोडर
अस्वीकार करें: / प्लगइन
अस्वीकृत करें: / API
अस्वीकार करें: / _comments
इस मामले में, यह एक ब्लॉक रोबो.टेक्स्ट फ़ाइल है जो आपकी वेबसाइट तक पहुँचने से डारोडर वेब क्रॉलर को प्रतिबंधित करती है। उपरोक्त सिंटैक्स में, वेबसाइट प्लगइन्स, एपीआई और टिप्पणी अनुभाग जैसे पहलुओं के ब्लॉक को रोकती है। इस ज्ञान से, रोबोट की पाठ फ़ाइल को प्रभावी ढंग से निष्पादित करने से कई लाभ प्राप्त करना संभव है। Robots.txt फाइलें कई कार्य करने में सक्षम हो सकती हैं। उदाहरण के लिए, वे इसके लिए तैयार हो सकते हैं:
1. सभी वेब क्रॉलर्स सामग्री को एक वेबसाइट पेज में अनुमति दें। उदाहरण के लिए;
उपभोक्ता अभिकर्ता: *
अनुमति न दें:
इस मामले में, सभी उपयोगकर्ता सामग्री को किसी भी वेब क्रॉलर द्वारा वेबसाइट पर प्राप्त करने के लिए अनुरोध किया जा सकता है।
2. एक विशिष्ट फ़ोल्डर से एक विशिष्ट वेब सामग्री को ब्लॉक करें। उदाहरण के लिए;
उपयोगकर्ता-एजेंट: Googlebot
अस्वीकार करें: / उदाहरण-सबफ़ोल्डर /
उपयोगकर्ता-एजेंट नाम Googlebot वाला यह सिंटैक्स Google का है। यह स्ट्रिंग www.ourexample.com/example-subfolder/ में किसी भी वेब पेज तक पहुँचने से बॉट को प्रतिबंधित करता है।
3. एक विशिष्ट वेब पेज से एक विशिष्ट वेब क्रॉलर को ब्लॉक करें। उदाहरण के लिए;
उपयोगकर्ता-एजेंट: Bingbot
अस्वीकार करें: /example-subfolder/blocked-page.html
उपयोगकर्ता-एजेंट बिंग बॉट बिंग वेब क्रॉलर के अंतर्गत आता है। इस प्रकार की robots.txt फ़ाइल स्ट्रिंग www.ourexample.com/example-subfolder/blocked-page के साथ एक विशिष्ट पृष्ठ तक पहुँचने से बिंग वेब क्रॉलर को प्रतिबंधित करती है।
महत्वपूर्ण जानकारी
- प्रत्येक उपयोगकर्ता आपकी rob.txt फ़ाइल का उपयोग नहीं करता है। कुछ उपयोगकर्ता इसे अनदेखा करने का निर्णय ले सकते हैं। इस तरह के अधिकांश वेब क्रॉलर में ट्रोजन और मैलवेयर शामिल हैं।
- Robots.txt फ़ाइल दिखाई देने के लिए, यह शीर्ष-स्तरीय वेबसाइट निर्देशिका में उपलब्ध होनी चाहिए।
- अक्षर "robots.txt" केस संवेदी हैं। नतीजतन, आपको उन्हें कुछ पहलुओं के पूंजीकरण सहित किसी भी तरह से बदलना नहीं चाहिए।
- "/Robots.txt" सार्वजनिक डोमेन है। किसी भी URL की सामग्री में जोड़कर कोई भी इस जानकारी को प्राप्त करने में सक्षम हो सकता है। आपको आवश्यक विवरणों या पृष्ठों को अनुक्रमित नहीं करना चाहिए जो आप चाहते हैं कि वे निजी बने रहें।