सेमाल्ट: डारोडर रोबोट्स को कैसे ब्लॉक करें

Robots.txt फ़ाइल एक विशिष्ट पाठ फ़ाइल है जिसमें वेब क्रॉलर या बॉट को किसी साइट को क्रॉल करने के निर्देश हैं। उनका आवेदन खोज इंजन बॉट्स में स्पष्ट है जो कई अनुकूलित वेबसाइटों में आम हैं। रोबोट एक्सक्लूज़न प्रोटोकॉल (REP) के एक भाग के रूप में, robots.txt फ़ाइल वेबसाइट सामग्री को अनुक्रमित करने के साथ-साथ उपयोगकर्ता अनुरोधों को प्रमाणित करने के लिए सर्वर को सक्षम करने का एक आवश्यक पहलू बनाती है।

सेमल्ट सीनियर कस्टमर सक्सेस मैनेजर जूलिया वशनेवा बताती हैं कि लिंकिंग सर्च इंजन ऑप्टिमाइजेशन (एसईओ) का एक पहलू है, जिसमें आपके आला के भीतर अन्य डोमेन से ट्रैफ़िक प्राप्त करना शामिल है। लिंक जूस को ट्रांसफर करने के लिए "फॉलो" लिंक के लिए, आपकी वेबसाइट होस्टिंग स्पेस पर एक robots.txt फाइल को शामिल करना आवश्यक है, जो सर्वर को आपकी साइट के साथ इंटरैक्ट करने के प्रशिक्षक के रूप में कार्य करता हो। इस संग्रह से, कुछ विशिष्ट उपयोगकर्ता एजेंट कैसे व्यवहार करते हैं, यह अनुमति या अस्वीकार करके निर्देश मौजूद हैं।

Robots.txt फ़ाइल का मूल स्वरूप

Robots.txt फ़ाइल में दो आवश्यक लाइनें हैं:

उपयोगकर्ता-एजेंट: [उपयोगकर्ता-एजेंट का नाम]

अस्वीकृत करें: [URL स्ट्रिंग को क्रॉल नहीं किया जाना चाहिए]

एक पूरी robots.txt फ़ाइल में ये दो पंक्तियाँ होनी चाहिए। हालांकि, उनमें से कुछ में उपयोगकर्ता-एजेंट और निर्देशों की कई लाइनें हो सकती हैं। इन आदेशों में अनुमति, अस्वीकार या क्रॉल-देरी जैसे पहलू शामिल हो सकते हैं। आमतौर पर एक लाइन ब्रेक होता है जो निर्देश के प्रत्येक सेट को अलग करता है। प्रत्येक को अनुमति या अस्वीकार निर्देश इस लाइन ब्रेक द्वारा अलग किया गया है, विशेष रूप से कई पंक्तियों के साथ robots.txt के लिए।

उदाहरण

उदाहरण के लिए, एक robots.txt फ़ाइल में कोड हो सकते हैं जैसे:

उपयोगकर्ता-एजेंट: डारोडर

अस्वीकार करें: / प्लगइन

अस्वीकृत करें: / API

अस्वीकार करें: / _comments

इस मामले में, यह एक ब्लॉक रोबो.टेक्स्ट फ़ाइल है जो आपकी वेबसाइट तक पहुँचने से डारोडर वेब क्रॉलर को प्रतिबंधित करती है। उपरोक्त सिंटैक्स में, वेबसाइट प्लगइन्स, एपीआई और टिप्पणी अनुभाग जैसे पहलुओं के ब्लॉक को रोकती है। इस ज्ञान से, रोबोट की पाठ फ़ाइल को प्रभावी ढंग से निष्पादित करने से कई लाभ प्राप्त करना संभव है। Robots.txt फाइलें कई कार्य करने में सक्षम हो सकती हैं। उदाहरण के लिए, वे इसके लिए तैयार हो सकते हैं:

1. सभी वेब क्रॉलर्स सामग्री को एक वेबसाइट पेज में अनुमति दें। उदाहरण के लिए;

उपभोक्ता अभिकर्ता: *

अनुमति न दें:

इस मामले में, सभी उपयोगकर्ता सामग्री को किसी भी वेब क्रॉलर द्वारा वेबसाइट पर प्राप्त करने के लिए अनुरोध किया जा सकता है।

2. एक विशिष्ट फ़ोल्डर से एक विशिष्ट वेब सामग्री को ब्लॉक करें। उदाहरण के लिए;

उपयोगकर्ता-एजेंट: Googlebot

अस्वीकार करें: / उदाहरण-सबफ़ोल्डर /

उपयोगकर्ता-एजेंट नाम Googlebot वाला यह सिंटैक्स Google का है। यह स्ट्रिंग www.ourexample.com/example-subfolder/ में किसी भी वेब पेज तक पहुँचने से बॉट को प्रतिबंधित करता है।

3. एक विशिष्ट वेब पेज से एक विशिष्ट वेब क्रॉलर को ब्लॉक करें। उदाहरण के लिए;

उपयोगकर्ता-एजेंट: Bingbot

अस्वीकार करें: /example-subfolder/blocked-page.html

उपयोगकर्ता-एजेंट बिंग बॉट बिंग वेब क्रॉलर के अंतर्गत आता है। इस प्रकार की robots.txt फ़ाइल स्ट्रिंग www.ourexample.com/example-subfolder/blocked-page के साथ एक विशिष्ट पृष्ठ तक पहुँचने से बिंग वेब क्रॉलर को प्रतिबंधित करती है।

महत्वपूर्ण जानकारी

  • प्रत्येक उपयोगकर्ता आपकी rob.txt फ़ाइल का उपयोग नहीं करता है। कुछ उपयोगकर्ता इसे अनदेखा करने का निर्णय ले सकते हैं। इस तरह के अधिकांश वेब क्रॉलर में ट्रोजन और मैलवेयर शामिल हैं।
  • Robots.txt फ़ाइल दिखाई देने के लिए, यह शीर्ष-स्तरीय वेबसाइट निर्देशिका में उपलब्ध होनी चाहिए।
  • अक्षर "robots.txt" केस संवेदी हैं। नतीजतन, आपको उन्हें कुछ पहलुओं के पूंजीकरण सहित किसी भी तरह से बदलना नहीं चाहिए।
  • "/Robots.txt" सार्वजनिक डोमेन है। किसी भी URL की सामग्री में जोड़कर कोई भी इस जानकारी को प्राप्त करने में सक्षम हो सकता है। आपको आवश्यक विवरणों या पृष्ठों को अनुक्रमित नहीं करना चाहिए जो आप चाहते हैं कि वे निजी बने रहें।

send email