Tuesday, December 6, 2022

रोबोट डॉट टी एक्स टी क्या है | Best robots.txt

रोबोट टेक्स्ट क्या है और क्या काम करता है | रोबोट डॉट टी एक्स टी क्या है | What Is robots.txt In Hindi

रोबोट डॉट टी एक्स टी क्या है – बहुत से लोग अपनी साइट के लिए robots.txt के महत्व को नहीं समझते हैं। हो सकता है कि उन्हें इस बात की जानकारी न हो कि यह विभिन्न सर्च इंजनों में साइट के प्रदर्शन में महत्वपूर्ण भूमिका निभा सकता है। यह लेख robots.txt के महत्व के बारे में बात करता है।

आपकी साइट पर आने वाला प्रत्येक सर्च इंजन उपयोगकर्ता एजेंट सबसे पहले एक robots.txt फ़ाइल की तलाश करता है । यह फ़ाइल आपकी साइट के माध्यम से उनका मार्गदर्शन कर सकती है। इससे उन्हें यह तय करने में मदद मिलती है कि किन पृष्ठों को इंडेक्स करने की आवश्यकता है और किन पर ध्यान नहीं दिया जाना चाहिए। इसलिए, यह आपकी वेबसाइट का एक बहुत ही महत्वपूर्ण पहलू है।

robots.txt फ़ाइल एक टेक्स्ट फ़ाइल है। यह एक HTML पृष्ठ नहीं है। इसे आमतौर पर साइट के रूट फोल्डर में रखा जाता है। इसे बनाने के लिए नोटपैड जैसे टेक्स्ट एडिटर का इस्तेमाल किया जा सकता है। एक बार नोटपैड का उपयोग करके फ़ाइल बनाने के बाद, इसे robots.txt नाम दिया जा सकता है। फ़ाइल में कई पंक्तियाँ हो सकती हैं। इन पंक्तियों को रिकॉर्ड कहा जाता है और इसमें निर्देश होते हैं। प्रत्येक रिकॉर्ड में दो तत्व होते हैं, उपयोगकर्ता एजेंट और निर्देश।

विशिष्ट उपयोगकर्ता एजेंटों या उन सभी को निर्देश दिए जा सकते हैं। निर्देश पंक्ति का उपयोग उस सामग्री को इंगित करने के लिए किया जाता है जिसे अनदेखा किया जा सकता है, साइटमैप का स्थान इत्यादि। उदाहरण के लिए, यदि आप Google को अपनी साइट के स्टेजिंग फ़ोल्डर को अनदेखा करने के लिए सूचित करना चाहते हैं, तो आप कह सकते हैं।

User-agent: googlebot

Disallow: /staging/

जब आप robots.txt फ़ाइल में निर्देश जोड़ते हैं तो आपको बहुत सावधान रहना चाहिए। एक गलत निर्देश सर्च इंजन को गुमराह कर सकता है और यह आपकी साइट के सभी महत्वपूर्ण पेजों को नजरअंदाज कर सकता है। ऐसा करने से आपकी वेबसाइट का प्रदर्शन काफी हद तक प्रभावित हो सकता है।

क्या robots.txt फ़ाइल का उपयोग “अनुमति” के लिए किया जा सकता है? – डिफ़ॉल्ट धारणा यह है कि वेबसाइट के सभी पृष्ठ क्रॉल और इंडेक्स होने के लिए उपलब्ध हैं। इसलिए, साइट स्वामी को किसी विशेष पृष्ठ पर जाने की अनुमति देने की आवश्यकता नहीं हो सकती है। इसका एकमात्र अपवाद XML साइटमैप होगा। सर्च क्रॉलर को यह बताना कि साइट के किन पृष्ठों को अनदेखा करना है, यह robots.txt फ़ाइल का मुख्य कार्य है।

ऐसे कई कारण हैं जिनकी वजह से साइट के मालिक चाहते हैं कि सर्च इंजन संवेदनशील जानकारी, वर्क इन प्रोग्रेस पेज, एक्जीक्यूटेबल फाइल आदि जैसे पेजों को अनदेखा करें।

XML साइटमैप और Robots.txt – सर्च बॉट को बताना कि साइट के साइटमैप कहाँ स्थित हैं, robots.txt फ़ाइल का एक और काम है। साइट के मालिक को यह निर्देश हमेशा सभी अस्वीकृत निर्देशों के बाद रखना चाहिए। यदि अस्वीकृत निर्देश पहले दिए गए हैं, तो सर्च इंजन को पता चल जाएगा कि साइटमैप मिलने पर किन पृष्ठों को अनदेखा करना है और क्या नहीं।

यदि कोई वेबसाइट बहुत कम पृष्ठों वाली एक स्थिर साइट है, तो कोई भी सर्च इंजन को किसी भी पृष्ठ को क्रॉल करने से रोक नहीं सकता है। इसलिए, robots.txt फ़ाइल की कोई आवश्यकता नहीं हो सकती है। हालाँकि, इसका नुकसान यह है कि हो सकता है कि आप उन सर्च इंजनों का मार्गदर्शन करने में सक्षम न हों जो आपकी साइट पर साइटमैप पर जाते हैं।

robots.txt फ़ाइल में जिन चीज़ों से बचना चाहिएआपको पूरी साइट को क्रॉल करने की अनुमति न देने के लिए बहुत सावधान रहना चाहिए। आपको अस्वीकृत निर्देश का कभी भी उपयोग नहीं करना चाहिए: / क्योंकि इससे सर्च इंजन आपकी साइट को बिल्कुल भी क्रॉल नहीं करेंगे। आपको निर्देशों में टिप्पणियों से बचने का भी प्रयास करना चाहिए क्योंकि इससे कभी-कभी गलत निर्देश हो सकते हैं।

हालांकि एक छोटी वेबसाइट के लिए robots.txt फ़ाइल अनिवार्य नहीं है, अधिकांश पेशेवर वेब डिज़ाइन कंपनियों द्वारा बड़ी वेबसाइटों के लिए इसकी अनुशंसा की जाती है क्योंकि इसका उपयोग आपके साइटमैप पर सर्च इंजनों का मार्गदर्शन करने और उन्हें आपकी साइट के कुछ पृष्ठों पर जाने से रोकने के लिए किया जा सकता है। इसलिए, आपके लिए यह फ़ाइल आपकी साइट के रूट फ़ोल्डर में होना महत्वपूर्ण है

रोबोट डॉट टी एक्स टी क्या है | robots.txt kya hai hindi

रोबोट टेक्स्ट क्या है और क्या काम करता है | रोबोट डॉट टी एक्स टी क्या है | What Is robots.txt In Hindi
रोबोट टेक्स्ट क्या है और क्या काम करता है | रोबोट डॉट टी एक्स टी क्या है | What Is robots.txt In Hindi

Robots.txt फ़ाइल के महत्व को समझना | Importance of the Robots.txt File

आपने अपनी वेबसाइट के लिए प्रासंगिक सामग्री का एक पूरा ढेर बना लिया है। आपको उच्च पृष्ठ रैंकिंग वेबसाइटों से कुछ अच्छे इन-बाउंड लिंक मिले हैं और आपकी वेबसाइट उन सभी कीवर्ड और कुंजी-वाक्यांशों के लिए पूरी तरह से अनुकूलित है जिन पर आपके ग्राहक खोज रहे हैं – बढ़िया। लेकिन आपकी robots.txt फ़ाइल कैसा चल रही है? यह छोटी सी फाइल इस बात पर फर्क कर सकती है कि आपकी साइट को वह पेज रैंकिंग मिलेगी या नहीं जिसके वह हकदार है।

robots.txt फ़ाइल क्या है? – जब सर्च इंजन क्रॉलर (रोबोट) किसी वेबसाइट को देखते हैं, तो वे जो पहली फाइल देखेंगे वह आपका index.html या index.php पेज नहीं है। यह आपकी robots.txt फ़ाइल है। आपकी वेबसाइट के मूल “/” में बैठने वाली इस छोटी फ़ाइल में इस बारे में निर्देश हैं कि रोबोट वेबसाइट के भीतर कौन सी फाइलें देख सकता है और क्या नहीं।

यहां एक सामान्य robots.txt फ़ाइल उदाहरण दिया गया है (पंक्ति संख्याएं केवल दृष्टांत उद्देश्यों के लिए हैं):

1: उपयोगकर्ता-एजेंट: *

2: अस्वीकृत करें: /cgi-bin/

3: साइटमैप: /sitemap.xml.gz

ठीक है, तो उपरोक्त उदाहरण का क्या अर्थ है? आइए इसके माध्यम से लाइन दर लाइन चलते हैं।

1: “उपयोगकर्ता-एजेंट: *” का अर्थ है कि यह अनुभाग सभी रोबोटों पर लागू होता है।

2: “अस्वीकार करें: /cgi-bin/” का अर्थ है कि आप नहीं चाहते कि कोई भी रोबोट “/cgi-bin/” निर्देशिका या उसके किसी उप फ़ोल्डर में किसी भी फ़ाइल को इंडेक्स करे।

3: “साइटमैप: /sitemap.xml.gz” रोबोट को बताता है कि आपने mydomain.com के लिए वेबसाइट की संरचना को पहले ही इंडेक्स कर दिया है।

इसलिए, जैसा कि आप ऊपर दिए गए उदाहरण से देख सकते हैं, robots.txt फ़ाइल में रोबोट के लिए निर्देश हैं कि आपकी वेबसाइट को कैसे इंडेक्स किया जाए।

क्या मुझे robots.txt फ़ाइल चाहिए? – नहीं। आपको robots.txt फ़ाइल की आवश्यकता नहीं है और यदि आपके पास एक नहीं है तो अधिकांश खोज इंजन रोबोट क्रॉलर आपकी पूरी वेबसाइट को केवल इंडेक्स करेंगे। वास्तव में, किसी क्रॉलर के लिए आपकी robots.txt फ़ाइल को पढ़ने की कोई आवश्यकता नहीं है और वास्तव में कुछ मैलवेयर रोबोट जो सुरक्षा कमजोरियों के लिए वेबसाइटों को स्कैन करते हैं, या स्पैमर द्वारा उपयोग किए गए ईमेल पते फ़ाइल या उसमें क्या शामिल है, पर कोई ध्यान नहीं देंगे।

तो सारा हंगामा किस बात का है? – यहां संबोधित करने के लिए दो मुद्दे हैं; क्या आप जानते हैं कि क्या आपके पास robots.txt फ़ाइल है और इसमें क्या है? और क्या आपकी वेबसाइट पर ऐसा कुछ है जो आप नहीं चाहते कि कोई रोबोट देखे?

आइए उन दोनों को बारी-बारी से देखें।

क्या आपके पास robots.txt फ़ाइल है और इसके अंदर क्या है? – यह पता लगाने का सबसे आसान तरीका है कि आपकी वेबसाइट में robots.txt फ़ाइल है या नहीं, अंत में संलग्न “/robots.txt” के साथ अपनी वेबसाइट का पता टाइप करना है जैसे: www./robots.txt आपका नाम कहां है कार्यक्षेत्र।

यदि आपको “त्रुटि 404 नहीं मिली” पृष्ठ प्राप्त होता है तो कोई फ़ाइल नहीं है। यह अभी भी इस खंड के बाकी हिस्सों को पढ़ने लायक है, हालांकि हम देखेंगे कि एक विकृत फ़ाइल कितना नुकसान कर सकती है!

ठीक है – यदि आपको कोई त्रुटि पृष्ठ प्रदर्शित नहीं हुआ है, तो इस बात की बहुत अच्छी संभावना है कि आप अभी अपनी वेबसाइट robot.txt फ़ाइल देख रहे हैं और यह कुछ अनुभाग पहले के उदाहरण के समान है।

आइए बस थोड़ा आगे बढ़ते हैं और देखते हैं कि इससे पहले कि हम इससे उत्पन्न होने वाली समस्याओं से निपटें, फ़ाइल आपकी वेबसाइट के संवेदनशील हिस्सों की सुरक्षा में कितनी उपयोगी हो सकती है।

छिपाने के लिए कुछ मिला? – यदि आपकी वेबसाइट फ़ोरम, ब्लॉग, डेटाबेस का उपयोग करने वाले ग्राहकों के साथ इंटरैक्ट करती है या यदि आपके पास न्यूज़लेटर आदि के ग्राहक हैं तो वह सभी संवेदनशील और निजी डेटा आपकी वेबसाइट पर कहीं फ़ाइल में संग्रहीत किया जा रहा है, चाहे वह डेटाबेस हो या कॉन्फ़िगरेशन फ़ाइल कोई फर्क नहीं पड़ता .

सर्च इंजन क्रॉलर काफी हद तक साधारण कीड़ों की तरह होते हैं। उनके पास जीवन में एक उद्देश्य है कि वे वेबसाइट सामग्री और अनुक्रमणिका को इंडेक्स करें – सब कुछ, जब तक कि अन्यथा निर्देश न दिया जाए। निजी और संवेदनशील डेटा को संग्रहीत करते समय हमेशा एन्क्रिप्ट किया जाना चाहिए लेकिन वास्तव में, छोटी व्यावसायिक वेबसाइटों के लिए, यह काफी हद तक नहीं है। ऐसा इसलिए हो सकता है क्योंकि आपकी वेबसाइट द्वारा उपयोग किए जाने वाले विशेष सॉफ़्टवेयर घटकों में एन्क्रिप्शन क्षमताएं नहीं हैं या क्योंकि यह गति बनाम सुरक्षा समस्या थी।

भले ही, एक रोबोट क्रॉलर आपकी वेबसाइट की सभी फाइलों में सभी सादा पाठ सामग्री को इंडेक्स करेगा। इसकी कोई नैतिकता नहीं है। तो चलिए इसे कुछ देते हैं। बस कहें, उदाहरण के लिए, आपके पास “/newsletter” फ़ोल्डर है जिसमें सभी नियमित न्यूज़लेटर ईमेल हैं जो आप उन सभी वेबसाइट ग्राहकों को भेजते हैं जिनके ईमेल पते और सदस्यता पासवर्ड “/newsletters/admin/subcribers.txt” फ़ाइल में संग्रहीत हैं।

बहुत सारी अच्छी प्रासंगिक सामग्री प्राप्त करने के लिए, आप चाहते हैं कि रोबोट क्रॉलर आपके सभी ईमेल न्यूज़लेटर्स को इंडेक्स करें, लेकिन निश्चित रूप से, आप नहीं चाहते कि यह आपके ग्राहकों के ईमेल पते या पासवर्ड पर आए। अपने ईमेल पते और पासवर्ड के साथ Google पर खोज करने वाले अपने एक सब्सक्राइबर की छवि बनाएं और आपकी वेबसाइट http://www.mydomain.com #1 पर उनके ईमेल पते और पासवर्ड के साथ आती है! ओह – यह अच्छा पीआर नहीं है।

शुक्र है कि आप अपनी वेबसाइट के उन हिस्सों को बाहर करने के लिए robots.txt फ़ाइल का उपयोग कर सकते हैं जिन्हें इंडेक्स नहीं किया जाना चाहिए। ऊपर दिए गए हमारे उदाहरण में, आप “अस्वीकार करें: /newsletters/admin/” जैसी एक पंक्ति बनाएंगे। इसका मतलब है कि “/newsletters/admin/” फ़ोल्डर में कुछ भी मानकों का पालन करने वाले रोबोट क्रॉलर द्वारा इंडेक्स नहीं किया जाना चाहिए।

robots.txt फ़ाइल के खतरे

जैसा कि हमने ऊपर के उदाहरणों से देखा है, robots.txt फ़ाइल मानती है कि आपकी वेबसाइट पर सब कुछ इंडेक्स के लिए खेल है जब तक कि robots.txt फ़ाइल में अन्यथा निर्दिष्ट न हो।

लोगों द्वारा की जाने वाली सबसे बड़ी गलतियों में से एक वेबसाइट के रूट “/” को अस्वीकार करना है। यह पूरी वेबसाइट के लिए शुरुआती फोल्डर है। यदि आप इस फ़ोल्डर को अस्वीकार करते हैं तो आप सभी रोबोटों को प्रभावी ढंग से अपनी वेबसाइट के किसी भी हिस्से को इंडेक्स न करने के लिए कह रहे हैं और यह आपके मार्केटिंग अभियानों के लिए विनाशकारी होगा। यह सुनिश्चित करने के लिए अपनी फ़ाइल जांचें कि सामने वाले दरवाजे पर रोबोटों को दूर नहीं किया जा रहा है।

फ़ोल्डर नामों पर पूरा ध्यान देते हुए अपनी वेबसाइट संरचना पर एक नज़र डालें। कभी-कभी आप उन फ़ोल्डरों को इंगित कर सकते हैं जिनमें संभावित रूप से संवेदनशील और निजी डेटा हो सकता है। ये वे हैं जिन्हें आपको रोबोट क्रॉलर को अनुक्रमणित करने से रोकना चाहिए।

अन्य प्रकार के फ़ोल्डर जिन्हें आप नहीं चाहते कि कोई खोज इंजन रोबोट क्रॉलर इधर-उधर घूमे, वे निष्पादन योग्य हैं। उदाहरण के लिए, आपका /cgi-bin/ या समकक्ष। इस फ़ोल्डर में ऐसे वेब प्रोग्राम हो सकते हैं जो आमतौर पर आपकी वेबसाइट के उपयोगकर्ताओं द्वारा वेब में जानकारी दर्ज करने के बाद चलाए जाते हैं, लेकिन अगर वे रोबोट क्रॉलर द्वारा देखे जाते हैं (कभी-कभी चलाने के समान), तो अवांछित परिणाम उत्पन्न कर सकते हैं .

इसका एक उदाहरण वह प्रोग्राम होगा जिसका उपयोग आपकी वेबसाइट ईमेल न्यूज़लेटर जारी करने के लिए करती है। यदि प्रोग्राम को सही तरीके से विकसित और परीक्षण किया गया है, तो इसे बिना किसी फॉर्म इनपुट के अनपेक्षित रूप से चलाना कोई समस्या नहीं होनी चाहिए, लेकिन क्या होगा यदि प्रोग्राम को जल्दबाजी में विकसित किया गया था और 100% सही ढंग से परीक्षण नहीं किया गया था।

इस तरह के प्रोग्राम को सक्रिय करने वाला एक रोबोट क्रॉलर इसे हर तरह के अजीब तरीके से व्यवहार करने का कारण बन सकता है। आखिरी चीज जो आपको चाहिए वह है आपके 20,000 न्यूज़लेटर सब्सक्राइबर जो हर दिन या सप्ताह में 200 अवांछित डुप्लिकेट न्यूज़लेटर प्राप्त कर रहे हैं।

साथ ही, अपनी वेबसाइट के उन क्षेत्रों को हाइलाइट करना, जिनमें आप नहीं चाहते कि रोबोट देखें, रुचि का झंडा उठाता है जिसका संभावित मैलवेयर रोबोट क्रॉलर फायदा उठा सकते हैं। संवेदनशील डेटा की तलाश करने के लिए उन जगहों की तुलना में बेहतर कहां है जहां आप नहीं होना चाहते हैं? यह एक जोखिम है जो आपको लेना पड़ सकता है।

robots.txt फ़ाइल का सर्वश्रेष्ठ प्रणालियां

खतरों के अलावा, सामग्री के इंडेक्स को नियंत्रित करने में सहायता के लिए लगभग सभी वेबसाइटों में एक robots.txt फ़ाइल होगी। robots.txt फ़ाइल का अधिक से अधिक उपयोग करने के लिए, इन सरल नियमों का पालन करने का प्रयास करें।

1. यदि आपकी वेबसाइट स्थिर है और कोई ग्राहक जानकारी नहीं है – तो एक का उपयोग न करें।

2. जांचें कि आप रूट फ़ोल्डर “/” की अनुमति नहीं दे रहे हैं।

3. सुनिश्चित करें कि आप ऐसे किसी भी फ़ोल्डर को अनुमति नहीं देते हैं जिसमें निजी और संवेदनशील डेटा हो सकता है।

4. निष्पादन योग्य वेब प्रोग्राम वाले किसी भी फ़ोल्डर को अस्वीकार करें।

5. यदि आपकी वेबसाइट का साइटमैप पहले ही जेनरेट हो चुका है, तो इसे अनुक्रमणित करने में सहायता के लिए फ़ाइल में जोड़ें।

6. फ़ाइल में टिप्पणियों का प्रयोग न करें।

Robots.txt फ़ाइल का उपयोग करने का महत्व | Importance Of Robots.txt File

यदि आपके पास आगंतुकों और खोज इंजनों को आकर्षित करने के लिए कीवर्ड समृद्ध सामग्री के साथ एक अच्छी तरह से डिज़ाइन और अच्छी तरह से अनुकूलित वेबसाइट है जो वास्तव में बहुत अच्छी है लेकिन आप कुछ ऐसा खो रहे हैं जो बहुत महत्वपूर्ण है। क्या आप जानते है की यह क्या है? वह है robots.txt फ़ाइल।

Robots.txt फ़ाइल का बहुत महत्व है क्योंकि यह स्पाइडर या क्रॉलर को किसी वेबसाइट या किसी विशेष वेबपेज के सभी पेजों को क्रॉल करने की अनुमति या अनुमति देता है। कभी-कभी लोगों के पास उनकी वेबसाइट पर कुछ गोपनीय डेटा होता है और robots.txt फ़ाइल का उपयोग करके वे क्रॉलर या स्पाइडर को उस विशेष पृष्ठ को क्रॉल या अनुक्रमित नहीं करने के लिए प्रतिबंधित कर सकते हैं ताकि कोई भी उस पृष्ठ पर न पहुंच सके और इस तरह उस पृष्ठ पर गोपनीय डेटा सुरक्षित रहेगा। .

किसी वेबसाइट या वेबपेज को क्रॉल करने के लिए जाते समय सर्च इंजन स्पाइडर या क्रॉलर अक्सर एक विशेष फाइल की तलाश करते हैं जिसे रोबोट्स.टीएक्सटी फाइल कहा जाता है क्योंकि robots.txt फाइल के जरिए सर्च इंजन स्पाइडर या क्रॉलर को पता चल जाता है कि उस वेबसाइट के किन वेब पेजों को करना है। क्रॉल या इंडेक्स और किन वेब पेजों को अनदेखा करना है।

Robots.txt फ़ाइल एक साधारण टेक्स्ट फ़ाइल है जिसे किसी वेबसाइट की रूट निर्देशिका में रखा जाना चाहिए।

उदाहरण के लिए:

Robots.txt फ़ाइल इस प्रकार होनी चाहिए-

http://www.abcd.com/robots.txt

robots.txt फ़ाइल बनाना:

जैसा कि ऊपर बताया गया है, robots.txt फ़ाइल एक साधारण टेक्स्ट फ़ाइल है और आप इसे नोटपैड जैसे साधारण टेक्स्ट एडिटर को खोलकर बना सकते हैं। robots.txt फ़ाइल में उल्लिखित डेटा या कमांड को “रिकॉर्ड्स” कहा जाता है।

एक रिकॉर्ड में एक विशेष खोज इंजन की जानकारी शामिल होती है और प्रत्येक रिकॉर्ड में दो फ़ील्ड होते हैं- उपयोगकर्ता एजेंट जहां आप रोबोट या स्पाइडर नाम का उल्लेख करते हैं और अन्य फ़ील्ड अस्वीकृत लाइनें हैं जो एक या अधिक हो सकती हैं जहां आपको यह उल्लेख करना होगा कि कौन से पृष्ठ या फाइलें हैं नजरअंदाज किया जाना। उदाहरण के लिए:

User-agent: googlebot

Disallow: /cgi-bin/

उपरोक्त उदाहरण में robots.txt फ़ाइल “googlebot” को अनुमति देती है जो कि प्रमुख खोज इंजन Google का खोज इंजन स्पाइडर है जो “cgi-bin” निर्देशिका से फ़ाइलों को छोड़कर वेबसाइट के प्रत्येक पृष्ठ को क्रॉल करता है। इसका मतलब है कि googlebot को “cgi-bin” निर्देशिका से सभी फाइलों को अनदेखा करना होगा।

और यदि आप नीचे की तरह दर्ज करते हैं:

User-agent: googlebot

Disallow: /support

Googlebot सहायता निर्देशिका से किसी फ़ाइल को क्रॉल नहीं करेगा क्योंकि robots.txt फ़ाइल में googlebot को निर्देश हैं कि वह सहायता निर्देशिका से किसी फ़ाइल को क्रॉल न करे.

यदि आप अस्वीकृत फ़ील्ड को खाली छोड़ देते हैं तो यह googlebot को वेबसाइट की सभी फ़ाइलों को क्रॉल करने का संकेत देगा। लेकिन किसी भी मामले में आपके पास प्रत्येक उपयोगकर्ता एजेंट के लिए एक अस्वीकृत फ़ील्ड होना चाहिए।

उपरोक्त सभी उदाहरण केवल googlebot के लिए थे लेकिन यदि आप अन्य सभी सर्च इंजन के स्पाइडर को समान अधिकार देना चाहते हैं तो उपयोगकर्ता एजेंट फ़ील्ड में googlebot के बजाय तारांकन (*) का उपयोग करें। उदाहरण के लिए:

User-agent: *

Disallow: /cgi-bin/

ऊपर के उदाहरण में * सभी सर्च इंजन स्पाइडर का प्रतिनिधित्व करता है और ऊपर robots.txt फाइल सभी सर्च इंजन स्पाइडर को “cgi-bin” डायरेक्टरी की फाइलों को छोड़कर वेबसाइट के प्रत्येक पेज को क्रॉल करने की अनुमति देती है। इसका मतलब है कि विभिन्न खोज इंजनों के सभी स्पाइडर्स  को “सीजीआई-बिन” निर्देशिका से सभी फाइलों को अनदेखा करना होगा।

यदि आप अन्य खोज इंजनों के लिए उपयोगकर्ता एजेंट के नाम जानना चाहते हैं तो आप robots.txt के अनुरोधों की जांच करके इसे अपनी लॉग फ़ाइलों में पा सकते हैं। सबसे अधिक बार, सभी खोज इंजन स्पाइडर्स  को समान अधिकार दिए जाने चाहिए। उस स्थिति में, उपयोगकर्ता-एजेंट का उपयोग करें: * जैसा कि ऊपर बताया गया है।

वेबसाइट SEO के लिए एक रोबोट टेक्स्ट फ़ाइल क्या कर सकती है?

सबसे पहले robots.txt फ़ाइल की उपयोगिता को बेहतर ढंग से समझने के लिए कुछ परिभाषाओं को सूचीबद्ध करें:

रोबोट Robots रोबोट ऐसे सॉफ़्टवेयर एजेंट हैं जो आपकी वेबसाइट पर आते हैं और एक्सेस जानकारी के लिए आपकी robots.txt फ़ाइल को पढ़ते हैं और फिर आपकी बाकी वेबसाइट को पढ़ना जारी रखते हैं।

robots.txt फ़ाइल –  यह फ़ाइल एक फ़ाइल है जिसमें रोबोट को आपकी वेबसाइट की विशिष्ट या सभी निर्देशिकाओं तक पहुँचने की अनुमति देने या अस्वीकार करने के आदेश हैं।

क्रॉलिंग Crawling खोज इंजन रोबोट द्वारा आपकी वेबसाइट निर्देशिकाओं और पृष्ठों को पढ़ने की प्रक्रिया है। जब आप एक नई वेबसाइट बनाते हैं, तो आमतौर पर आपके पास robots.txt फ़ाइल होनी चाहिए ताकि यह निर्देश दिया जा सके कि रोबोट या स्पाइडर आपकी वेबसाइट को कैसे क्रॉल करेंगे। अगर आपके पास robots.txt फाइल नहीं है तो सर्च इंजन आपकी वेबसाइट के सभी पेजों और निर्देशिकाओं को क्रॉल करेगा।

कल्पना कीजिए कि आपकी वेबसाइट एक सेब की टोकरी है और आपकी वेबसाइट के प्रत्येक घटक (पेज, पोस्ट, मीडिया…) सेब हैं। यदि आपके पास बहुत अच्छी गुणवत्ता वाले सेब हैं और अन्य अपेक्षाकृत कम गुणवत्ता वाले हैं, तो इस टोकरी को देखने वाला कोई भी व्यक्ति निम्न गुणवत्ता वाले सेबों को भी देखेगा और संभवत: टोकरी नहीं खरीदेगा।

सेब की टोकरी की तरह आपकी वेबसाइट में अच्छी गुणवत्ता वाले पृष्ठ और खराब गुणवत्ता वाले पृष्ठ हैं। खराब गुणवत्ता वाले पृष्ठों में शामिल हैं, लॉगिन पृष्ठ, टैग पृष्ठ, श्रेणी पृष्ठ, और संभवतः आपकी वेबसाइट पर अपलोड किए गए यादृच्छिक फ़ोल्डर और फ़ाइलें जिन्हें आप नहीं चाहते कि खोज इंजन क्रॉल करें या देखें।

यदि खोज इंजन उन निम्न गुणवत्ता वाले पृष्ठों जैसे लॉगिन पृष्ठ या डुप्लिकेट सामग्री पृष्ठ (जैसे टैग और श्रेणियां) देखते हैं तो यह आपकी वेबसाइट एसईओ को नुकसान पहुंचाएगा। टैग और श्रेणियों से उत्पन्न होने वाली डुप्लिकेट सामग्री उन पृष्ठों को आपके स्थिर पृष्ठों और पोस्टों को पछाड़ सकती है। आपके टैग और श्रेणी पृष्ठों का प्रत्येक लिंक तकनीकी रूप से व्यर्थ है क्योंकि यह किसी स्थिर या पोस्ट पेज से लिंक नहीं होता है।

robots.txt फ़ाइल का उपयोग करके, आप खोज इंजनों को बता सकते हैं कि आप किन निर्देशिकाओं और पृष्ठों को नहीं देखना चाहते हैं। खोज इंजन केवल वही देखेंगे जो आप उन्हें देखना चाहते हैं जिसके परिणामस्वरूप समग्र रूप से बेहतर वेबसाइट सामग्री और गुणवत्ता होती है।

robots.txt के माध्यम से निजी पेज और सामग्री को प्रतिबंधित करें

आप उन निर्देशिकाओं और पृष्ठों को प्रतिबंधित कर सकते हैं जो निजी हैं। निजी पृष्ठों या फाइलों को निम्नलिखित तरीके से खोज इंजन से बाहर रखा जा सकता है।

User-agent: *

Disallow: /MyFiles

Disallow: /PrivateD

Disallow:/Pages/Login.php उपरोक्त उदाहरण में हम सभी उपयोगकर्ता-एजेंटों को इसके बाद एक तारा (*) लिखकर अनुमति दे रहे हैं। दूसरी पंक्ति खोज इंजन को निर्देशिका http://www में कुछ भी क्रॉल करने की अनुमति नहीं देगी। yourwebsite.com/MyFiles. वही PrivateD के लिए जाता है। तीसरी लाइन का मतलब है कि आप लॉग इन पेज को छोड़कर सभी पेजों को अनुमति दे रहे हैं।

Rate this post
Suraj Kushwaha
Suraj Kushwahahttp://techshindi.com
हैलो दोस्तों, मेरा नाम सूरज कुशवाहा है मै यह ब्लॉग मुख्य रूप से हिंदी में पाठकों को विभिन्न प्रकार के कंप्यूटर टेक्नोलॉजी पर आधारित दिलचस्प पाठ्य सामग्री प्रदान करने के लिए बनाया है।

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Stay Connected

0FansLike
0FollowersFollow
0SubscribersSubscribe
- Advertisement -

Latest Articles