Tuesday, December 6, 2022

वेबसाइट रोबोट क्या है | Best Robot.txt File

वेबसाइट रोबोट क्या है एवं कार्य | Robot.txt File का क्या काम होता है ? | Robots.Txt Kya Hai Hindi

वेबसाइट रोबोट क्या है एवं कार्य – सर्च इंजन में रोबोट होते हैं जो आपकी साइट पर आते हैं  और जो कुछ भी हड़पने के लिए है उसे हड़प लेते हैं। लेकिन क्योंकि प्रतिस्पर्धा इतनी भयंकर है, सर्च इंजन में आने का कोई रास्ता नहीं है, जब तक कि आप विज्ञापनों के लिए भुगतान नहीं करते हैं या एक एसईओ (सर्च इंजन ऑप्टिमाइजेशन) सलाहकार को नियुक्त नहीं करते हैं, है ना? गलत!

कैसे सुनिश्चित करें कि आपकी साइट रोबोट द्वारा ठीक से क्रॉल और इंडेक्स  हो रही है | Site Gets Properly Crawled and Indexed by Robots

यहां तक ​​​​कि अगर आप बड़ी रकम का भुगतान करते हैं, अगर आपकी साइट को सर्च इंजन द्वारा इंडेक्सिंग के लिए उपयोग किए जाने वाले रोबोटों द्वारा ठीक से नहीं देखा जाता है, तो संभावना है कि आपके कई पेज इसे कभी नहीं बना पाएंगे।

इस लेख में मैं आपकी वेबसाइट को ठीक से संरचित करने के महत्व पर चर्चा करूंगा, पुराने जमाने के हाइपरलिंक्स बनाम आधुनिक फ्लैश मेनू, स्क्रिप्ट और एक्सटेंशन का उपयोग करने का महत्व और आपको एक बहुत ही सरल और मुफ्त टूल प्रदान करेगा जो आपको अपनी साइट देखने की अनुमति देगा। इसी तरह से अधिकांश अनुक्रमण रोबोट करते हैं। लेकिन पहले, आइए कुछ अवधारणाओं को परिभाषित करें।

वेबसाइट रोबोट क्या है | Robots.txt Definition In Hindi

वेबसाइट रोबोट क्या है एवं कार्य | Robot.txt File का क्या काम होता है ? | Robots.Txt Kya Hai Hindi
वेबसाइट रोबोट क्या है एवं कार्य | Robot.txt File का क्या काम होता है ? | Robots.Txt Kya Hai Hindi

www रोबोट क्या है?

www रोबोट क्या है?- रोबोट एक कंप्यूटर प्रोग्राम है जो स्वचालित रूप से वेब पेज पढ़ता है और हर उस लिंक से गुजरता है जो उसे मिलता है। पहला रोबोट MIT द्वारा विकसित किया गया था और 1993 में लॉन्च किया गया था। इसे वर्ल्ड वाइड वेब वांडर नाम दिया गया था और इसका प्रारंभिक उद्देश्य विशुद्ध रूप से वैज्ञानिक प्रकृति का था, इसका मिशन वेब के विकास को मापना था। प्रयोग के परिणामों से उत्पन्न सूचकांक एक अद्भुत उपकरण साबित हुआ और प्रभावी रूप से पहला सर्च इंजन बन गया। आज हम जिन ऑनलाइन चीजों के बिना नहीं रह सकते उनमें से अधिकांश का जन्म किसी वैज्ञानिक प्रयोग के दुष्प्रभाव के रूप में हुआ था।

सर्च इंजन क्या है?

सर्च इंजन क्या है? – सामान्यतया, एक सर्च इंजन एक प्रोग्राम है जो एक डेटाबेस के माध्यम से सर्च करता है। लोकप्रिय अर्थों में, जैसा कि वेब को संदर्भित किया जाता है, एक सर्च इंजन को एक ऐसी प्रणाली माना जाता है जिसमें एक उपयोगकर्ता सर्च फ़ॉर्म होता है, जो एक रोबोट द्वारा एकत्रित वेब पेजों के भंडार के माध्यम से सर्च सकता है।

एक बॉट क्या है? एक स्पाईडर क्या है? क्रॉलर क्या है?

बॉट रोबोट शब्द का सिर्फ एक छोटा, कूलर (कुछ के लिए) संस्करण है। स्पाइडर और क्रॉलर रोबोट हैं, केवल नाम प्रेस में और मेट्रो-गीक सर्कल के भीतर अधिक दिलचस्प लगते हैं। संगति के कारणों के लिए, मैं इस पूरे लेख में रोबोट शब्द का उपयोग करूंगा, जब स्पाइडर, क्रॉलर और बॉट्स का जिक्र होगा।

क्या वहाँ अन्य चीज़ें हैं जो वहाँ चलती हैं? – अरे हाँ, लेकिन ये बातें इस लेख के दायरे से बाहर हैं। खैर, कॉन्सपिरेसी थ्योरी aficionados के लिए, आइए देखें… हमारे पास वर्म्स हैं – सेल्फ-रेप्लिकेटिंग प्रोग्राम, वेबेंट्स  – वितरित सहयोगी रोबोट, ऑटोनॉमस एजेंट, इंटेलिजेंट एजेंट और कई अन्य बॉट और बीस्टी।

रोबोट कैसे काम करते हैं?

जैसा कि अन्य सभी तकनीकी चीजों के साथ होता है, मेरा मानना ​​है कि जिस तरह से आप किसी तकनीक का उसकी पूरी क्षमता और अपने सर्वोत्तम लाभ के लिए उपयोग करेंगे, वह तभी और जब आप समझेंगे कि वह तकनीक कैसे काम करती है। जब मैं कहता हूं कि यह कैसे काम करता है, तो मेरा मतलब जटिल तकनीकी विवरण नहीं है, बल्कि मौलिक प्रक्रियाएं, बड़ी तस्वीर वाली चीजें हैं।

आम तौर पर, रोबोट वेब ब्राउज़र के स्ट्रिप्ड डाउन संस्करण के अलावा और कुछ नहीं होते हैं, जिन्हें स्वचालित रूप से वेब पेजों के बारे में जानकारी ब्राउज़ करने और रिकॉर्ड करने के लिए प्रोग्राम किया जाता है। वहाँ कुछ बहुत ही विशिष्ट रोबोट हैं, कुछ जो केवल ब्लॉग के लिए देखते हैं, कुछ जो छवियों के अलावा कुछ भी अनुक्रमित नहीं करते हैं। कई (जैसे कि Google का GoogleBot) पहले लोकप्रिय ब्राउज़रों में से एक पर आधारित हैं, जिन्हें लिंक्स कहा जाता है।

लिंक्स शुरू में एक शुद्ध टेक्स्ट ब्राउज़र था, इसलिए आज के इंटरनेट में लिंक्स बेहद मजबूत और तेज होगा। मूल रूप से, यदि आप प्रोग्राम कर सकते हैं, तो आप लिंक्स ले सकते हैं, इसे संशोधित कर सकते हैं और रोबोट बना सकते हैं।

तो ये चीजें वास्तव में कैसे काम करती हैं? वे वेबसाइटों की एक सूची प्राप्त करते हैं, और सचमुच उन्हें “ब्राउज़ करना” शुरू करते हैं। वे आपकी साइट पर आते हैं और फिर पृष्ठों को पढ़ना शुरू करते हैं और प्रत्येक लिंक का अनुसरण करते हैं, जबकि विभिन्न जानकारी संग्रहीत करते हैं, जैसे पृष्ठ शीर्षक, पृष्ठ का वास्तविक पाठ, आदि।

उपरोक्त के आधार पर, क्या होगा यदि आप अपने प्रिय इंटरनेट एक्सप्लोरर, फ़ायरफ़ॉक्स, ओपेरा या किसी भी ब्राउज़र से जुड़े हुए हैं, तो आप इंटरनेट पर खुदाई करें और आदरणीय लिंक्स ब्राउज़र का एक संस्करण डाउनलोड करें?

मैं आपको बताऊंगा कि क्या होगा, और कुछ शायद मुझ पर उन रहस्यों में से एक को दूर करने का आरोप लगाएंगे जो एसईओ कॉर्पोरेट समुदाय आपको नहीं जानना चाहता:

आप अपनी साइट को जिस तरह से रोबोट देखता है, उसके बहुत करीब से देख पाएंगे। आप अपने पृष्ठों में त्रुटियों की तलाश कर पाएंगे और उन नेविगेशन त्रुटियों को ट्रैक कर पाएंगे जो रोबोट को आपकी साइट के कुछ हिस्सों को देखने से रोक सकती हैं।

मान लें कि आपने एक शानदार दिखने वाली साइट बनाई है। एक अनुक्रमणिका पृष्ठ है, जो आपकी साइट में प्रवेश करते समय पहला पृष्ठ देखता है। उस पृष्ठ पर आपके पास सबसे अविश्वसनीय फ्लैश नेविगेशन सिस्टम है, जिसमें आपके उत्पादों और सेवाओं और बाकी साइट को इंगित करने वाला एक बड़ा बटन है। यदि लिंक्स आपके अनुक्रमणिका पृष्ठ पर जाता है और उसे एक मानक लिंक नहीं दिखाई देगा, तो वह आपकी शेष साइट को नहीं देख पाएगा। इस बात की बहुत अधिक संभावना है कि बहुत से अनुक्रमणित करने वाले रोबोट आपकी साइट को भी नहीं देखेंगे।

तब आप समझेंगे कि क्यों आपकी बहुत बड़ी साइट, जिसमें ग्रह पर सबसे जटिल और कार्यात्मक फ्लैश आधारित नेविगेशन सिस्टम है, इसे हर जगह मैन्युअल रूप से सबमिट करने के आपके सभी प्रयासों के बाद भी इसे कभी भी सर्च इंजन में उच्च नहीं बनाता है। यह सिर्फ इसलिए है क्योंकि आप बुनियादी हाइपरलिंक जोड़ना भूल गए हैं। ऐसा इसलिए है क्योंकि जब आप कोई साइट सबमिट करते हैं – यहां तक ​​कि मैन्युअल रूप से – वास्तव में ऐसा होता है कि आप सर्च इंजन को बता रहे हैं “अरे, मिस्टर सर्च इंजन, जब भी आपको लगता है कि आपको कुछ समय मिल सकता है, तो कृपया अपना भरोसेमंद रोबोट मेरी साइट पर भेजें”।

दोस्तों, रोबोट आमतौर पर फ्लैश, जावा स्क्रिप्ट, पीएचपी, आदि में बने नेविगेशन मेनू का उपयोग नहीं कर सकते हैं और आपके पृष्ठों तक नहीं पहुंच पाएंगे, यह उतना ही सरल है।

मैं लिंक्स कैसे प्राप्त करूं?

मैं लिंक्स कैसे प्राप्त करूं? – लिंक्स ने सबसे पहले अपने जीवन की शुरुआत एक यूनिक्स अनुप्रयोग के रूप में की थी, जिसे कैनसस विश्वविद्यालय ने अपने परिसर-व्यापी सूचना प्रणाली के हिस्से के रूप में लिखा था। यह तब एक गोफर एप्लिकेशन (एक पूर्व-वेब सर्च उपकरण) बन गया, फिर एक वेब ब्राउज़र।

लिंक्स के लिए आधिकारिक पृष्ठ http://lynx.isc.org है, हालांकि, यदि आप लिनक्स गीक नहीं हैं, तो बाइनरी वितरण फाइलों के साथ खेलते थे और अपने स्वयं के ऐप्स को संकलित करते थे (मैंने अभी जो कहा उसके बारे में चिंता न करें) ), हो सकता है कि आप ऐसा संस्करण ढूंढना चाहें जिसे किसी अन्य व्यक्ति ने पहले ही आपके कंप्यूटर के लिए उपयोग करने योग्य बना दिया हो।

उदाहरण के लिए, यदि आप विंडोज चलाने वाले एक पीसी उपयोगकर्ता हैं, तो आप “Win32 संकलित संस्करण” के लिंक की जांच कर सकते हैं। लेखन के समय, ऐसी ही एक साइट है http://csant.info/lynx.htm (जिसे वितरण साइट कहा जाता है) जहां आप एक संस्करण डाउनलोड कर सकते हैं जो विंडोज मशीनों पर इस तरह से स्थापित होगा जो गैर-गीक्स से परिचित होगा . ब्राउज़र स्थापित करने के बाद, आप दस्तावेज़ीकरण पढ़ना चाहेंगे।

आपको आगे बढ़ने के लिए और आपकी शुरुआती निराशाओं को कम करने के लिए, मैं आपको बताऊंगा कि आपको जी कुंजी दबानी होगी (जैसा कि “गो” में है), फिर उस साइट का पूरा यूआरएल टाइप करें जिसे आप ब्राउज़ करना चाहते हैं (“http:/ /”), फिर एंटर दबाएं। नेविगेट करने के लिए तीरों का उपयोग करें।

निचला रेखा, यह सत्यापित करने के लिए लिंक्स का उपयोग करें कि साइट का प्रत्येक पृष्ठ पहुंच योग्य है और रोबोट को आपके लिए सभी कार्य करने दें। आप अपने आप को बहुत सी वृद्धि और शायद कुछ पैसे बचाएंगे जो आप अपनी अन्यथा गैर-अनुक्रमणीय साइट के विज्ञापन पर बर्बाद कर देंगे।

रोबोट NoIndex क्या होता है | Robots NoIndex

रोबोट्स नोइंडेक्स टैग/सेटिंग का उपयोग करते समय, आप प्रभावी रूप से Google और हर दूसरे सर्च इंजन के सर्च क्रॉलिंग रोबोट्स/स्पाइडर्स को अपनी साइट पर किसी भी पेज को अनदेखा करने के लिए कह रहे हैं, जिस पर आप उस टैग का उपयोग करते हैं या दूसरे शब्दों में उन्हें इंडेक्स नहीं करने के लिए कह रहे हैं।

डिफ़ॉल्ट रूप से, स्पाइडर आपकी साइट के प्रत्येक पृष्ठ को क्रॉल करेंगे, इसलिए आपको अपनी साइट पर अपनी robots.txt फ़ाइल में परिवर्तन करके उन्हें यह बताना होगा कि आप विशेष रूप से किन पृष्ठों को छोड़ना चाहते हैं। रोबोट्स नोइंडेक्स का उपयोग केवल उन्हीं पृष्ठों पर किया जाना चाहिए, जिन्हें आप नहीं चाहते कि सर्च रोबोट क्रॉल करें।

उदाहरण के लिए, यदि आपके पास उत्पाद बिक्री साइट है, तो संभवतः आप अपने “चेकआउट” पृष्ठ को क्रॉल और अनुक्रमित नहीं करना चाहते हैं। एक एसईओ दृष्टिकोण से, आप नहीं चाहते कि एक ही सामग्री आपकी साइट पर दो बार अनुक्रमित हो, यदि यह एक से अधिक स्थानों पर मौजूद है क्योंकि इससे डुप्लिकेट सामग्री दंड उत्पन्न हो सकता है जो आप नहीं चाहते हैं। यदि आप जानते हैं कि आपके पास दो स्थानों पर समान सामग्री है, तो शायद यदि कोई पोस्ट दो अलग-अलग स्थानों में दो अलग-अलग श्रेणियों में मौजूद है, तो आप उनमें से किसी एक को अनुक्रमित नहीं करना चाहेंगे।

आप उन पृष्ठों को भी अनुक्रमित नहीं करना चाहते हैं जिन्हें आप अनुक्रमित नहीं करना चाहते हैं या उन्हें अनुक्रमित करने की परवाह नहीं है क्योंकि इसका मतलब है कि स्पाइडर को आपकी साइट को क्रॉल करने के लिए कम समय की आवश्यकता होती है जिसका अर्थ है कम बैंडविड्थ उपयोग जिसका अर्थ है अंतिम उपयोगकर्ता के लिए अधिक प्रतिक्रियाशील और तेज़ साइट।

यदि आप वर्डप्रेस का उपयोग कर रहे हैं, तो यह स्वचालित रूप से एक robots.txt फ़ाइल बनाता है, हालांकि यह आप पर निर्भर है कि आप robots noindex जानकारी को जोड़ें। यदि आपकी साइट पर यह फ़ाइल पहले से नहीं है, तो आप एक सामान्य टेक्स्ट फ़ाइल बना सकते हैं, इसे robots.txt के रूप में सहेज सकते हैं, और इसे FTP के माध्यम से अपनी साइट पर अपलोड कर सकते हैं।

आपकी robots.txt फ़ाइल में जोड़ने के लिए कुछ मानक हैं:

Disallow: /feed/

Disallow: /comments/

Disallow: /author/

Disallow: /archives/

Disallow: /trackback/

यही वह प्रारूप है जिसका आपको उपयोग करना चाहिए और यह स्पाइडर को उन निर्देशिकाओं और किसी भी संबंधित फाइलों को पूरी तरह से अनदेखा करने के लिए कहता है। यदि आप WordPress का उपयोग कर रहे हैं तो robots noindex को लागू करने का एक आसान तरीका यह है कि PCRobots.txt नामक यह बहुत ही आसान प्लगइन डाउनलोड करें।

आप बस किसी भी पेज को इनपुट कर सकते हैं जिसे आप क्रॉल नहीं करना चाहते हैं, सहेजें पर क्लिक करें, और प्लगइन आपके अनुसार एफ़टीपी या आपकी रोबोट फ़ाइल के साथ गड़बड़ किए बिना स्पाइडर को सूचित करता है। यह उन वेबमास्टरों के लिए आदर्श है जो कोड के साथ उपद्रव या गड़बड़ करना पसंद नहीं करते हैं और एक पुश बटन समाधान पसंद करते हैं, जो वर्डप्रेस के उपयोग के समान और बहुत समान है।

Robot.txt – अच्छा या बुरा | Robot.txt

एक बार इसे पढ़ लेने के बाद यह लेख आपको अपने लिए निर्णय लेने में मदद करेगा। यह आपको दिखाता है कि robot.txt फ़ाइल कैसे बनाई जाती है।

मूल रूप से, robots.txt एक सादा पाठ फ़ाइल है जिसे सर्वर की रूट निर्देशिका में रखा जाता है, इसमें यह जानकारी शामिल होती है कि सर्च इंजन रोबोट को साइट या साइट के कुछ हिस्सों को अनुक्रमित करना चाहिए या नहीं। फ़ाइल (लाइन ‘#’ से शुरू होती है), फिर ‘उपयोगकर्ता-एजेंट’ लाइनें।

आमतौर पर, उपयोगकर्ता-एजेंट लाइन सभी रोबोटों को बाहर करने के लिए केवल एक वाइल्डकार्ड होती है, जैसे:

http://yoursite.com . के लिए # robots.txt

उपभोक्ता अभिकर्ता: *

हालांकि आप अलग-अलग रोबोट के लिए अलग-अलग एजेंट/अस्वीकृति अनुभाग लिख सकते हैं।

इसके बाद अस्वीकृत अनुभाग आता है। यह रोबोट द्वारा पढ़ा जाता है और वहां से, यह निर्धारित करता है कि आपकी साइट को अनुक्रमित करने की क्या सीमा है।

http://yoursite.com . के लिए # robots.txt

उपभोक्ता अभिकर्ता: *

अस्वीकृत करें: /प्रशासन/ # के तहत कुछ भी नहीं /प्रशासन/स्पाइडर किया जाना चाहिए अस्वीकृत: /temp/ # ये अस्थायी फ़ाइलें हैं

अस्वीकृत करें: /active.asp # सक्रिय सामग्री यहाँ, कोई बात नहीं इसे छिटकना

आपकी संरचना में गहराई से पृष्ठों को अस्वीकार करना आपके उपयोगकर्ताओं के लिए अच्छा हो सकता है, वे साइट के माध्यम से खुद को आधा नहीं पाएंगे, यह नहीं पता कि कैसे बाहर निकलना है। तो फिर, आपके पास जितनी अधिक सर्च इंजन प्रविष्टियाँ होंगी, उतना ही अच्छा है, है ना? यह आपको तय करना है कि किसे बाहर रखा जाना चाहिए या क्या नहीं।

ठीक है तो robot.txt आपके उपयोगकर्ताओं के लिए और सर्च इंजनों को यह बताने के लिए अच्छा है कि किन पृष्ठों को सूचीबद्ध किया जाए लेकिन। यहां यह बुरी बात है कि सभी रोबोट या बॉट अच्छे नहीं हैं, कुछ लोग robot.txt फ़ाइल को अनदेखा कर देंगे और केवल उन सभी पृष्ठों को अनुक्रमित करेंगे, जिन पर यह आता है। तो आपके कुछ व्यवस्थापक पृष्ठ कहीं प्रदर्शित हो सकते हैं।

इसके अलावा अब आप robot.txt के बारे में जानते हैं कि इसे रूट डायरेक्टरी में होना चाहिए जो इस लेख को पढ़ने वाले किसी व्यक्ति को बस इधर-उधर जाने से रोके और http://yoursite.com/robot.txt टाइप करने से यह आपकी robot.txt फ़ाइल प्रदर्शित करेगा!

रोबोट टेक्स्ट फ़ाइल या बॉट्स द्वारा अपनी साइट को उचित रूप से स्पाइडर, क्रॉल, इंडेक्स कैसे करें

आपने किसी ऐसे व्यक्ति के बारे में सुना है जो robots.txt फ़ाइल के महत्व पर जोर दे रहा है, या आपकी वेबसाइट के लॉग में देखा गया है कि robots.txt फ़ाइल त्रुटि उत्पन्न कर रही है, या किसी तरह यह सबसे ऊपर देखे गए पृष्ठों के शीर्ष पर है, या, आप पढ़ते हैं robots.txt फ़ाइल के बारे में कुछ लेख और इस बारे में कि आपको इससे कैसे परेशान नहीं होना चाहिए। या हो सकता है कि आपने robots.txt फ़ाइल के बारे में कभी नहीं सुना हो, लेकिन स्पाइडर, रोबोटों और क्रॉलर के बारे में बात करने वाले सभी लोगों में रुचि रखते हैं। इस लेख में, मुझे उम्मीद है कि उपरोक्त सभी में से कुछ समझ में आ जाएगा।

वहाँ बहुत से लोग हैं जो robots.txt फ़ाइल की बेकारता पर ज़ोर देते हैं, इसे अप्रचलित, अतीत की बात, सादा मृत घोषित करते हैं। मैं असहमत हूं। robots.txt फ़ाइल संभवत: 24 घंटे या उससे कम समय में आपकी तेजी से समृद्ध होने वाली संबद्ध वेबसाइट का प्रचार करने के शीर्ष दस तरीकों में नहीं है, लेकिन फिर भी लंबे समय में एक प्रमुख भूमिका निभाती है।

सबसे पहले, किसी साइट को बढ़ावा देने और बनाए रखने के लिए robots.txt फ़ाइल अभी भी एक बहुत ही महत्वपूर्ण कारक है, और मैं आपको दिखाऊंगा कि क्यों। दूसरा, robots.txt फ़ाइल एक सरल माध्यम है जिसके द्वारा आप अपनी गोपनीयता और/या बौद्धिक संपदा की रक्षा कर सकते हैं। मैं आपको दिखाउंगा यह कैसे हुआ।

आइए कुछ लिंगो का पता लगाने की कोशिश करते हैं-

robots.txt फ़ाइल क्या है?robots.txt फ़ाइल केवल एक बहुत ही सादा पाठ फ़ाइल (या एक ASCII फ़ाइल, जैसा कि कुछ लोग कहना चाहते हैं) है, निर्देशों के एक बहुत ही सरल सेट के साथ जो हम एक वेब रोबोट को देते हैं, इसलिए रोबोट जानता है कि हमें किन पृष्ठों को स्कैन करने की आवश्यकता है ( या क्रॉल किया गया, या स्पाइडर किया गया, या अनुक्रमित किया गया – सभी शब्द इस संदर्भ में एक ही चीज़ को संदर्भित करते हैं) और हम किन पृष्ठों को सर्च इंजन से बाहर रखना चाहेंगे।

www रोबोट क्या है? – रोबोट एक कंप्यूटर प्रोग्राम है जो स्वचालित रूप से वेब पेज पढ़ता है और हर उस लिंक से गुजरता है जो उसे मिलता है। रोबोट का उद्देश्य सूचना एकत्र करना है। इस लेख में उल्लिखित कुछ सबसे प्रसिद्ध रोबोट सर्च इंजन के लिए काम करते हैं, जो वेब पर उपलब्ध सभी सूचनाओं को अनुक्रमित करते हैं।

पहला रोबोट MIT द्वारा विकसित किया गया था और 1993 में लॉन्च किया गया था। इसे वर्ल्ड वाइड वेब वांडर नाम दिया गया था और इसका प्रारंभिक उद्देश्य विशुद्ध रूप से वैज्ञानिक प्रकृति का था, इसका मिशन वेब के विकास को मापना था। प्रयोग के परिणामों से उत्पन्न सूचकांक एक अद्भुत उपकरण साबित हुआ और प्रभावी रूप से पहला सर्च इंजन बन गया। आज हम जिन चीजों को अपरिहार्य ऑनलाइन उपकरण मानते हैं, उनमें से अधिकांश का जन्म किसी वैज्ञानिक प्रयोग के दुष्प्रभाव के रूप में हुआ था।

सर्च इंजन क्या है?सामान्यतया, एक सर्च इंजन एक प्रोग्राम है जो एक डेटाबेस के माध्यम से सर्च करता है। लोकप्रिय अर्थों में, जैसा कि वेब को संदर्भित किया जाता है, एक सर्च इंजन को एक ऐसी प्रणाली माना जाता है जिसमें एक उपयोगकर्ता सर्च फ़ॉर्म होता है, जो एक रोबोट द्वारा एकत्रित वेब पेजों के भंडार के माध्यम से सर्च सकता है।

स्पाइडर और क्रॉलर क्या हैं?स्पाइडर और क्रॉलर रोबोट हैं, केवल नाम प्रेस में और मेट्रो-गीक सर्कल के भीतर कूलर लगते हैं।

सबसे लोकप्रिय रोबोट कौन से हैं? क्या कोई सूची है? – सबसे प्रसिद्ध रोबोटों में से कुछ Google के Googlebot, MSN के MSNBot, आस्क जीव्स टीओमा, Yahoo!’s Slurp (मजेदार) हैं। सक्रिय रोबोट जानकारी सर्चने के लिए सबसे लोकप्रिय स्थानों में से एक है http://www.robots.org पर अनुरक्षित सूची।

फिर भी मुझे इस robots.txt फ़ाइल की आवश्यकता क्यों है? – robots.txt फ़ाइल का उपयोग करने का एक बड़ा कारण वास्तव में यह तथ्य है कि Google सहित कई सर्च इंजन जनता के लिए इस टूल का उपयोग करने के लिए सुझाव पोस्ट करते हैं। यह इतनी बड़ी बात क्यों है कि Google लोगों को robots.txt के बारे में सिखाता है? ठीक है, क्योंकि आजकल, सर्च इंजन अब वैज्ञानिकों और गीक्स के लिए खेल का मैदान नहीं हैं, बल्कि बड़े कॉर्पोरेट उद्यम हैं।

Google वहाँ के सबसे गुप्त सर्च इंजनों में से एक है। यह कैसे संचालित होता है, यह कैसे अनुक्रमित करता है, यह कैसे सर्चता है, यह अपनी रैंकिंग कैसे बनाता है, आदि के बारे में जनता को बहुत कम जानकारी है।

वास्तव में, यदि आप विशेष मंचों में सावधानीपूर्वक सर्च करते हैं, या जहां कहीं भी इन मुद्दों पर चर्चा की जाती है, कोई भी नहीं वास्तव में इस बात से सहमत है कि क्या Google अपनी रैंकिंग बनाने के लिए इस या उस तत्व पर अधिक जोर देता है। और जब लोग रैंकिंग एल्गोरिथम के रूप में सटीक चीजों पर सहमत नहीं होते हैं, तो इसका मतलब दो चीजें हैं: कि Google लगातार अपने तरीकों को बदलता है, और यह कि यह बहुत स्पष्ट या बहुत सार्वजनिक नहीं है। केवल एक चीज है जिसे मैं स्पष्ट मानता हूं।

यदि वे अनुशंसा करते हैं कि आप robots.txt (“अपने वेब सर्वर पर robots.txt फ़ाइल का उपयोग करें” – Google तकनीकी दिशानिर्देश) का उपयोग करें, तो इसे करें। यह आपकी रैंकिंग में मदद नहीं कर सकता है, लेकिन यह निश्चित रूप से आपको नुकसान नहीं पहुंचाएगा।

robots.txt फ़ाइल का उपयोग करने के और भी कारण हैं। यदि आप अपनी साइट को बदलने और त्रुटियों से मुक्त रखने के लिए अपने त्रुटि लॉग का उपयोग करते हैं, तो आप देखेंगे कि अधिकांश त्रुटियां किसी ऐसे व्यक्ति या किसी चीज़ को संदर्भित करती हैं जिसे robots.txt फ़ाइल नहीं मिल रही है। आपको बस एक बुनियादी रिक्त पृष्ठ बनाना है (विंडोज़ में नोटपैड का उपयोग करें, या लिनक्स या मैक पर सबसे सरल टेक्स्ट एडिटर का उपयोग करें), इसे robots.txt नाम दें और इसे अपने सर्वर के रूट पर अपलोड करें (यही वह जगह है जहां आपका घर है) पेज है)।

एक अलग नोट पर, आजकल सभी सर्च इंजन robots.txt फ़ाइल की तलाश करते हैं जैसे ही उनके रोबोट आपकी साइट पर आते हैं। ऐसी अपुष्ट अफवाहें हैं कि कुछ रोबोट ‘नाराज’ भी हो सकते हैं और अगर वे नहीं पाते हैं तो वे चले जाते हैं। यकीन नहीं होता कि यह कितना सच है, लेकिन सुरक्षित पक्ष पर क्यों नहीं?

फिर से, भले ही आप किसी भी चीज़ को अवरुद्ध करने का इरादा नहीं रखते हैं या आप इस सामान से बिल्कुल भी परेशान नहीं होना चाहते हैं, फिर भी एक खाली robots.txt रखना एक अच्छा विचार है, क्योंकि यह वास्तव में आपकी साइट में एक आमंत्रण के रूप में कार्य कर सकता है।

क्या मैं अपनी साइट को अनुक्रमित नहीं करना चाहता? रोबोट क्यों बंद करें?

कुछ रोबोट अच्छी तरह से डिज़ाइन किए गए हैं, पेशेवर रूप से संचालित हैं, कोई नुकसान नहीं पहुंचाते हैं और मानव जाति को मूल्यवान सेवा प्रदान करते हैं (क्या हम सभी “गूगल” को पसंद नहीं करते हैं)। कुछ रोबोट शौकीनों द्वारा लिखे गए हैं (याद रखें, रोबोट सिर्फ एक प्रोग्राम है)। खराब लिखे गए रोबोट नेटवर्क अधिभार, सुरक्षा समस्याओं आदि का कारण बन सकते हैं।

यहां लब्बोलुआब यह है कि रोबोट मनुष्यों द्वारा तैयार और संचालित होते हैं और मानवीय त्रुटि कारक से ग्रस्त होते हैं। नतीजतन, रोबोट स्वाभाविक रूप से खराब नहीं हैं, न ही स्वाभाविक रूप से शानदार हैं, और उन्हें सावधानीपूर्वक ध्यान देने की आवश्यकता है। यह एक और मामला है जहां robots.txt फ़ाइल काम आती है – रोबोट नियंत्रण।

अब, मुझे यकीन है कि एक वेबमास्टर या साइट के मालिक के रूप में आपके जीवन का मुख्य लक्ष्य Google के प्रथम पृष्ठ पर पहुंचना है। फिर, आप दुनिया में रोबोटों को क्यों ब्लॉक करना चाहेंगे?

यहाँ कुछ परिदृश्य दिए गए हैं:

1. अधूरी साइट – आप अभी भी अपनी साइट, या उसके कुछ हिस्सों का निर्माण कर रहे हैं, और नहीं चाहते कि अधूरे पृष्ठ सर्च इंजन में दिखाई दें। ऐसा कहा जाता है कि कुछ सर्च इंजन लंबे समय से “निर्माणाधीन” पृष्ठों वाली साइटों को दंडित भी करते हैं।

2. सुरक्षा – हमेशा अपनी cgi-bin निर्देशिका को robots. ज्यादातर मामलों में, cgi-bin में एप्लिकेशन होते हैं, उन एप्लिकेशन के लिए कॉन्फ़िगरेशन फ़ाइलें (जिनमें वास्तव में संवेदनशील जानकारी हो सकती है), आदि। भले ही आप वर्तमान में किसी भी CGI स्क्रिप्ट या प्रोग्राम का उपयोग नहीं करते हैं, इसे वैसे भी ब्लॉक करें, सॉरी से बेहतर सुरक्षित।

3. गोपनीयता – आपकी वेबसाइट पर कुछ निर्देशिकाएँ हो सकती हैं जहाँ आप सामान रखते हैं जो आप नहीं चाहते कि पूरी गैलेक्सी देखे, जैसे कि एक दोस्त की तस्वीरें जो कपड़े पहनना भूल गए, आदि।

4. द्वार पृष्ठ – पूरे इंटरनेट पर डोरवे ब्लास्ट करके रैंकिंग बढ़ाने के अवैध प्रयासों के अलावा, डोरवे पेजों का वास्तव में बहुत नैतिक रूप से अच्छा उपयोग होता है। वे समान पृष्ठ हैं, लेकिन प्रत्येक एक विशिष्ट सर्च इंजन के लिए अनुकूलित है। इस मामले में, आपको यह सुनिश्चित करना होगा कि अलग-अलग रोबोटों की उन सभी तक पहुंच नहीं है। अत्यंत समान पृष्ठों की एक श्रृंखला के साथ एक सर्च इंजन को स्पैम करने के लिए दंडित होने से बचने के लिए यह अत्यंत महत्वपूर्ण है।

5. बैड बॉट, बैड बॉट, क्या करने वाला है – आप उन रोबोटों को बाहर करना चाह सकते हैं जिनका ज्ञात उद्देश्य ईमेल पते एकत्र करना है, या अन्य रोबोट जिनकी गतिविधि दुनिया पर आपके विश्वासों से सहमत नहीं है।

6. आपकी साइट अभिभूत हो जाती है – दुर्लभ परिस्थितियों में, एक रोबोट आपकी साइट पर बहुत तेज़ी से जाता है, आपकी बैंडविड्थ खा रहा है या आपके सर्वर को धीमा कर रहा है। इसे “रैपिड-फायर” कहा जाता है और यदि आप अपनी एक्सेस लॉग फ़ाइल पढ़ रहे हैं तो आप इसे नोटिस करेंगे। एक मध्यम प्रदर्शन सर्वर धीमा नहीं होना चाहिए।

हालाँकि, यदि आपके पास कम प्रदर्शन वाली साइट है, जैसे कि आपका व्यक्तिगत पीसी या मैक चलाना, यदि आप खराब सर्वर सॉफ़्टवेयर चलाते हैं, या यदि आपके पास भारी स्क्रिप्ट या विशाल दस्तावेज़ हैं, तो आपको समस्याएँ हो सकती हैं।

क्या ये मामले हैं, आप देखेंगे कि कनेक्शन टूट गए हैं, भारी मंदी है, चरम सीमा पर, यहां तक ​​कि एक संपूर्ण सिस्टम क्रैश भी। यदि आपके साथ कभी ऐसा होता है, तो अपने लॉग पढ़ें, रोबोट का आईपी या नाम प्राप्त करने का प्रयास करें, सक्रिय रोबोटों की सूची पढ़ें और इसे पहचानने और ब्लॉक करने का प्रयास करें।

robots.txt फ़ाइल में क्या होती है?

robots.txt फ़ाइल में प्रत्येक प्रविष्टि के लिए केवल दो पंक्तियाँ होती हैं, उपयोगकर्ता-एजेंट, जिसमें उस रोबोट का नाम होता है जिसे आप आदेश देना चाहते हैं या ‘*’ वाइल्डकार्ड प्रतीक जिसका अर्थ है ‘सभी’, और अस्वीकृत पंक्ति, जो रोबोट को उन सभी जगहों को बताता है जहां उसे नहीं छूना चाहिए। प्रत्येक फ़ाइल या निर्देशिका के लिए दो पंक्ति प्रविष्टि को दोहराया जा सकता है जिसे आप अनुक्रमित नहीं करना चाहते हैं, या प्रत्येक रोबोट के लिए जिसे आप बहिष्कृत करना चाहते हैं।

यदि आप अस्वीकृत करें लाइन को खाली छोड़ देते हैं, तो इसका मतलब है कि आप किसी भी चीज़ की अनुमति नहीं दे रहे हैं, दूसरे शब्दों में, आप विशेष रोबोट को आपकी पूरी साइट को अनुक्रमित करने की अनुमति दे रहे हैं। कुछ उदाहरणों और कुछ परिदृश्यों से यह स्पष्ट हो जाना चाहिए:

A. Google के मुख्य रोबोट (Googlebot) से किसी फ़ाइल को बाहर निकालें:

User-Agent: Googlebot

Disallow: /private/privatefile.htm

B. साइट के किसी भाग को सभी रोबोटों से बहिष्कृत करें:

User-Agent: *

Disallow: /underconstruction/

ध्यान दें कि निर्देशिका दो फ़ॉरवर्ड स्लैश के बीच संलग्न है। यद्यपि आप शायद यूआरएल, लिंक और फ़ोल्डर संदर्भों को देखने के लिए उपयोग किए जाते हैं जो स्लैश के साथ समाप्त नहीं होते हैं, ध्यान दें कि एक वेब सर्वर को हमेशा अंत में एक स्लैश की आवश्यकता होती है। यहां तक ​​​​कि जब आप उन वेबसाइटों पर लिंक देखते हैं जो स्लैश के साथ समाप्त नहीं होते हैं, जब उस लिंक पर क्लिक किया जाता है, तो वेब सर्वर को पेज की सेवा करने से पहले अतिरिक्त कदम उठाना पड़ता है, जो कि स्लैश जोड़ रहा है जिसे हम रीडायरेक्ट कहते हैं। हमेशा अंतिम स्लैश का उपयोग करें।

C. सब कुछ की अनुमति दें (रिक्त robots.txt):

User-Agent: *

Disallow:

ध्यान दें कि जब “रिक्त robots.txt” का उल्लेख किया जाता है, तो यह पूरी तरह से रिक्त फ़ाइल नहीं होती है, लेकिन इसमें ऊपर की दो पंक्तियाँ होती हैं।

D. अपनी साइट पर किसी रोबोट को अनुमति न दें:

User-Agent: *

Disallow: /

ध्यान दें कि सिंगल फ़ॉरवर्ड स्लैश का अर्थ है “रूट”, जो आपकी साइट का मुख्य प्रवेश द्वार है।

E. Google को आपकी किसी भी छवि को अनुक्रमित करने की अनुमति न दें (Google छवियों के लिए Googlebot-Image का उपयोग करता है):

User-Agent: Googlebot-Image

Disallow: /

F. Google को आपकी कुछ छवियों को अनुक्रमित करने की अनुमति न दें:

User-Agent: Googlebot-Image

Disallow: /images_main/

Disallow: /images_girlfriend/

Disallow: /downloaded_pix/

एकाधिक अस्वीकृतियों के उपयोग पर ध्यान दें। इसकी अनुमति है, कोई यमक इरादा नहीं है।

G. Google और लाइकोस के लिए एक द्वार बनाएं (लाइकोस रोबोट को टी-रेक्स कहा जाता है) – इसके साथ तब तक न खेलें जब तक कि आप 100% सुनिश्चित न हों कि आप जानते हैं कि आप क्या कर रहे हैं:

User-Agent: T-Rex

Disallow: /index1.htm

User-Agent: Googlebot

Disallow: /index2.htm

H. केवल Googlebot को अनुमति दें..

User-Agent: Googlebot

Disallow:

User-Agent: *

Disallow: /

ध्यान दें कि आदेश अनुक्रमिक हैं। ऊपर दिया गया उदाहरण अंग्रेजी में पढ़ता है: Googlebot को आगे बढ़ने दें, फिर बाकी सभी को रोकें।

यदि आपकी फ़ाइल वास्तव में बड़ी हो जाती है, या आपको अपने लिए या संभावित दर्शकों के लिए नोट्स लिखने का मन करता है (याद रखें, robots.txt एक सार्वजनिक फ़ाइल है, कोई भी इसे देख सकता है), तो आप अपनी टिप्पणी से पहले # चिह्न लगाकर ऐसा कर सकते हैं। यद्यपि मानक के अनुसार, आप एक कमांड के साथ एक ही पंक्ति पर एक टिप्पणी कर सकते हैं, मेरा सुझाव है कि आप हर कमांड और हर टिप्पणी को एक नई लाइन पर शुरू करें, इस तरह, रोबोट कभी भी संभावित स्वरूपण गड़बड़ से भ्रमित नहीं होंगे। उदाहरण:

यह मानक के अनुसार सही है, लेकिन अनुशंसित नहीं है (एक नया रोबोट या बुरी तरह से लिखा हुआ व्यक्ति निम्नलिखित को “# निर्देशिका को अस्वीकार करें” के रूप में पढ़ सकता है, जो “सभी को अस्वीकार करें” आदेश का अनुपालन नहीं करता है):

User-Agent: * Disallow: /  # हमने सभी रोबोटों को रोकने का फैसला किया लेकिन हम एक लंबी टिप्पणी टाइप करने में बहुत मूर्ख थे जो छोटा हो गया और robots.txt को अनुपयोगी बना दिया

जिस तरह से मैं अनुशंसा करता हूं कि आप इसे प्रारूपित करें:

# हमने सभी रोबोटों को बंद करने का फैसला किया और हमने सुनिश्चित किया

#कि हमारी टिप्पणियों को छोटा न किया जाए

# प्रक्रिया में है

User-Agent: *

Disallow: /

हालांकि सैद्धांतिक रूप से, प्रत्येक रोबोट को 1994 के आसपास शुरू किए गए मानकों का पालन करना चाहिए और 1996 में बढ़ाया गया, प्रत्येक रोबोट थोड़ा अलग तरीके से कार्य करता है। आपको सलाह दी जाती है कि उन रोबोटों के मालिकों द्वारा प्रदान किए गए दस्तावेज़ों की जांच करें, आपको उपयोगी तथ्यों और तकनीकों की दुनिया की सर्च करने में आश्चर्य होगा। उदाहरण के लिए, Google की साइट से हमें पता चलता है कि Googlebot “&id=” वाले किसी भी URL की पूरी तरह से अवहेलना करता है।

जांच करने के लिए यहां कुछ साइटें दी गई हैं:

गूगल: http://www.google.com/bot.html

याहू: http://help.yahoo.com/help/us/ysearch/slurp/

एमएसएन: http://search.msn.com/docs/siteowner.aspx

रोबोटों का एक डेटाबेस [http://www.robotstxt.org/wc/active/html/contact.html] पर रखा जाता है।

एक robots.txt सत्यापन उपकरण – संभावित टाइपो को सर्चने में अमूल्य जो सर्च इंजन द्वारा आपकी साइट को देखने के तरीके को पूरी तरह से बदल सकता है, यहां पाया जा सकता है: [http://searchengineworld.com/cgi-bin/robotcheck.cgi]

मानक के कुछ विस्तार भी हैं। उदाहरण के लिए, कुछ रोबोट अस्वीकृत लाइन में वाइल्डकार्ड की अनुमति देते हैं, कुछ अलग-अलग कमांड की भी अनुमति देते हैं। मेरी सलाह है: मानक के बाहर किसी भी चीज़ से परेशान न हों और आपको अप्रिय आश्चर्य नहीं होगा।

सावधानी – इस लेख में मैंने आपको दिखाया कि एक आदर्श दुनिया में चीजों को कैसे काम करना चाहिए। इस लेख के साथ कहीं मैंने उल्लेख किया है कि अच्छे बॉट और बुरे बॉट हैं। आइए एक पल के लिए रुकें और एक विक्षिप्त व्यक्ति के दृष्टिकोण से सोचें।

क्या कोई ऐसा रोबोट प्रोग्राम लिखने से रोकने के लिए है जो robots.txt फ़ाइल पढ़ता है और विशेष रूप से उन पृष्ठों को देखता है जिन्हें आपने “अस्वीकृत” के रूप में चिह्नित किया है? इसका उत्तर बिल्कुल नहीं है, यह पूरा मानक सम्मान प्रणाली पर आधारित है और इस अवधारणा पर आधारित है कि इंटरनेट को एक बेहतर जगह बनाने के लिए सभी को कड़ी मेहनत करनी चाहिए। मूल रूप से, वास्तविक सुरक्षा या गोपनीयता के लिए इस पर भरोसा न करें। जरूरत पड़ने पर पासवर्ड का इस्तेमाल करें।

अंत में, यह न भूलें कि इंडेक्स रोबोट आपके सबसे अच्छे दोस्त हैं। जबकि आपको रोबोट के लिए अपनी साइट नहीं बनानी चाहिए, लेकिन अपने मानव आगंतुकों के लिए, उन नासमझ क्रॉलर की शक्ति को कम मत समझो – सुनिश्चित करें कि जिन पृष्ठों को आप अनुक्रमित करना चाहते हैं वे रोबोट द्वारा स्पष्ट रूप से देखे जाते हैं, सुनिश्चित करें कि आपके पास नियमित हाइपरलिंक हैं जो रोबोट बाधाओं के बिना अनुसरण कर सकते हैं (उदाहरण के लिए, रोबोट फ्लैश आधारित नेविगेशन सिस्टम का पालन नहीं कर सकते हैं)।

अपनी साइट को शीर्ष प्रदर्शन पर रखने के लिए, अपने लॉग को साफ रखने के लिए, अपने एप्लिकेशन, स्क्रिप्ट और निजी डेटा को सुरक्षित रखने के लिए, हमेशा robots.txt फ़ाइल का उपयोग करें और सुनिश्चित करें कि आप सभी रोबोट गतिविधि की निगरानी के लिए अपने लॉग पढ़ते हैं।

Rate this post
Suraj Kushwaha
Suraj Kushwahahttp://techshindi.com
हैलो दोस्तों, मेरा नाम सूरज कुशवाहा है मै यह ब्लॉग मुख्य रूप से हिंदी में पाठकों को विभिन्न प्रकार के कंप्यूटर टेक्नोलॉजी पर आधारित दिलचस्प पाठ्य सामग्री प्रदान करने के लिए बनाया है।

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Stay Connected

0FansLike
0FollowersFollow
0SubscribersSubscribe
- Advertisement -

Latest Articles