सर्च इंजन रोबोट क्या हैं | सर्च इंजन रोबोट कैसे काम करते हैं | How Do Search Engine Robots Work
सर्च इंजन रोबोट क्या हैं – हम हमेशा सर्च इंजन परिणाम पृष्ठ (SERP) पर उच्च स्थान प्राप्त करने और अपनी साइटों के लिए बेहतर रैंक प्राप्त करने की जल्दी में होते हैं। लेकिन क्या हम वास्तव में इस बात से परेशान हैं कि हमारी साइटों को कैसे रैंक या इंडेक्स किया जाता है? क्या तरीके या प्रक्रियाएं चल रही हैं? क्या हम सर्च इंजन रोबोटों की परवाह करते हैं जो परिणामों और हमारी साइट की रैंकिंग के पीछे काम करते हैं?
मैं कभी यह कहने की कोशिश नहीं करता कि जो लोग SEO या वेबमास्टर से संबंधित हैं, वे सर्च इंजन रोबोट से अनभिज्ञ हैं। लेकिन मेरा इरादा यहां कुछ बिंदुओं को सामने रखना है जो स्पष्ट कर सकते हैं और कह सकते हैं कि सर्च रोबोट कैसे काम करते हैं; बल्कि कैसे वे विशिष्ट प्रोग्राम किए गए एप्लिकेशन आपकी वेबसाइटों की सफलता के लिए निर्णायक कारक हैं और उनकी कार्य प्रक्रिया की उपेक्षा करना हमारे लिए घातक हो सकता है:
पहले हमें या तो अपनी साइटों को सर्च इंजनों में जमा करना होगा या अपने व्यापार से संबंधित साइटों के साथ संबंध बनाना होगा जो क्रॉलर के लिए हमारी साइटों पर वापस इंगित करने के लिए हमारे लिंक को उनकी साइटों पर रखेंगे। प्रक्रिया में से कोई भी या दोनों हमारी साइट पर आने के लिए सर्च रोबोटों को निमंत्रण हैं।
सर्च इंजन रोबोट वर्ल्ड वाइड वेब के लाखों वेब पेजों में नियमित रूप से घूमते रहते हैं। जब रोबोट किसी अन्य साइट से किसी साइट का लिंक ढूंढता है तो वह पहले के लिए जानकारी क्रॉल करना शुरू कर देता है। जानकारी एकत्र करने से पहले सर्च इंजन रोबोट robots.txt फ़ाइल ढूंढते हैं जो उनके लिए एक निर्देश है कि कौन से पृष्ठ क्रॉल करें और कौन से प्रतिबंधित हैं। यदि फ़ाइल उपलब्ध नहीं है या गलत तरीके से रखा गया है तो सभी गोपनीय पृष्ठ सार्वजनिक हो जाएंगे।
किसी साइट के वेब पेजों में रोबोट एक लिंक से दूसरे लिंक पर जाते हैं। यदि पृष्ठ मुख्य पृष्ठ या मुख पृष्ठ से दूर हैं, या कोई लिंक टूटा हुआ है, तो क्रॉलिंग प्रक्रिया रोक दी जाती है या टाल दी जाती है। यही कारण है कि अनाथ पृष्ठ सर्च परिणाम में कभी नहीं आता है। साइट मैप रोबोट को अच्छी तरह से मदद करता है। कभी-कभी हम पाते हैं कि छवियों को क्रॉल नहीं किया गया है। यह समस्या सर्च इंजन रोबोट को दोषपूर्ण छवि टैग के साथ गुमराह करने के कारण होती है। इसलिए रोबोट को केवल सटीक छवि टैग ट्रैक करने दें।
यह पाया गया है कि सर्च इंजन रोबोट किसी वेबसाइट को इंडेक्स नहीं कर रहे हैं। सरल कारण हो सकते हैं। साइटों में फ्लैश, जावास्क्रिप्ट या दोषपूर्ण एचटीएमएल कोडिंग हो सकती है जो रोबोट को पृष्ठों को क्रॉल करने से रोक रही है। किसी भी पृष्ठ से जानकारी प्राप्त करने के बाद, उन्हें एसई डेटाबेस में जमा किया जाता है। कुछ विशेष एल्गोरिदम लागू होते हैं (विभिन्न इंजनों में भिन्न होते हैं) और परिणाम पृष्ठों के लिए दिखाए जाते हैं।
कई बार हम देखते हैं कि हमारे नए अपडेट सर्च परिणाम पृष्ठों में उपलब्ध नहीं हैं। ऐसा इसलिए है क्योंकि रोबोट इंजन द्वारा निर्धारित समय के अनुसार यात्रा करते हैं। यदि भारी ट्रैफ़िक या तकनीकी खराबी के कारण साइटें डाउन हो जाती हैं, तो रोबोट बाद में आते हैं और हम अपडेट को शामिल करते हैं। ये सरल लेकिन अच्छी प्रक्रिया थी जो सर्च इंजन रोबोट काम करते हैं और हम अपनी साइटों को SERP की अच्छी स्थिति में लाते हैं। अंत में हम कह सकते हैं, यह महत्वपूर्ण है कि रोबोट नियमित रूप से हमारी साइट पर आएं। अपनी एकत्रित जानकारी के आधार पर सर्च इंजन हमारी साइटों को उनके एल्गोरिथम से मेल खाते हुए रैंक करते हैं।
सर्च इंजन रोबोट क्या हैं और कैसे काम करते हैं | Search Engine Robots Kya Hai in Hindi
क्या आपको robots.txt फ़ाइल की आवश्यकता है? | is robots.txt important
क्या आपको robots.txt फ़ाइल की आवश्यकता है? जब आपके पास एक छोटी सी साइट होती है, तो आप शायद इस गलत धारणा में होते हैं कि आपको वास्तव में robots.txt फ़ाइल की आवश्यकता नहीं है। वास्तव में, आप स्वयं से कह रहे होंगे, “मुझे robots.txt फ़ाइल की आवश्यकता नहीं है क्योंकि, मेरी साइट छोटी है, सर्च इंजनों के लिए इसे सर्चना आसान है, और चूंकि मैं वैसे भी सभी पृष्ठों को इंडेक्स करना चाहता हूं, तो परेशान क्यों हों।
” शुरुआत में मेरा यही विचार था, साथ ही, मुझे इस बात की जानकारी नहीं थी कि robots.txt फ़ाइल क्या है/है या यह मेरी साइट के लिए क्या कर सकती है। इस प्रकार, मैं आपको एक robots.txt क्या है, उनका उपयोग कैसे करना है, आपको उनकी आवश्यकता क्यों है और robots.txt फ़ाइल बनाने के कुछ बुनियादी निर्देशों के बारे में थोड़ी जानकारी देने का प्रयास करूँगा।
Robot.txt फ़ाइल को परिभाषित करें – शुरू करने के लिए हमें यह जानना होगा कि वेब रोबोट क्या है और क्या नहीं है। इस प्रकार, एक वेब रोबोट को कभी-कभी स्पाइडर या वेब क्रॉलर कहा जाता है। इन्हें आपके सामान्य वेब ब्राउज़र के साथ भ्रमित नहीं होना चाहिए, क्योंकि वेब ब्राउज़र वेब रोबोट नहीं है क्योंकि एक इंसान इसे मैन्युअल रूप से संचालित करता है।
robots.txt फ़ाइल का मुख्य उपयोग रोबोट को यह निर्देश देना है कि वे क्या क्रॉल कर सकते हैं और क्या नहीं। यह आपको रोबोट पर थोड़ा और नियंत्रण देता है। और चूंकि यह आपको रोबोट पर थोड़ा अधिक नियंत्रण देता है, जिसका अर्थ है कि आप विशिष्ट सर्च इंजनों को अनुक्रमण निर्देश जारी कर सकते हैं।
क्या आपको वास्तव में robots.txt फ़ाइल की आवश्यकता है? – क्या आपको वास्तव में robots.txt की आवश्यकता है, भले ही आप किसी रोबोट को बहिष्कृत न कर रहे हों? यह एक अच्छा विचार है। क्यों? सबसे पहले और सबसे महत्वपूर्ण, यह सर्च इंजनों के लिए एक आमंत्रण है। इसके अलावा, यदि आपकी वेबसाइट के शीर्ष स्तर पर robots.txt नहीं बनाया गया है, तो कुछ अच्छे बॉट आपकी वेबसाइट से दूर जा सकते हैं।
कभी-कभी आप कुछ पृष्ठों को सर्च इंजन की नज़र से बाहर करना चाह सकते हैं। किस प्रकार के पृष्ठ?
1. पृष्ठ जो अभी भी निर्माणाधीन हैं
2. निर्देशिकाएँ जिन्हें आप इंडेक्स नहीं करना पसंद करेंगे
3. या आप उन सर्च इंजनों को बाहर करना चाह सकते हैं जिनका एकमात्र उद्देश्य संग्रह करना है
ईमेल पते या आप किसे नहीं अपनी वेबसाइट में क्या दिखाना चाहते हैं।
robots.txt फ़ाइल कैसी दिखती है? – robots.txt फ़ाइल एक साधारण टेक्स्ट फ़ाइल है, जिसे नोटपैड में बनाया जा सकता है। इसे आपकी साइट के रूट डायरेक्टरी में सेव करने की जरूरत है- यानी वह डायरेक्टरी जहां आपका होम पेज या इंडेक्स पेज स्थित है।
एक साधारण robots.txt फ़ाइल बनाने के लिए सभी रोबोटों को आपकी साइट पर जाने की अनुमति देने के लिए आप निम्न जानकारी बना सकते हैं:
User-agent: *
Disallow:
यही बात है। यह सभी रोबोटों को आपके सभी पृष्ठों को इंडेक्स करने की अनुमति देगा।
यदि आप नहीं चाहते कि किसी विशिष्ट रोबोट की आपके किसी भी पृष्ठ तक पहुंच हो, तो आप निम्न कार्य कर सकते हैं:
User-agent: specificbadbot
Disallow: /
यहां आपको रोबोट या विशिष्ट सबस्ट्रिंग का नाम देना होगा। और आपको “/” की आवश्यकता होगी क्योंकि इसका अर्थ है “सभी निर्देशिकाएं”।
उदाहरण के लिए, मान लें कि आप नहीं चाहते कि Googlebot “donotenter:” नामक पृष्ठ को इंडेक्स करे और आपकी निर्देशिका “nogoprivate” है। अस्वीकृत अनुभाग में आप डालेंगे:
User-agent: Googlebot
Disallow: /nogoprivate/donotenter.html
अब यदि यह एक पूर्ण निर्देशिका है जिसे आप इंडेक्स नहीं करना चाहते हैं तो आप डालेंगे:
User-agent: Googlebot
Disallow: /nogoprivate/
फॉरवर्ड स्लैशिंग को शुरुआत में और अंत में डालकर, आप सर्च इंजन को किसी भी निर्देशिका को शामिल न करने के लिए कहते हैं।
सर्च इंजन रोबोट को समझना | Search Engine Robots
अगर मैंने रोबोट के बारे में एक चीज सीखी है, तो वह यह है कि उनके लिए बिल्कुल कोई पैटर्न नहीं है। अधिकांश रोबोट अपने मन होते हैं और बेतरतीब ढंग से घूमते हैं।
उदाहरण के लिए, 50% रोबोट मेरी साइटों पर हिट करते हैं, robots.txt पृष्ठ मांगते हैं और फिर चले जाते हैं और कुछ भी नहीं मांगते हैं। फिर वे एक हफ्ते बाद वापस आते हैं, वही चीज़ माँगते हैं और फिर चले जाते हैं। ऐसा महीनों तक बार-बार होता है। मैंने कभी इसका पता नहीं लगाया। वे क्या कर रहे हैं? अगर वे देखना चाहते थे कि क्या वेबसाइट वास्तव में एक वेब साइट है, तो वे इसे केवल पिंग कर सकते हैं। यह बहुत तेज और बहुत अधिक कुशल होगा। वे शायद ही कभी किसी अन्य पृष्ठ पर जाते हैं और यदि वे ऐसा करते हैं, तो वे प्रत्येक विज़िट पर एक और पृष्ठ मांगते हैं।
कुछ आते हैं और वेबसाइट के हर पेज के लिए रैपिड-फायर अनुरोध जारी करते हैं। कैसे अशिष्ट हैं! आपको रोबोट के बारे में इतनी चिंता छोड़नी होगी। आपको कोई अच्छा काम करने के लिए पर्याप्त पृष्ठों का अनुरोध करने में उन्हें 6 महीने लगते हैं। मैंने वास्तव में बहुत समय पहले उनके बारे में सोचना छोड़ दिया था। बहुत सारे पृष्ठ सही ढंग से बनाएं और, यदि आपके पास उनके पारस्परिक लिंक हैं, तो रोबोट उन्हें किसी दिन ढूंढ लेंगे।
इसे आज़माएं: अल्टाविस्टा पर जाएं और सर्च बॉक्स में टाइप करें लिंक:YourSite.com (www को छोड़ दें)। यह आपकी वेब साइट के पारस्परिक लिंक को सूचीबद्ध करेगा। लिंक आज़माएं:crownjewels.com और आपको इसके 136 लिंक मिलते हैं। इसके बारे में अभी सोचें: रोबोट खुद से कहते हैं, “यहां एक साइट है जो लोकप्रिय होनी चाहिए या इसके समान कई वेबसाइटों के लिंक उनके पृष्ठों पर क्यों होंगे?” याद रखें कि केवल समान थीम वाली SIMILAR साइटों में ही आपकी साइट का लिंक हो सकता है। आप उन्हें अपना लिंक सबमिट करने की तुलना में वे इसे अधिक महत्व देते हैं। आप नहीं करेंगे?
अपनी वेब साइट की थीम से मेल खाने वाली भारी तस्करी वाली साइटों पर जाएं और यह पता लगाने के लिए कि उनके पास कितने पारस्परिक लिंक हैं, अल्टाविस्टा का उपयोग करें। यह आपको साबित करेगा कि मैं सही हूं।
सर्च इंजन आपकी साइट के पारस्परिक लिंक से ज्यादा कुछ नहीं हैं। समस्या यह है कि, आपको सर्च क्वेरी सूची में अपनी स्थिति के लिए लगातार संघर्ष करना पड़ रहा है। उस के बारे में भूल जाओ। लड़ाई उन लोगों पर छोड़ दो जो हर किसी को बरगलाने की कोशिश में 24 घंटे एक दिन बिताने में सक्षम हैं। अपनी मार्केटिंग में लाखों रुपये डालने वाले बड़े संगठनों के साथ प्रतिस्पर्धा करने की कोशिश करना छोड़ दें।
उन्हें सबमिट करने के बाद सर्च इंजन के बारे में पूरी तरह से भूल जाएं और पारस्परिक लिंक के बाद जाएं। तब सर्च इंजन विश्वास करेंगे कि आप एक अत्यधिक देखी जाने वाली साइट हैं क्योंकि आप होंगे। अब आपको वह ट्रैफ़िक प्राप्त होगा जिसके आप बहुत अधिक हकदार हैं।
आपकी साइट पर सर्च इंजन विज़िटर, अक्सर-कई बार योग्य विज़िटर नहीं होते हैं। आपके होम पेज पर 2 सेकंड के लिए बहुत से विज़िटर आते हैं और फिर चले जाते हैं। आप जानते हैं कि यह कैसा है। हम सभी ऐसा तब करते हैं जब हम सर्च इंजन का उपयोग कर रहे होते हैं। या तो यह वह जानकारी नहीं थी जिसकी हम तलाश कर रहे थे, या उनके पास इस बेवकूफ पोर्टल पेज पर इतना बड़ा ग्राफिक था, जिसे लोड होने में हमेशा के लिए लग गया।
इन विज़िटर की गिनती भी नहीं होनी चाहिए, लेकिन आपके सर्वर लॉग में इनकी गिनती 12-18 हिट के रूप में की जाती है. हिट सर्वर के लिए अनुरोध हैं। एक पृष्ठ अनुरोध में बहुत अधिक हिट हो सकती हैं: पृष्ठ के लिए अनुरोध और साथ ही ग्राफ़िक्स, प्रत्येक को हिट के रूप में गिना जाता है।
पारस्परिक लिंक योग्य आगंतुकों को लाते हैं। ये वे विज़िटर हैं जो पहले से ही आपकी वेबसाइट से मेल खाने वाली थीम वाली वेब साइट पर थे। उन्हें पहले से ही इस बात का अच्छा अंदाजा है कि आप किस प्रकार की साइट हैं। वे आपकी साइट पर आएंगे और वास्तव में थोड़ी देर रुकेंगे। इन आगंतुकों को दोहरे क्रेडिट के रूप में गिना जाना चाहिए, वे बहुत अच्छे हैं।
मुझे पता है कि मेरे पास किस प्रकार का आगंतुक होगा- आप लोगों को अपनी वेब साइटों पर अपना लिंक डालने के लिए कैसे प्रेरित करते हैं? एक समान साइट आपकी साइट का लिंक अपनी साइट पर क्यों रखेगी? सरल, आपके पास समान थीम हैं। आप समान हैं, लेकिन प्रतिस्पर्धा नहीं।
इस रोबोट व्यवहार से सीखने के लिए एक बहुत ही महत्वपूर्ण सबक है। आपको अपनी वेब साइट में नेविगेशन को इतना आसान बनाने की आवश्यकता है कि एक आगंतुक आपके होम पेज के 2 क्लिक के भीतर कोई भी पेज ढूंढ सके। ऐसा करने का एक तरीका छिपे हुए डॉटलिंक्स को स्थापित करना है [डॉटलिंक्स छोटी अवधि हैं जो अन्य पृष्ठों से जुड़ी होती हैं जो वास्तव में आपके पृष्ठ पर ध्यान देने योग्य नहीं होती हैं यदि आप इसे एक अवधि के रूप में रखते हैं।
हालांकि, वे आसानी से मानवीय आंखों से नहीं देखे जा सकते हैं, वे आपकी वेब साइट में एक ऐसी कड़ी हैं जिसका अनुसरण एक रोबोट कर सकता है]। जब आप ऐसा करते हैं, तो रोबोट आपके पृष्ठों को तेज़ी से और अधिक आसानी से ढूंढ सकते हैं।
रोबोट देना जो वे चाहते हैं- तो आप कैसे सर्च इंजन रोबोट आपकी साइट को अन्य सभी लाखों वेबसाइटों की तुलना में बेहतर रेटिंग देते हैं जो एक ही काम करने की कोशिश कर रहे हैं? सरल, उन्हें वह दें जो वे चाहते हैं। आप उन्हें धोखा नहीं दे सकते या उन्हें यह सोचने के लिए मजबूर नहीं कर सकते कि आप अपने से बेहतर हैं। एक रोबोट की नजर से एक यात्रा के बारे में सोचो। वह आमतौर पर वेब पेजों में एम्बेड किए गए लिंक से एक साइट ढूंढता है, फिर पहले पेज से टेक्स्ट लोड करता है।
वह मेटा टैग ढूंढता है और कीवर्ड और विवरण निकालता है। यदि वहां नहीं है तो वह पाठ के पहले 200 या इतने ही अक्षर लेता है और उन्हें विवरण के रूप में उपयोग करता है।
शीर्षक निकाला जाता है – वह पेज से शुद्ध टेक्स्ट निकालता है (एचटीएमएल कोडिंग को हटा देता है)। वह सामान्य शब्दों को निकाल देता है, जो उसे लगता है कि कीवर्ड हो सकता है। (अधिकांश यह अंतिम चरण नहीं करते हैं।)
अब वह उन हाइपरलिंक्स को निकालता है जो उन्हें इस वेबसाइट से संबंधित हैं और जो नहीं हैं (वह बाद में इन पर जाते हैं क्योंकि इस तरह उन्हें नई वेबसाइटें मिलती हैं)।
वह ईमेल पतों के साथ भी ऐसा ही कर सकता है। वह अगले पृष्ठ पर जाता है और इसी तरह जब तक वह आपकी वेब साइट के सभी पृष्ठों पर नहीं जाता है। अब वे इस सारी जानकारी को स्टोर कर लेते हैं।
अब वह जानता है कि आपके पास कितने पृष्ठ हैं, आपकी साइट में कितने ‘बाहरी हाइपरलिंक’ हैं, और यह आपकी साइट को कैसे सेट किया जाता है, इसके आधार पर स्कोर दे सकता है। ये मूल बातें हैं।
वे जानकारी के साथ क्या करते हैं? जब कोई वाक्यांश या कीवर्ड सर्चने के लिए आता है, तो दूसरा सर्च रूटीन प्रोग्राम रोबोट को मिली जानकारी का उपयोग करके लेता है। एक व्यक्ति सर्चशब्दों में टाइप करता है और सर्च कार्यक्रम उनके सर्चशब्दों से मेल खाने वाले 256,000 पृष्ठ लौटाता है। लेकिन वे निम्नलिखित पर भी विचार करते हैं: वेबसाइट कितनी पुरानी है या इंजन को इसके बारे में कितने समय से पता है? वेबसाइट कितनी बड़ी है? क्या यह ठीक से बनाया गया था? बाहरी वेबसाइटों के लिए कितने हाइपरलिंक हैं?
इस साइट के अन्य वेबसाइटों पर कितने हाइपरलिंक स्थित हैं। वेबसाइट जितनी पुरानी और बेहतर होगी, उससे उतने ही अधिक लिंक होंगे। ये रोबोट जानते हैं कि आप कब धोखा दे रहे हैं। आप उन्हें बरगला नहीं सकते। रोबोट डेवलपर के लिए ट्रिक्स को नकारने के लिए कोड को शामिल करना इतना आसान है। प्रति पृष्ठ केवल एक या दो बार कीवर्ड स्कोर करने के बारे में या मेटा, शीर्षक, आदि जैसे क्षेत्र के बारे में क्या?
- क्या यह पृष्ठ आकार में अन्य सभी पोर्टल पृष्ठों के आकार के करीब है?
- एक ही निर्देशिका में कितने वेब पेजों में “इंडेक्स” शब्द है?
- क्या इस साइट में बहुत सारी सामग्री है?
- क्या बाहरी साइटों के लिंक हैं?
प्रत्येक पृष्ठ की जाँच की जा सकती है और तुलना की जा सकती है कि रोबोट को क्या लगता है कि यह सांख्यिकीय रूप से सामान्य पृष्ठ है। ये ऐसे कंप्यूटर हैं जिन्हें आप जानते हैं।