खोज इंजन बॉट्स प्रारंभिक बिंदु के रूप में क्या उपयोग करते हैं? क्या यह DNS लुक-अप है या क्या वे अच्छी तरह से ज्ञात साइटों की कुछ निश्चित सूची से शुरू करते हैं? कोई अनुमान या सुझाव? यह आप अपने सिस्टम में मिल जाएगा -खोज इंजन कहां क्रॉल करना शुरू करते हैं?
उत्तर
आपका प्रश्न को दो तरह से व्याख्या की जा सकती:
आप पूछ रहे हैं जहां खोज इंजन सामान्य रूप में से अपनी क्रॉल प्रारंभ करें, या जहां वे एक विशेष साइट को क्रॉल करने शुरू?
मुझे नहीं पता कि बड़े खिलाड़ी कैसे काम करते हैं; लेकिन अगर आप अपना खुद का खोज इंजन बनाना चाहते हैं तो आप शायद लोकप्रिय पोर्टल साइटों के साथ बीज लेंगे। DMOZ.org एक लोकप्रिय प्रारंभिक बिंदु प्रतीत होता है। चूंकि बड़े खिलाड़ियों के पास हमारे मुकाबले बहुत अधिक डेटा है, इसलिए वे संभवतः विभिन्न स्थानों से अपनी क्रॉल शुरू करते हैं।
यदि आप पूछ रहे हैं, जहां एक एसई अपने विशेष साइट को क्रॉल करने शुरू होता है, यह शायद अपने पृष्ठों में से किसके साथ सबसे अधिक लोकप्रिय हैं करने के लिए एक बहुत है। मुझे कल्पना है कि यदि आपके पास एक सुपर लोकप्रिय पृष्ठ है जो कई अन्य साइटें लिंक करता है, तो यह वह पृष्ठ होगा जो एसईएस शुरू होता है, क्योंकि अन्य साइटों से बहुत अधिक प्रवेश बिंदु हैं।
ध्यान दें कि मैं एसईओ या कुछ भी नहीं हूं; मैंने एक परियोजना के लिए थोड़ी देर के लिए बॉट और एसई यातायात का अध्ययन किया था जिस पर मैं काम कर रहा था।
आप अपने site submission forms का उपयोग कर खोज इंजन के लिए अपनी साइट सबमिट कर सकते हैं। जब आप वास्तव में क्रॉल हो जाते हैं तो कहने के लिए असंभव होता है - अनुभव से यह आमतौर पर प्रारंभिक क्रॉल (होमपेज, अन्य पृष्ठों के दो लिंक 1-लिंक से) के लिए लगभग एक सप्ताह या उससे अधिक होता है। आप स्पष्ट कर सकते हैं कि आपके कितने पेज स्पष्ट अर्थपूर्ण लिंक संरचना का उपयोग करके क्रॉल और अनुक्रमित हो जाते हैं और sitemap सबमिट करते हैं - ये आपको अपने सभी पृष्ठों को सूचीबद्ध करने की अनुमति देते हैं, और उन्हें एक दूसरे के सापेक्ष वजन देते हैं, जो खोज इंजन को समझने में सहायता करता है कि आप कितना महत्वपूर्ण देखते हैं दूसरों के सापेक्ष साइट के प्रत्येक भाग।
यदि आपकी साइट अन्य क्रॉल वेबसाइटों से जुड़ा हुआ है, तो आपकी साइट भी क्रॉल किया जाएगा, लिंक किए गए पृष्ठ के साथ शुरू, और अंत में अपनी साइट के आराम करने के प्रसार। इसमें काफी समय लग सकता है, और लिंकिंग साइटों की क्रॉल आवृत्ति पर निर्भर करता है, इसलिए यूआरएल सबमिशन आपके बारे में Google को जाने का सबसे तेज़ तरीका है!
एक उपकरण मैं अत्यधिक पर्याप्त की अनुशंसा नहीं कर सकते हैं Google Webmaster Tool है। यह आपको यह देखने की अनुमति देता है कि आपको कितनी बार क्रॉल किया गया है, Googlebot में किसी भी त्रुटि को तोड़ दिया गया है (टूटी हुई लिंक, आदि) और इसमें कई अन्य उपयोगी टूल हैं।
सिद्धांत रूप में वे कुछ भी नहीं शुरू करते हैं। केवल जब कोई स्पष्ट रूप से उन्हें अपनी वेबसाइट शामिल करने के लिए कहता है तो वे इस साइट को क्रॉल करना शुरू कर सकते हैं और अधिक साइट खोजने के लिए उस साइट के लिंक का उपयोग कर सकते हैं।
हालाँकि, व्यवहार में एक खोज इंजन के निर्माता (रों) कुछ मनमाना साइटों वे सोच सकते हैं में डाल देंगे। उदाहरण के लिए, उनके अपने ब्लॉग या उनके बुकमार्क में साइटें हैं।
सिद्धांत रूप में एक भी बस कुछ यादृच्छिक adresses लेने और अगर वहाँ एक वेबसाइट है देख सकता था। मुझे संदेह है कि कोई भी ऐसा करता है; उपर्युक्त विधि ठीक काम करेगी और खोज इंजन को बूटस्ट्रैप करने के लिए अतिरिक्त कोडिंग की आवश्यकता नहीं है।
यह प्रश्न ऑफ-विषय प्रतीत होता है क्योंकि यह प्रोग्रामिंग के बारे में नहीं है। सहायता केंद्र में [मैं यहां कौन से विषय पूछ सकता हूं] (http://stackoverflow.com/help/on-topic) देखें। शायद [वेब एप्स स्टैक एक्सचेंज] (http://webapps.stackexchange.com/) पूछने के लिए एक बेहतर जगह होगी। – jww