खोज इंजन कहां क्रॉल करना शुरू करते हैं?

खोज इंजन बॉट्स प्रारंभिक बिंदु के रूप में क्या उपयोग करते हैं? क्या यह DNS लुक-अप है या क्या वे अच्छी तरह से ज्ञात साइटों की कुछ निश्चित सूची से शुरू करते हैं? कोई अनुमान या सुझाव? यह आप अपने सिस्टम में मिल जाएगा -खोज इंजन कहां क्रॉल करना शुरू करते हैं?

स्रोत

2008-09-03 Agnel Kurian

यह प्रश्न ऑफ-विषय प्रतीत होता है क्योंकि यह प्रोग्रामिंग के बारे में नहीं है। सहायता केंद्र में [मैं यहां कौन से विषय पूछ सकता हूं] (http://stackoverflow.com/help/on-topic) देखें। शायद [वेब एप्स स्टैक एक्सचेंज] (http://webapps.stackexchange.com/) पूछने के लिए एक बेहतर जगह होगी। – jww

आपका प्रश्न को दो तरह से व्याख्या की जा सकती:

आप पूछ रहे हैं जहां खोज इंजन सामान्य रूप में से अपनी क्रॉल प्रारंभ करें, या जहां वे एक विशेष साइट को क्रॉल करने शुरू?

मुझे नहीं पता कि बड़े खिलाड़ी कैसे काम करते हैं; लेकिन अगर आप अपना खुद का खोज इंजन बनाना चाहते हैं तो आप शायद लोकप्रिय पोर्टल साइटों के साथ बीज लेंगे। DMOZ.org एक लोकप्रिय प्रारंभिक बिंदु प्रतीत होता है। चूंकि बड़े खिलाड़ियों के पास हमारे मुकाबले बहुत अधिक डेटा है, इसलिए वे संभवतः विभिन्न स्थानों से अपनी क्रॉल शुरू करते हैं।

यदि आप पूछ रहे हैं, जहां एक एसई अपने विशेष साइट को क्रॉल करने शुरू होता है, यह शायद अपने पृष्ठों में से किसके साथ सबसे अधिक लोकप्रिय हैं करने के लिए एक बहुत है। मुझे कल्पना है कि यदि आपके पास एक सुपर लोकप्रिय पृष्ठ है जो कई अन्य साइटें लिंक करता है, तो यह वह पृष्ठ होगा जो एसईएस शुरू होता है, क्योंकि अन्य साइटों से बहुत अधिक प्रवेश बिंदु हैं।

ध्यान दें कि मैं एसईओ या कुछ भी नहीं हूं; मैंने एक परियोजना के लिए थोड़ी देर के लिए बॉट और एसई यातायात का अध्ययन किया था जिस पर मैं काम कर रहा था।

स्रोत

2008-09-03 11:07:26

आप अपने site submission forms का उपयोग कर खोज इंजन के लिए अपनी साइट सबमिट कर सकते हैं। जब आप वास्तव में क्रॉल हो जाते हैं तो कहने के लिए असंभव होता है - अनुभव से यह आमतौर पर प्रारंभिक क्रॉल (होमपेज, अन्य पृष्ठों के दो लिंक 1-लिंक से) के लिए लगभग एक सप्ताह या उससे अधिक होता है। आप स्पष्ट कर सकते हैं कि आपके कितने पेज स्पष्ट अर्थपूर्ण लिंक संरचना का उपयोग करके क्रॉल और अनुक्रमित हो जाते हैं और sitemap सबमिट करते हैं - ये आपको अपने सभी पृष्ठों को सूचीबद्ध करने की अनुमति देते हैं, और उन्हें एक दूसरे के सापेक्ष वजन देते हैं, जो खोज इंजन को समझने में सहायता करता है कि आप कितना महत्वपूर्ण देखते हैं दूसरों के सापेक्ष साइट के प्रत्येक भाग।

यदि आपकी साइट अन्य क्रॉल वेबसाइटों से जुड़ा हुआ है, तो आपकी साइट भी क्रॉल किया जाएगा, लिंक किए गए पृष्ठ के साथ शुरू, और अंत में अपनी साइट के आराम करने के प्रसार। इसमें काफी समय लग सकता है, और लिंकिंग साइटों की क्रॉल आवृत्ति पर निर्भर करता है, इसलिए यूआरएल सबमिशन आपके बारे में Google को जाने का सबसे तेज़ तरीका है!

एक उपकरण मैं अत्यधिक पर्याप्त की अनुशंसा नहीं कर सकते हैं Google Webmaster Tool है। यह आपको यह देखने की अनुमति देता है कि आपको कितनी बार क्रॉल किया गया है, Googlebot में किसी भी त्रुटि को तोड़ दिया गया है (टूटी हुई लिंक, आदि) और इसमें कई अन्य उपयोगी टूल हैं।

स्रोत

2008-09-03 10:55:09 ConroyP

सिद्धांत रूप में वे कुछ भी नहीं शुरू करते हैं। केवल जब कोई स्पष्ट रूप से उन्हें अपनी वेबसाइट शामिल करने के लिए कहता है तो वे इस साइट को क्रॉल करना शुरू कर सकते हैं और अधिक साइट खोजने के लिए उस साइट के लिंक का उपयोग कर सकते हैं।

हालाँकि, व्यवहार में एक खोज इंजन के निर्माता (रों) कुछ मनमाना साइटों वे सोच सकते हैं में डाल देंगे। उदाहरण के लिए, उनके अपने ब्लॉग या उनके बुकमार्क में साइटें हैं।

सिद्धांत रूप में एक भी बस कुछ यादृच्छिक adresses लेने और अगर वहाँ एक वेबसाइट है देख सकता था। मुझे संदेह है कि कोई भी ऐसा करता है; उपर्युक्त विधि ठीक काम करेगी और खोज इंजन को बूटस्ट्रैप करने के लिए अतिरिक्त कोडिंग की आवश्यकता नहीं है।

स्रोत

2008-09-03 11:00:49 mweerden

खोज इंजन कहां क्रॉल करना शुरू करते हैं?

उत्तर

संबंधित मुद्दे