मैं नहीं चाहता कि खोज इंजन मेरे छापे पृष्ठ को अनुक्रमित करें। ऐसा कैसे किया जा सकता था?खोज इंजन को मेरी वेबसाइट के एक पृष्ठ को अनुक्रमणित करने से कैसे रोकें?
उत्तर
आपको एक साधारण robots.txt
फ़ाइल की आवश्यकता है। असल में, यह एक टेक्स्ट फ़ाइल है जो खोज इंजन को बताती है कि विशेष पृष्ठों को अनुक्रमणित न करें।
आपको इसे अपने पृष्ठ के शीर्षलेख में शामिल करने की आवश्यकता नहीं है; जब तक यह आपकी वेबसाइट की मूल निर्देशिका में है, तब तक इसे क्रॉलर द्वारा उठाया जाएगा।
अपनी वेबसाइट के रूट फ़ोल्डर में यह बनाएँ और में निम्नलिखित पाठ डाल:
User-Agent: *
Disallow: /imprint-page.htm
ध्यान दें कि आप पेज का वास्तविक नाम (या निर्देशिका) के साथ उदाहरण में imprint-page.html
की जगह चाहते हैं कि आप चाहते हैं अनुक्रमित होने से बचने के लिए।
यही है! यदि आप अधिक उन्नत प्राप्त करना चाहते हैं, तो आप बहुत अधिक जानकारी के लिए here, here, या here देख सकते हैं। साथ ही, आप ऑनलाइन मुफ्त टूल ढूंढ सकते हैं जो आपके लिए robots.txt
फ़ाइल उत्पन्न करेंगे (उदाहरण के लिए, here)।
यहां एक अच्छा ट्यूटोरियल है: http://www.javascriptkit.com/howto/robots.shtml –
धन्यवाद सैम! अन्य ट्यूटोरियल के बगल में अपना लिंक जोड़ा गया। – Donut
बहुत बहुत धन्यवाद! क्या मुझे हेडर में कहीं robots.txt शामिल करना चाहिए? या यह सिर्फ वेबसाइट की जड़ में छोड़ने के लिए पर्याप्त है? –
आप कुछ निर्देशिकाओं को अनदेखा करने के लिए खोज इंजन को आजमाने और बताने के लिए robots.txt फ़ाइल सेट अप कर सकते हैं।
मूल रूप से:
User-agent: *
Disallow: /[directory or file here]
इसके अलावा, आप उस पृष्ठ
<meta name="robots" content="noindex,nofollow" />
अच्छा विचार। यह अतिरिक्त रूप से किया था। –
robots.txt का उपयोग करने से यह एक बेहतर समाधान है। कारण यह है कि, यदि आप पृष्ठ को robots.txt करते हैं, तो खोज इंजन पृष्ठ पर भी नहीं जाएंगे। यदि पृष्ठ पर इंगित लिंक हैं, तो वे इसे इंडेक्स से नहीं हटाएंगे क्योंकि आपने उन्हें नहीं बताया है। Google विवरण के बिना पृष्ठ दिखाएगा, क्योंकि वे पृष्ठ के बारे में जानते हैं लेकिन पृष्ठ पर क्या नहीं जानते हैं। इंडेक्स से स्पष्ट रूप से इसे हटाने का एकमात्र तरीका उन इंजनों को बताना है जिन्हें आप नहीं चाहते हैं कि यह 'नोंडेक्स' कमांड के साथ प्रदर्शित हो। – eywu
यह समस्या का एक सा है (कोडिंग के लिए बहुत अधिक समय) यदि सिर को गतिशील रूप से सर्वर-साइड भाषा जैसे PHP के रूप में शामिल किया गया है, जो सभी पृष्ठों के लिए समान होगा। –
एक robots.txt फ़ाइल बनाएँ और वहाँ नियंत्रण स्थापित की प्रमुख में मेटा टैग निम्नलिखित जोड़ सकते हैं।
यहाँ गूगल डॉक्स के लिए कर रहे हैं: अपने <html>
में
<meta name="robots" content="noindex, follow">
आजकल, सबसे अच्छा तरीका noindex,follow
करने के लिए एक robots meta tag उपयोग करें और यह स्थापित करने के लिए है <head>
टैग। मैं आपको यह क्यों कह रहा हूं क्योंकि यदि आप अपने यूआरएल को छिपाने के लिए robots.txt फ़ाइल का उपयोग करते हैं जो लॉगिन पेज या अन्य संरक्षित यूआरएल हो सकता है जो आप किसी और या सर्च इंजन को नहीं दिखाएंगे।
मैं क्या कर सकता हूं सिर्फ अपनी वेबसाइट से robots.txt फ़ाइल तक पहुंच रहा है और देख सकता है कि आपके पास कौन से यूआरएल गुप्त हैं। तो इस robots.txt फ़ाइल के पीछे तर्क क्या है?
अच्छा तरीका ऊपर से मेटा टैग शामिल करना और किसी से भी सुरक्षित रखना है।
<meta name="robots" content="noindex, nofollow">
बस इस लाइन में शामिल हैं: http://code.google.com/web/controlcrawlindex/docs/robots_txt.html
एक रोबोट एक वेब साइट यूआरएल देखना चाहता है, http://www.example.com/welcome.html कहें। इससे पहले कि यह ऐसा नहीं करता है, यह http://www.example.com/robots.txt के लिए चेक बातें पहली बार, और पाता है: आप स्पष्ट रूप से अस्वीकार कर सकते हैं:
User-agent: *
Disallow: /~joe/junk.html
कृपया विवरण robots.txt
https के लिए लिंक नीचे जाएँ: // सीएसएस-चाल।com/snippets/html/meta-tag-to-prevent-search-engine-bots/ – zloctb