2009-04-28 6 views
8

के लिए उचित शिष्टाचार मेरे पास एक वेबसाइट के साइटमैप से सभी पृष्ठों का अनुरोध करने के लिए एक सरल वेब क्रॉलर है जिसे मुझे कैश और इंडेक्स करने की आवश्यकता है। कई अनुरोधों के बाद, वेबसाइट रिक्त पृष्ठों की सेवा शुरू होती है।वेब क्रॉलर http अनुरोध

उनके साइटमैप के लिंक को छोड़कर उनके robots.txt में कुछ भी नहीं है, इसलिए मुझे लगता है कि मैं उनके "नियम" तोड़ नहीं रहा हूं। मेरे पास एक वर्णनात्मक शीर्षलेख है जो मेरे इरादे से बिल्कुल जुड़ा हुआ है, और मेरे द्वारा क्रॉल किए जाने वाले एकमात्र पृष्ठ उनके साइटमैप से हैं।

http स्थिति कोड अभी भी ठीक हैं, इसलिए मैं केवल कल्पना कर सकता हूं कि वे थोड़े समय में बड़ी संख्या में http अनुरोधों को रोक रहे हैं। अनुरोधों के बीच उचित देरी के रूप में क्या माना जाता है?

क्या कोई अन्य विचार है जिसे मैंने अनदेखा किया है जो संभावित रूप से इस समस्या का कारण बन सकता है?

+0

तुम्हारा क्या मतलब है अपने साइटमैप के लिए एक लिंक के अलावा उनकी robots.txt में कोई बात नहीं है? – freespace

+0

अस्वीकार में कोई बात नहीं है, और उनके लिए अनुमति देते है * – Adam

उत्तर

8

प्रत्येक साइट में अलग-अलग क्रॉलर और दुर्व्यवहार की विशेषताएं होती हैं जो इसे दिखती हैं।

किसी भी क्रॉलर की कुंजी मानव गतिविधि का अनुकरण करना और robots.txt का पालन करना है।

एक संपूर्ण क्रॉल कुछ वेबसाइटों की यात्रा करेगा, और आप कितनी धीमी गति से चलते हैं, इस पर ध्यान दिए बिना वे आपको बंद कर देंगे, जबकि कुछ मेजबान क्रॉलर को एक साथ चलने और सब कुछ चूसने पर ध्यान नहीं देते हैं।

  • सामान्य रूप से आप 6 प्रति मिनट (मानव गति के बारे में) से अधिक पृष्ठों का अनुरोध नहीं करना चाहते हैं।
  • वेबपृष्ठ पर दृश्यता के क्रम में आप निम्न लिंक सुरक्षित रहेंगे।
  • वेबपृष्ठ पर दिखाई देने वाले लिंक को अनदेखा करने का प्रयास करें (बहुत से लोग हनीपॉट्स का उपयोग करते हैं)।

यदि अन्य सभी विफल हो जाते हैं, तो प्रति पृष्ठ एक पृष्ठ से अधिक तेज़ी से अनुरोध न करें। इस दर पर एक वेबसाइट ब्लॉक आप, तो उन्हें सीधे संपर्क है - वे स्पष्ट रूप से आपको लगता है कि रास्ते में उनकी सामग्री का उपयोग करने के लिए नहीं करना चाहती।

2

मुझे लगता है कि विकिपीडिया विषय पर a decent reference है। उनका पालन करें और, सौजन्य के लिए, थोड़ा और।

उदाहरण के लिए, मैं शायद अधिकतम कनेक्शन की गति प्रति सेकंड एक हिट पर, या मैं एक अनजाने डॉस हमले के जोखिम होगी होगा चाहते हैं।