मेरे पास दो भाग प्रश्न हैं।एक अच्छा नागरिक और वेब-स्क्रैपिंग होने के नाते
सबसे पहले, मैं CrawlSpider स्पाइडर में स्पाइडर के आधार पर एक वेब-स्क्रैपर लिख रहा हूं। मैं एक ऐसी वेबसाइट को स्क्रैप करना चाहता हूं जिसमें कई हजारों (संभवतः सैकड़ों हजारों में) रिकॉर्ड हैं। इन रिकॉर्डों को प्रारंभ पृष्ठ से 2-3 परतों को दफन कर दिया गया है। तो मूल रूप से मेरे पास एक निश्चित पृष्ठ पर मकड़ी शुरू होती है, तब तक क्रॉल करें जब तक कि यह एक विशिष्ट प्रकार का रिकॉर्ड न पाएं, और फिर HTML को पार्स करें। मैं क्या सोच रहा हूं कि मेरे मकड़ी को साइट को अधिभारित करने से रोकने के लिए कौन सी विधियां मौजूद हैं? क्या संभवतया चीज की वृद्धि करने या अलग-अलग अनुरोधों के बीच विराम देने का कोई तरीका है?
दूसरा, और संबंधित, साइट पर अवांछित तनाव डाले बिना क्रॉलर का परीक्षण करने के लिए स्केपर के साथ एक विधि है? मुझे पता है कि जब आप इसे चलाते हैं तो प्रोग्राम को मार सकते हैं, लेकिन क्या पहले पृष्ठ की तरह कुछ मारने के बाद स्क्रिप्ट स्टॉप बनाने का कोई तरीका है जिसमें मैं स्क्रैप करना चाहता हूं?
कोई सलाह या संसाधनों की बहुत सराहना की जाएगी।
बहुत बढ़िया। आपका बहुत बहुत धन्यवाद। – user1074057