के साथ कई फ़ाइलों को लिखना मैं स्क्रैप के साथ एक वेबसाइट स्क्रैप कर रहा हूं और परिणाम को दो भागों में विभाजित करना चाहता हूं। आम तौर पर मैं इस प्रकार स्केपर को कॉल करता हूं:स्केपर
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
दो मकड़ियों पूरी तरह से स्वतंत्र हैं और बिल्कुल संवाद नहीं करते हैं। यह सेटअप छोटी वेबसाइटों के लिए काम करता है, लेकिन बड़ी वेबसाइटों के पास इस तरह क्रॉल करने के लिए मेरे बहुत सारे लेखक हैं।
मेरे पास articles
स्पाइडर authors
स्पाइडर को बताएगा कि कौन से पृष्ठ इस दो-फ़ाइल संरचना को क्रॉल और बनाए रखने के लिए हैं? आदर्श रूप से, मैं लेखक को यूआरएल को फाइल में नहीं लिखूंगा और फिर इसे अन्य मकड़ी के साथ वापस पढ़ूंगा।
मुझे लगता है कि समस्या फाइलों का आकार होगी। यह समाधान बहुत अच्छी तरह से स्केल नहीं करेगा (जैसा कि मुझे यकीन है कि आपने पहले ही देखा है)। क्या आप इसके लिए डेटाबेस या स्टोर के बारे में हैं? इसके लिए कुछ स्कीमा-कम समाधान मेरे दिमाग में आएगा। मुझे नहीं लगता कि आप केवल 2 बड़ी फाइलों से खुश होंगे। – DrColossos