scrapy

    35गर्मी

    4उत्तर

    में यूआरएल के आधार पर डुप्लिकेट अनुरोधों को फ़िल्टर करने के लिए कैसे करें मैं क्रॉलस्पीडर के साथ स्केपर का उपयोग कर वेबसाइट के लिए क्रॉलर लिख रहा हूं। स्केपर एक अंतर्निहित डुप्लिकेट-अनुरोध फ़िल्टर प्र

    5गर्मी

    2उत्तर

    में scrapy में cookiemiddleware सक्षम करने के लिए वे कुकी बीच सक्षम करने के लिए कहा था, लेकिन मैं ऐसा करने के लिए कैसे और जो फ़ाइल है कि के लिए संपादित करने के लिए प्राप्त करने में सक्षम नहीं हूँ। क्य

    7गर्मी

    1उत्तर

    मुझे स्केपर (लगभग 1 पृष्ठ/सेकंड) के साथ धीमी क्रॉल गति का सामना करना पड़ रहा है। मैं aws सर्वर से एक प्रमुख वेबसाइट क्रॉल कर रहा हूं इसलिए मुझे यह नेटवर्क समस्या नहीं है। सीपीयू उपयोग 100 के करीब कहीं

    15गर्मी

    3उत्तर

    मैं कई वेबसाइटों को क्रॉल करने के लिए स्केपर का उपयोग कर रहा हूं, जो अनावश्यक जानकारी साझा कर सकता है। प्रत्येक पृष्ठ के लिए मैं स्क्रैप करता हूं, मैं पृष्ठ का यूआरएल, इसका शीर्षक और इसका HTML कोड, mo

    8गर्मी

    1उत्तर

    मैं http://media.readthedocs.org/pdf/scrapy/0.14/scrapy.pdf पर स्केपर ट्यूटोरियल प्रलेखन का पालन कर रहा हूं और मैंने सत्यापित किया है कि items.py और dmoz_spider.py टाइप किए गए हैं (& पेस्ट नहीं किया ग

    21गर्मी

    3उत्तर

    मैं प्रपत्र की एक यूआरएल है। मैं मूल रूप से सभी पृष्ठों से सभी पंक्तियां प्राप्त करना चाहता हूं, यानी ~ 53 * 20 आइटम। मैं अपने पार्स विधि में कोड काम कर रहा है, कि एक ही पृष्ठ को पार्स करता है, और यह

    5गर्मी

    1उत्तर

    मैं चीनी में पृष्ठों डाउनलोड करना चाहते नहीं बदल सके, तो मैं कमांड लाइन और अजगर खोला, और इन कोड from scrapy.conf import settings settings.overrides['DEFAULT_REQUEST_HEADERS'] = {'Accept':'text/heml,a

    5गर्मी

    1उत्तर

    मैंने स्केपर का उपयोग करके एक मकड़ी लिखी, जो साइट्स को अलग करने के लिए HtmlXPathSelector अनुरोधों का पूरा समूह बनाता है। प्रत्येक अनुरोध (असीमित रूप से) संतुष्ट होने के बाद यह एक .csv फ़ाइल में डेटा क

    7गर्मी

    4उत्तर

    को सेट करने के लिए कैसे करें, मुझे साइट को स्क्रैप करने से पहले रेफरर यूआरएल सेट करने की आवश्यकता है, साइट यूआरएल आधारित प्रमाणीकरण को रेफरिंग का उपयोग करती है, इसलिए अगर रेफरर मान्य नहीं है तो यह मुझ

    5गर्मी

    1उत्तर

    मैं समानांतर में कई अलग-अलग डोमेन से पृष्ठों को डाउनलोड करने के लिए स्केपर का उपयोग कर रहा हूं। मेरे पास डाउनलोड करने के लिए सैकड़ों हजारों पेज हैं, इसलिए प्रदर्शन महत्वपूर्ण है। दुर्भाग्यवश, जैसा कि