scrapy

35गर्मी

4उत्तर

में यूआरएल के आधार पर डुप्लिकेट अनुरोधों को फ़िल्टर करने के लिए कैसे करें मैं क्रॉलस्पीडर के साथ स्केपर का उपयोग कर वेबसाइट के लिए क्रॉलर लिख रहा हूं। स्केपर एक अंतर्निहित डुप्लिकेट-अनुरोध फ़िल्टर प्र

5गर्मी

2उत्तर

कैसे अपनी दस्तावेज़ीकरण यहाँ <a href="http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#cookies-mw">http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#cookies-mw</a></p> <p>में अजगर

में scrapy में cookiemiddleware सक्षम करने के लिए वे कुकी बीच सक्षम करने के लिए कहा था, लेकिन मैं ऐसा करने के लिए कैसे और जो फ़ाइल है कि के लिए संपादित करने के लिए प्राप्त करने में सक्षम नहीं हूँ। क्य

7गर्मी

1उत्तर

स्केपर क्रॉलिंग स्पीड धीमा है (60 पेज/मिनट)

मुझे स्केपर (लगभग 1 पृष्ठ/सेकंड) के साथ धीमी क्रॉल गति का सामना करना पड़ रहा है। मैं aws सर्वर से एक प्रमुख वेबसाइट क्रॉल कर रहा हूं इसलिए मुझे यह नेटवर्क समस्या नहीं है। सीपीयू उपयोग 100 के करीब कहीं

15गर्मी

3उत्तर

स्क्रैप - चुपचाप एक आइटम

मैं कई वेबसाइटों को क्रॉल करने के लिए स्केपर का उपयोग कर रहा हूं, जो अनावश्यक जानकारी साझा कर सकता है। प्रत्येक पृष्ठ के लिए मैं स्क्रैप करता हूं, मैं पृष्ठ का यूआरएल, इसका शीर्षक और इसका HTML कोड, mo

8गर्मी

1उत्तर

स्केपर ट्यूटोरियल अपवाद

मैं http://media.readthedocs.org/pdf/scrapy/0.14/scrapy.pdf पर स्केपर ट्यूटोरियल प्रलेखन का पालन कर रहा हूं और मैंने सत्यापित किया है कि items.py और dmoz_spider.py टाइप किए गए हैं (& पेस्ट नहीं किया ग

21गर्मी

3उत्तर

scrapy को पार्स आइटम कि पृष्ठवार हैं

मैं प्रपत्र की एक यूआरएल है। मैं मूल रूप से सभी पृष्ठों से सभी पंक्तियां प्राप्त करना चाहता हूं, यानी ~ 53 * 20 आइटम। मैं अपने पार्स विधि में कोड काम कर रहा है, कि एक ही पृष्ठ को पार्स करता है, और यह

5गर्मी

1उत्तर

Scrapy सेटिंग्स

मैं चीनी में पृष्ठों डाउनलोड करना चाहते नहीं बदल सके, तो मैं कमांड लाइन और अजगर खोला, और इन कोड from scrapy.conf import settings settings.overrides['DEFAULT_REQUEST_HEADERS'] = {'Accept':'text/heml,a

5गर्मी

1उत्तर

स्पाइडर_क्लोज़ सिग्नल भेजे जाने से ठीक पहले पाइथन स्कैपर फ़ंक्शन को कॉल किया जाना चाहिए?

मैंने स्केपर का उपयोग करके एक मकड़ी लिखी, जो साइट्स को अलग करने के लिए HtmlXPathSelector अनुरोधों का पूरा समूह बनाता है। प्रत्येक अनुरोध (असीमित रूप से) संतुष्ट होने के बाद यह एक .csv फ़ाइल में डेटा क

7गर्मी

4उत्तर

स्कैपर रेफरर यूआरएल

को सेट करने के लिए कैसे करें, मुझे साइट को स्क्रैप करने से पहले रेफरर यूआरएल सेट करने की आवश्यकता है, साइट यूआरएल आधारित प्रमाणीकरण को रेफरिंग का उपयोग करती है, इसलिए अगर रेफरर मान्य नहीं है तो यह मुझ

5गर्मी

1उत्तर

मैं स्कैर की डाउनलोड गति में सुधार कैसे करूं?

मैं समानांतर में कई अलग-अलग डोमेन से पृष्ठों को डाउनलोड करने के लिए स्केपर का उपयोग कर रहा हूं। मेरे पास डाउनलोड करने के लिए सैकड़ों हजारों पेज हैं, इसलिए प्रदर्शन महत्वपूर्ण है। दुर्भाग्यवश, जैसा कि