का उपयोग करके नेस्टेड 'img src' निकालें मैं उस मामले के लिए स्केपर या पायथन का उपयोग करने के लिए अपेक्षाकृत नया हूं। मैं कुछ अलग लिंक से निकालने के लिए देख रहा हूं और मुझे HTMLXPathSelector अभिव्यक्ति (वाक्यविन्यास) का उपयोग करने में समस्याएं आ रही हैं। मैंने उचित वाक्यविन्यास के लिए व्यापक दस्तावेज देखा है लेकिन अभी तक समाधान का पता लगाना बाकी है।स्कैरेपी - xPathSelector
Page I am trying to extract the img src url from
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class GeekSpider(BaseSpider):
name = "geekS"
allowed_domains = ["geek.com"]
start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
imgurl = hxs.select("//div[@class='article']//a/img/@src").extract()
return imgurl
मुझे लगता है मैं x.select वाक्य विन्यास पता लगा है:
यहाँ एक कड़ी का एक उदाहरण मैं से 'img src' निकालने के लिए कोशिश कर रहा हूँ है बयान लेकिन, क्योंकि मैं इस वाक्यविन्यास/विधि में नया हूं, मुझे यकीन नहीं है।
from scrapy.item import Item, Field
class GeekItem(Item):
imgsrc = Field()
स्पष्ट करने के लिए: मुझे क्या करना रहा हूँ img src यूआरएल पृष्ठ पर है कि निकालने है
यहाँ मेरी items.py फ़ाइल है, मूल रूप से इस बात के लिए scrapy ट्यूटोरियल का पालन किया। मुझे सभी छवि स्रोतों को निकालने की आवश्यकता नहीं है जिन्हें मैंने पहले से ही समझा है (बहुत आसान)।
मैं इसे कम करने के लिए देख रहा हूं और केवल img src के उस विशेष यूआरएल को निकालने के लिए देख रहा हूं। (मैं इस साइट पर कई पृष्ठों पर इसका उपयोग करूँगा)
किसी भी मदद की बहुत सराहना की जाती है!
संपादित करें - Updated कोड मैं गीक = गीक के साथ कुछ वाक्यविन्यास त्रुटियों हो रही थी() तो मैं यह करने के लिए हल्के से बदल दिया उम्मीद है कि आसान हो समझते हैं और कार्य करने के लिए
तो तुम केवल छवि है कि एक क्लिक करने योग्य लिंक (यानी "Kindle आग-hd.jpg") है करना चाहते हैं? – Talvalin
हां, बिल्कुल। मैं छवि को खुद ही वापस नहीं करना चाहता, बस छवि के लिए यूआरएल ताकि मैं इसे स्टोर कर सकूं। – Twhyler
भ्रम से बचने के लिए, कृपया पोस्ट किया गया पहला स्पाइडर कोड अपडेट करें और दूसरा हटाएं। :) – Talvalin