मेरा पहला प्रश्न यहां :)स्केपर के साथ किसी वेबपृष्ठ के सभी लिंक क्रॉल करने का प्रयास कर रहा है। लेकिन मैं किसी पृष्ठ पर लिंक आउटपुट नहीं कर सकता
मैं अपने स्कूल की वेबसाइट को सभी संभावित वेबपृष्ठों के लिए क्रॉल करने की कोशिश कर रहा था। लेकिन मुझे एक टेक्स्ट फ़ाइल में लिंक नहीं मिल सकते हैं। मेरे पास सही अनुमतियां हैं, इसलिए यह समस्या नहीं है।
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
class hsleidenSpider(CrawlSpider):
name = "hsleiden1"
allowed_domains = ["hsleiden.nl"]
start_urls = ["http://hsleiden.nl"]
# allow=() is used to match all links
rules = [
Rule(SgmlLinkExtractor(allow=()), follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self, response):
x = HtmlXPathSelector(response)
filename = "hsleiden-output.txt"
open(filename, 'ab').write(response.url)
तो मैं केवल hsleiden.nl पृष्ठ पर स्कैनिंग कर रहा हूं। और मैं textfile hsleiden-output.txt में respond.url करना चाहता हूं।
क्या यह अधिकार करने का कोई तरीका है?
कृपया अपनी समस्या के बारे में विशिष्ट रहें। आप क्या होने की उम्मीद करते हैं? इसके बजाय क्या हो रहा है? – Sheena
अगर मैं आपका कोड उधार लेना चाहता था, तो मैं इसे कैसे कॉल करूं? –