के साथ समस्या स्क्रैपिंग मैं इस तकनीक का उपयोग करने से पहले वेबसाइटों को स्क्रैप कर रहा हूं। लेकिन इस वेबसाइट के साथ यह काम नहीं कर रहा है।सुंदर सूप
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
page=urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
print soup
उत्पादन में वेबपेज की सामग्री होना चाहिए, लेकिन इसके बजाय मैं सिर्फ यह हो रही है:
GIF89a
का कोई भी विचार (यह भी कुछ प्रतीकों मैं यहाँ कॉपी नहीं कर सकते इस प्रकार) समस्या क्या है और मुझे कैसे आगे बढ़ना चाहिए।
@ अभिजीत नोट करें कि जैसे ही वे पता लगाते हैं कि आप साइट को स्क्रैप कर रहे हैं, वे केवल अपने एचटीएमएल में बदलाव कर सकते हैं जो आपके स्क्रैपिंग को तोड़ देता है। या अपने आईपी पते को ब्लॉक करें। या कोई अन्य परिवर्तन। वे नहीं चाहते हैं कि आप अपनी साइट को स्क्रैप करें। शायद आपको इसका सम्मान करना चाहिए। –
@Abhijit: – John
Traceback (सबसे हाल कॉल पिछले): प्रतिक्रिया = opener.open (यूआरएल) त्रुटियों रिटर्न फ़ाइल "", लाइन 1, फ़ाइल "C: \ Python27 \ lib \ urllib2.py" में, लाइन 406, खुले प्रतिक्रिया = मेथ (रिक, प्रतिक्रिया) फ़ाइल "सी: \ पायथन 27 \ lib \ urllib2.py", पंक्ति 51 9, http_response 'http', अनुरोध, प्रतिक्रिया, कोड, संदेश, hdrs) फ़ाइल "सी: \ पायथन 27 \ lib \ urllib2.py", लाइन 444, त्रुटि में स्वयं self._call_chain (* args) फ़ाइल "सी: \ पायथन 27 \ lib \ urllib2.py", पंक्ति 527, http_error_default में फ़ाइल HTTPError बढ़ाएं (req.get_full_url(), कोड, msg, hdrs, fp) HTTP त्रुटि: HTTP त्रुटि 4 03: निषिद्ध –
John