का उपयोग कर रहा अजगर का उपयोग कर वेब पेज को बचाने के लिए निम्नलिखित कोड का उपयोग कर रहा:को बचाने के लिए कैसे "पूरा वेबपेज" न सिर्फ बुनियादी एचटीएमएल अजगर
import urllib
import sys
from bs4 import BeautifulSoup
url = 'http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'
f = urllib.urlretrieve(url,'test.html')
समस्या: इस कोड की बचत होती है एचटीएमएल मूल HTML के रूप में बिना javascripts, छवियों आदि । मैं (जैसे हम ब्राउज़र में विकल्प होता है) के रूप में पूरा वेबपेज सहेजना चाहते
अद्यतन: मैं इतना है कि यह रूप में बचाया जा सकता है सभी js/images/सीएसएस webapge की फ़ाइलों को सहेजने के लिए निम्न कोड का उपयोग कर रहा अब पूरा वेबपेज लेकिन अभी भी मेरा आउटपुट एचटीएमएल है मूल HTML की तरह बचाया जा रहा है:
import pycurl
import StringIO
c = pycurl.Curl()
c.setopt(pycurl.URL, "http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html")
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
c.setopt(pycurl.MAXREDIRS, 5)
c.perform()
html = b.getvalue()
#print html
fh = open("file.html", "w")
fh.write(html)
fh.close()
फिर आपको HTML को पार्स करने के लिए कोड लिखना होगा, सभी लिंक किए गए संसाधनों को पकड़ना होगा, और ब्राउज़र की तरह ही उन्हें व्यक्तिगत रूप से डाउनलोड करना होगा। सुंदर सूप का उपयोग कर – Amber
क्या मैं ऐसा कर सकता हूं? –
कोशिश करें [स्केपर] (http://scrapy.org/), एक ओपन सोर्स पोर्टेबल पायथन वेब स्क्रैपिंग फ्रेमवर्क – Abhijit