मैं सरल पायथन रेगेक्सप का उपयोग करके फुटबॉल (सॉकर) वेब पेज से कुछ जानकारी स्क्रैप करना चाहता हूं। समस्या यह है कि पहले चैप, ÄÄRITALO जैसे खिलाड़ी & # 1 9 6 के रूप में बाहर आते हैं; & # 1 9 6; रिटालो!
यही है, एचटीएमएल विशेष वर्णों के लिए मार्कअप से बच निकलता है, जैसे & # 1 9 6;एक वेब पेज से अंतरराष्ट्रीय पात्र प्राप्त करना?
क्या सही पायथन स्ट्रिंग में एचटीएमएल पढ़ने का एक आसान तरीका है? अगर यह एक्सएमएल/एक्सएचटीएमएल था तो यह आसान होगा, पार्सर इसे करेगा।