पर पहुंच गया यह beautifulsoup
प्रक्रिया है जो सभी <p>
HTML टैग के भीतर सामग्री को पकड़ती है। कुछ वेब पृष्ठों से सामग्री को हथियाने के बाद, मुझे एक त्रुटि मिलती है जो कहती है कि अधिकतम रिकर्सन गहराई पार हो गई है।सुंदरसुप, अधिकतम रिकर्सन गहराई
def printText(tags):
for tag in tags:
if tag.__class__ == NavigableString:
print tag,
else:
printText(tag)
print ""
#loop over urls, send soup to printText procedure
का पता लगाने के नीचे:
File "web_content.py", line 16, in printText
printText(tag)
File "web_content.py", line 16, in printText
printText(tag)
File "web_content.py", line 16, in printText
printText(tag)
File "web_content.py", line 16, in printText
printText(tag)
File "web_content.py", line 16, in printText
printText(tag)
File "web_content.py", line 13, in printText
if tag.__class__ == NavigableString:
RuntimeError: maximum recursion depth exceeded in cmp
क्या आप समझा सकते हैं। यह पिछले यूआरएल से एक नमूना आउटपुट है इससे पहले कि यह दुर्घटनाग्रस्त हो। "और दो महीने की प्रक्रिया के लिए क्या किया जाता था, अब कई कंपनियों के लिए पांच दिन की प्रक्रिया है। परिवर्तनीय पर आपके 1 से 2 मिलियन को बढ़ाने के साथ समस्या ..." इसमें तार, साथ ही साथ 1-लंबाई तार । – yayu
आप कौन सा हिस्सा समझते हैं, पुनरावृत्त या पुनरावृत्त नहीं करते? बेशक, यह सब आप पर निर्भर करता है कि कोड कैसे काम करता है। –
क्या आप यह स्पष्ट कर सकते हैं कि इसका मतलब क्या है कि "आप एक स्ट्रिंग हिट करते हैं"? आपका क्या मतलब है "हिट"? क्या संपूर्ण HTML दस्तावेज़ नहीं है जिसे सुंदर सूप द्वारा प्रारंभिक रूप से एक स्ट्रिंग में पार्स किया गया है - और क्या टैग स्वयं वर्णों के तार नहीं हैं? हमने एक ही त्रुटि में भाग लिया है जो कि साधारण एंटरप्राइज़ पेज में 12 एंकरों के साथ मूल्यों को प्रतिस्थापित करने की कोशिश कर रहा है लेकिन यह स्पष्ट नहीं है कि रिकर्सन ट्रिगर कर रहा है। – Praxiteles