मैं एल्गोरिदम की तलाश में हूं जो वेबसाइटों से टेक्स्ट निष्कर्षण की अनुमति देता है। मेरा मतलब यह नहीं है कि "स्ट्रिप एचटीएमएल", या सैकड़ों पुस्तकालयों की अनुमति है जो इसे अनुमति देते हैं।वेबसाइटों से बॉडी टेक्स्ट निष्कर्षण उदा। केवल लेख शीर्षक और पाठ निकालें साइट पर सभी पाठ
तो उदाहरण के लिए एक समाचार लेख के लिए मैं शीर्षक और सभी पाठ की पहचान करना चाहता हूं, लेकिन टिप्पणी अनुभाग नहीं और इसी तरह।
क्या वहां के लिए कोई एल्गोरिदम हैं? धन्यवाद!
मुझे लगता है कि वाक्यांश आप देख रहे हैं "वेब scraping" – StriplingWarrior