मुझे प्रतिबंधित शब्दों में मौजूद टेक्स्ट का विश्लेषण करने की आवश्यकता है। मान लीजिए कि काला सूची शब्द है: "फोर्बिड"। शब्द में कई रूप हैं। पाठ में शब्द हो सकता है, उदाहरण के लिए: "मना कर रहा है", "वर्जित", "forbad"। शब्द को प्रारंभिक रूप में लाने के लिए, मैं एक प्रक्रिया लेमैमैटेशन का उपयोग करता हूं। आपके सुझाव?टेक्स्ट का विश्लेषण करें (लेमैमैटिज़ेशन, दूरी संपादित करें)
टाइपो के बारे में क्या?
उदाहरण के लिए: "F0rb1d"। मुझे लगता है कि डैमरौ-लेवेनशेटिन या किसी अन्य का उपयोग करें। आप सुझाव?
और क्या रूप इस प्रकार पाठ लिखा है यदि: "। ForbiddenInformation.Privatecorrespondenceofthecompany"
या "F0rb1dden1nformation.Privatecorresp0ndenceofthec0mpany।" (हाँ, व्हाइटस्पेस के बिना)
इस समस्या को हल करने के लिए कैसे करें?
पसंदीदा रूप से तेज़ एल्गोरिदम, क्योंकि पाठ वास्तविक समय में संसाधित होते हैं।
और शायद प्रदर्शन में सुधार करने के लिए कुछ सुझाव क्या हैं (स्टोर कैसे करें, आदि)?
मेरी अंग्रेजी के लिए खेद है। धन्यवाद।
डुप्लिकेट सटीक नहीं है, लेकिन समान [प्रश्न] (http://stackoverflow.com/questions/246961/algorithm-to-find-similar-text) [माहौल] (http://stackoverflow.com/questions/4067105/पता लगाने-डुप्लीकेट-समान-पाठ के बीच-बड़े डेटासेट)। – khachik