मेरे पास 3000 टेक्स्ट दस्तावेज़ हैं जो दस्तावेज़ की "रोचक" होने पर समय की अवधि से संबंधित हैं। तो आइए कहें कि दस्तावेज़ 1 में सामग्री के साथ टेक्स्ट की 300 लाइनें हैं, जिसके कारण 5.5 दिनों के ब्याज की अवधि हुई, जबकि पाठ के 40 लाइनों वाले दूसरे दस्तावेज़ में 6.7 दिनों की अवधि "रोचक" हो गई, और इसी तरह।टेक्स्ट दस्तावेज़ों से निरंतर मूल्य (समय) की भविष्यवाणी कैसे करें?
अब कार्य टेक्स्ट सामग्री के आधार पर ब्याज की अवधि (जो एक निरंतर मूल्य है) की भविष्यवाणी करना है।
- http://radimrehurek.com/gensim/simserver.html की तरह एक तकनीक के साथ इसी तरह के दस्तावेजों के एक मॉडल बिल्ड:
मैं दो विचारों समस्या दृष्टिकोण करने के लिए है। जब कोई नया दस्तावेज़ आता है तो कोई अतीत में 10 सबसे समान दस्तावेजों को खोजने का प्रयास कर सकता है और बस अपनी अवधि के औसत की गणना कर सकता है और उस दस्तावेज़ को नए दस्तावेज़ के लिए ब्याज की अवधि के लिए भविष्यवाणी के रूप में ले सकता है।
- दस्तावेजों को अवधि की श्रेणियों में रखें (उदा। 1 दिन, 2 दिन, 3-5 दिन, 6-10 दिन, ...)। फिर पाठ सामग्री के आधार पर अवधि की श्रेणी की भविष्यवाणी करने के लिए एक वर्गीकृत को प्रशिक्षित करें।
# 1 विचार का लाभ यह है कि मैं भी, मेरी भविष्यवाणी के मानक विचलन की गणना कर सकता है जबकि विचार # 2 के साथ यह मेरे लिए कम स्पष्ट है, कैसे मैं अपने भविष्यवाणी की अनिश्चितता का एक समान उपाय गणना कर सकता है। यह भी स्पष्ट नहीं है कि वर्गीकरण से सर्वोत्तम परिणाम प्राप्त करने के लिए कौन सी श्रेणियां चुनी गई हैं।
तो क्या थंब का नियम है कि पाठ दस्तावेजों के समय जैसे निरंतर मूल्य की भविष्यवाणी करने के लिए सिस्टम कैसे बनाएं? क्या किसी को क्लासिफायरफायर का उपयोग करना चाहिए या किसी को समान दस्तावेजों पर औसत मूल्यों का उपयोग करके दृष्टिकोण का उपयोग करना चाहिए? मेरे पास उस क्षेत्र में कोई वास्तविक अनुभव नहीं है और आप जानना चाहते हैं, जो दृष्टिकोण आपको लगता है वह शायद सर्वोत्तम परिणाम देगा। बोनस प्वाइंट दिया जाता है यदि आप एक साधारण मौजूदा तकनीक (जावा या पायथन आधारित) जानते हैं जिसका उपयोग इस समस्या को हल करने के लिए किया जा सकता है।
@ लार्समैन: एक तरफ आप इस सवाल का जवाब क्यों देते हैं, लेकिन दूसरी ओर आप इस प्रश्न को बंद विषय के रूप में बंद करने के लिए वोट देते हैं? – asmaier