मैं विद्यार्थियों की एक टीम का "प्रोग्रामर" हूं जिसका उद्देश्य मेरे व्याकरण विद्यालय में संतुष्टि और सामान्य समस्याओं की जांच करना है। हमारे पास एक प्रश्नपत्र है जो 1-6 से पैमाने पर बनाया गया है और हम इन उत्तरों को एक आरेख सॉफ़्टवेयर द्वारा समझते हैं जिसे मैंने पायथन में लिखा था।प्रश्नावली प्रतिक्रियाओं की जांच के लिए मैं पाठ विश्लेषण का उपयोग कैसे कर सकता हूं?
अब हमारे प्रश्नोत्तरी के अंत में <textarea>
है कि कोई भी उसे पसंद कर सकता है। मैं वर्तमान में इस डेटा को प्रयोग करने योग्य बनाने के तरीकों के बारे में सोच रहा हूं (हम 800+ से अधिक उत्तरों को पढ़ना नहीं चाहते हैं)।
विद्यार्थियों को लिखने के लिए पाइथन में टेक्स्ट विश्लेषण का उपयोग कैसे किया जा सकता है?
I don't like being in school. [wellbeing][negative]
I have way too much homework. [homework][much]
I think there should be more interesting projects. [projects][more]
वहाँ कि प्राप्त करने के लिए किसी भी प्रयोग करने योग्य दृष्टिकोण हैं: मैं एक तरह से करने के लिए "टैग" किसी भी वाक्य है कि नीचे लिखा है की तरह है, के बारे में सोच रहा था? क्या मौजूदा टोकननाइज़र का उपयोग करना समझ में आता है?
आपकी मदद के लिए धन्यवाद!
800 उत्तर आपको एनएलपी करने के लिए पर्याप्त नहीं दे रहे हैं। आप मैन्युअल रूप से उत्तरों को पढ़ने से बेहतर हैं। आप 600 के साथ एक बेवकूफ बेयसियन वर्गीकरण को प्रशिक्षित कर सकते हैं, और इसे 200 पर जांच सकते हैं, लेकिन यह केवल आपको 2 आयाम प्राप्त करने जा रहा है - और जब अधिक टैग के लिए ऐसा करना संभव है, तो आपको बहुत अधिक प्रविष्टियों की आवश्यकता होगी। – kreativitea
यह मदद करता है अगर आप हमें बताते हैं कि बॉक्स टिप्पणियां पूरी तरह से फ्रीफॉर्म हैं, या क्या वे ज्ञात विषयों का एक सेट हैं? (या उस जवाब देने के लिए क्लस्टरिंग का उपयोग करें, या यहां तक कि केवल सादे पुराने grep, या सिर्फ खुद को नजरअंदाज करें) – smci