5

मैं विद्यार्थियों की एक टीम का "प्रोग्रामर" हूं जिसका उद्देश्य मेरे व्याकरण विद्यालय में संतुष्टि और सामान्य समस्याओं की जांच करना है। हमारे पास एक प्रश्नपत्र है जो 1-6 से पैमाने पर बनाया गया है और हम इन उत्तरों को एक आरेख सॉफ़्टवेयर द्वारा समझते हैं जिसे मैंने पायथन में लिखा था।प्रश्नावली प्रतिक्रियाओं की जांच के लिए मैं पाठ विश्लेषण का उपयोग कैसे कर सकता हूं?

अब हमारे प्रश्नोत्तरी के अंत में <textarea> है कि कोई भी उसे पसंद कर सकता है। मैं वर्तमान में इस डेटा को प्रयोग करने योग्य बनाने के तरीकों के बारे में सोच रहा हूं (हम 800+ से अधिक उत्तरों को पढ़ना नहीं चाहते हैं)।

विद्यार्थियों को लिखने के लिए पाइथन में टेक्स्ट विश्लेषण का उपयोग कैसे किया जा सकता है?

I don't like being in school. [wellbeing][negative] 
I have way too much homework. [homework][much] 
I think there should be more interesting projects. [projects][more] 

वहाँ कि प्राप्त करने के लिए किसी भी प्रयोग करने योग्य दृष्टिकोण हैं: मैं एक तरह से करने के लिए "टैग" किसी भी वाक्य है कि नीचे लिखा है की तरह है, के बारे में सोच रहा था? क्या मौजूदा टोकननाइज़र का उपयोग करना समझ में आता है?

आपकी मदद के लिए धन्यवाद!

+0

800 उत्तर आपको एनएलपी करने के लिए पर्याप्त नहीं दे रहे हैं। आप मैन्युअल रूप से उत्तरों को पढ़ने से बेहतर हैं। आप 600 के साथ एक बेवकूफ बेयसियन वर्गीकरण को प्रशिक्षित कर सकते हैं, और इसे 200 पर जांच सकते हैं, लेकिन यह केवल आपको 2 आयाम प्राप्त करने जा रहा है - और जब अधिक टैग के लिए ऐसा करना संभव है, तो आपको बहुत अधिक प्रविष्टियों की आवश्यकता होगी। – kreativitea

+0

यह मदद करता है अगर आप हमें बताते हैं कि बॉक्स टिप्पणियां पूरी तरह से फ्रीफॉर्म हैं, या क्या वे ज्ञात विषयों का एक सेट हैं? (या उस जवाब देने के लिए क्लस्टरिंग का उपयोग करें, या यहां तक ​​कि केवल सादे पुराने grep, या सिर्फ खुद को नजरअंदाज करें) – smci

उत्तर

2

अच्छी तरह से, मैं सिर्फ विचारों में फेंक रहा here..but एक दृष्टिकोण मैं के बारे में सोच सकते है,

  1. पहले प्रतिक्रियाओं क्लस्टर के लिए एक एल्गोरिथ्म क्लस्टरिंग उपयोग करने के लिए। के-मतलब जैसे कुछ या आप एलडीए जैसे कुछ का उपयोग कर मॉडलिंग कर सकते हैं।

  2. तो फिर आप अपने टैगिंग दृष्टिकोण पाठ विश्लेषण करके बार-बार/प्रासंगिक खोजशब्द उत्पन्न करने क्लस्टर/विषय में से प्रत्येक में आप कदम 1.

से प्राप्त कर उपयोग कर सकते हैं क्यों चरण 1 एक अच्छा विचार होगा ? खैर, मेरी राय में- पाठ विश्लेषण करते समय, यदि आप मनमाने ढंग से टैगिंग वाक्यों के चारों ओर जाते हैं, तो आप बहुत सारे टैग उत्पन्न कर सकते हैं- उनमें से बहुत से संदर्भ में समान होंगे। इसलिए, आपकी उपयोगिता नीचे जा सकती है कि आपको अभी भी प्रत्येक वाक्य के लिए टैग का भार विश्लेषण करना होगा।

क्लस्टरिंग/विषय मॉडलिंग का उपयोग करने से संदर्भ समस्या को कुछ स्तर तक कम करने में मदद मिल सकती है। इसलिए, मेरी राय में अधिक उपयोग योग्य।

0

यह एआई प्रोग्रामिंग की तरह बहुत कुछ लगता है क्योंकि वे 'टैग' प्रश्न और प्रतिक्रियाओं के कारण हैं। शायद http://pyaiml.sourceforge.net/ और कृत्रिम बुद्धिमान मार्कअप भाषा पर एक नज़र डालें। मुझे इसके साथ ज्यादा अनुभव नहीं है, लेकिन आप स्क्रैच से इसे करने की बजाय अपनी जरूरतों को ट्विक कर सकते हैं।

1

"एनएलटीके भावना विश्लेषण" खोज शुरू करने के लिए एक अच्छी जगह है। पाइथन में पाठ विश्लेषण करने के लिए Natural Language Toolkit पैकेज है लेकिन यह बिल्कुल आसान नहीं है क्योंकि यह कार्य काफी जटिल है। पहले कुछ परिणामों में कुछ आकर्षक डेमो थे लेकिन मैंने उन्हें विस्तार से नहीं देखा।

+0

मुझे लगता है कि यह मेरे लिए सही सही बात हो सकती है! धन्यवाद! –

1

मैं आपके प्रश्न का उत्तर नहीं दूंगा। लेकिन अगर मैं समझता हूं कि आपके पास क्लासिक सर्वेक्षण (चेक बॉक्स के साथ ...) अंत में एक छोटे से टेक्स्ट एरिया प्रश्न के साथ है ...

तो आपके पास 800+ उत्तर होंगे। लेकिन मुझे लगता है कि जवाब बहुत लंबा नहीं होगा। आम तौर पर यह कुछ पंक्तियों या यहां तक ​​कि कुछ शब्द भी ... मुझे लगता है कि एक मैनुअल क्यूडीए सॉफ्टवेयर एक एल्गोरिदम से बेहतर होगा जो सही नहीं होगा। उदाहरण के लिए आप ओपन सोर्स आरक्यूडीए (आर प्रोजेक्ट पैकेज) या वाणिज्यिक सॉफ्टवेयर जैसे एनवीवियो का उपयोग कर सकते हैं ...

धन्यवाद