का उपयोग कर खाता संदर्भ में लेना, मैं कठिन शब्दों के अनुवाद के साथ विदेशी भाषाओं के शिक्षार्थियों के लिए स्वचालित रूप से ग्रंथों को एनोटेट करना चाहता हूं।एकल भाषा का अनुवाद, कंप्यूटर भाषा प्रसंस्करण उपकरण
उदाहरण के लिए, यदि मूल पाठ है:
El Gato एस्टा एन ला कासा डे गलत vecinos
हो जाता है
El Gato एस्टा एन ला कासा डे गलत vecinos (पड़ोसियों)
पहला कदम यह पहचानना है कि कौन से शब्द कठिन हैं। यह मूल पाठ में शब्दों के lemmatization और 'आसान शब्दों' (1500-2000 शब्दों की एक मूल शब्दावली) की एक सूची के साथ तुलना करके किया जा सकता है। जो लोग इस सूची में नहीं पाएंगे उन्हें 'कठिन शब्द' के रूप में नामित किया जाएगा। यह प्रक्रिया पाइथन के लिए प्राकृतिक भाषा उपकरण किट (एनएलटीके) का उपयोग करके काफी सरल लगती है।
ऐसे 'नवविवाहित,' या Phrasal verbs के 'उन्होंने मुझे अप कहा जाता है' या जर्मन 'एर ruft मीच एक के रूप में है कि एक जोड़ी के रूप में अनुवाद किया जाना चाहिए शब्दों में कुछ परेशानी है, '(anrufen)। यहां शब्दों का व्यक्तिगत रूप से इलाज नहीं किया जा सकता है। Phrasal क्रियाओं के लिए और शायद व्याकरण की कुछ समझ की जरूरत है।
दूसरे चरण में उन संदर्भों के अनुसार कठिन शब्दों का सही अनुवाद प्राप्त करना शामिल है जिसमें वे दिखाई देते हैं। जैसा कि मैं समझता हूं, यह प्रभावी रूप से Google अनुवाद जैसे सांख्यिकीय मशीन अनुवाद प्रणाली के पहले भाग को लागू कर रहा है। मेरा मानना है कि इस समस्या को Google अनुवाद अनुसंधान API का उपयोग करके हल किया जा सकता है, जो आपको अनुवादित करने के लिए पाठ भेजने देता है, और प्रतिक्रिया में अनुवाद में कौन सा शब्द मूल पाठ में कौन सा शब्द है, इस बारे में जानकारी शामिल है। तो आप पूरी वाक्य में खिला सकते हैं और फिर प्रतिक्रिया से इच्छित शब्द को बाहर निकाल सकते हैं। हालांकि आपको इस एपीआई का उपयोग करने के लिए आवेदन करना होगा, और उनके पास उपयोग सीमाएं हैं, जो संभवतः मेरे आवेदन के लिए एक समस्या होगी। मुझे एक और समाधान मिल जाएगा। मुझे उम्मीद है कि कोई समाधान 100% सही अनुवाद नहीं देगा और उन्हें हाथ से जांचना होगा, लेकिन यह अभी भी चीजों को गति देना चाहिए।
आपकी टिप्पणियों के लिए धन्यवाद। बस एक प्रशिक्षण कोष में टोकन मायने रखता है जमा और अपने परीक्षण सेट में टोकन कि में एक कटऑफ बिंदु से पहले नहीं होती है अंकन -
डेविड
तो सवाल यह क्या है? –
क्षमा करें, प्रश्न यह है: ** 'क्या कोई सॉफ़्टवेयर मौजूद है जो मेरे लिए इस समस्या का ख्याल रख सकता है?' **, यदि नहीं, ** 'मैं Google अनुवाद का उपयोग किए बिना इस प्रसंस्करण के दूसरे चरण को कैसे कर सकता हूं? '** और यह भी, **' क्या आपके पास कोई सुझाव है कि ऊपर वर्णित कठिनाइयों को देखते हुए 'कठिन शब्दों' के चयन में सुधार कैसे किया जाए? '** – Davidw