2011-09-27 8 views
9

उपनाम से किसी व्यक्ति की राष्ट्रीयता की भविष्यवाणी करने के लिए मैं किस दृष्टिकोण का उपयोग कर सकता हूं?उपनाम से किसी व्यक्ति की राष्ट्रीयता का अनुमान कैसे लगाया जाए?

मेरे पास ग्रंथों और लेखकों के उपनामों की एक बड़ी सूची है। मैं यह जानना चाहता हूं कि लैटिन भाषा के वक्ताओं द्वारा कौन से ग्रंथ लिखे गए हैं और कौन से पाठ मूल अंग्रेजी बोलने वालों द्वारा लिखे गए हैं, ताकि अध्ययन के लिए कि कुछ लेखन शैली पैटर्न दूसरे की तुलना में एक समूह में अलग हैं या नहीं।

मैंने Google में देखा है और उपनाम के डेटाबेस के लिए पब किया है, लेकिन मुझे मुफ्त में कोई भी सुलभ नहीं मिला। एक अन्य दृष्टिकोण कुछ regexs का उपयोग करना है, उदाहरण के लिए "। * Ez" कुछ rodicic उपनाम जैसे 'Rodriguez' की पहचान करने के लिए, लेकिन यह मुझे बहुत दूर नहीं मिलता है।

क्या आपके पास कोई सुझाव है? चूंकि भविष्यवाणी करने के बाद मैं सभी संगठनों को मैन्युअल रूप से संशोधित कर दूंगा, मुझे बहुत सटीकता की आवश्यकता नहीं है, लेकिन किसी भी मदद या विचार का स्वागत किया जाएगा।

+4

टीएसए में से कोई भी जानता है। – awm

+1

वाह। यह काफी काम की तरह लगता है। मुझे संदेह है कि आप किसी भी महान सटीकता को प्राप्त करने में सक्षम होंगे क्योंकि उपनाम पीढ़ी से पीढ़ी तक स्पष्ट रूप से बदल सकते हैं और लोग हमेशा एक विशिष्ट राष्ट्रीयता पर विचार नहीं करते हैं, भले ही उनका उपनाम उस देश से है। वैसे भी आपको किस तरह की सटीकता की आवश्यकता होगी? मुझे लगता है कि यदि आपके पास विभिन्न देशों से फोन बुक/जनगणना जैसे डेटा तक पहुंच थी, तो आप निश्चित रूप से ऐसे सामान्य उपनामों के लिए सामान्य नामों और समानताओं की तलाश कर सकते थे। उदाहरण के लिए 1 वर्ण का अंतर मूल रूप से वही नाम है। – Thor84no

+0

क्योंकि आपके पास स्पेनिश उपनाम है, इसका मतलब यह नहीं है कि आप मूल अंग्रेजी स्पीकर नहीं हैं, न ही यह दूसरी दिशा में काम करता है। – bitmask

उत्तर

4

मुझे नहीं लगता कि आप इसे किसी भी विश्वसनीयता की विश्वसनीयता के साथ कर सकते हैं। एक रोड्रिगेज के पास स्पेनिश मूल नाम हो सकता है, लेकिन यह भी पैदा हो सकता है और कहीं भी लाया जा सकता है। वे दूसरी पीढ़ी के ब्रिटिश हो सकते थे, और कभी भी उनके चारों ओर स्पैनिश नहीं बोलते थे, और इसलिए मूल अंग्रेजी स्पीकर की श्रेणी में आते थे।

+8

यह कोई जवाब नहीं है लेकिन एक टिप्पणी है। – bitmask

2

ऐसा करने का कोई सार्थक तरीका नहीं है। ऐसा कोई कारण नहीं है कि उनके नाम के साथ लोग मूल अंग्रेजी बोलने वाले नहीं हो सकते हैं।

यदि आप इसे संशोधित करने जा रहे हैं, तो आपके पास मौजूद डेटा का उपयोग क्यों न करें?

+0

मुझे ग्रंथों की एक विशाल सूची के लिए ऐसा करने की ज़रूरत है, इसलिए मुझे डिफ़ॉल्ट मान सेट अप करने और काम को आसान बनाने की आवश्यकता है। – dalloliogm

3

यदि वास्तविक लेखकों तो शायद आप स्पाइडर अमेज़ॅन कर सकते हैं और उनकी 'लेखक जानकारी' विवरण देख सकते हैं?

मुझे नहीं लगता कि आप अनुमान लगा सकते हैं। जैसे आयरिश अंतिम नाम - आयरिश विरासत के साथ अनुमानित 80,000,000 लोग हैं, हालांकि इनमें से 4.5 मिलियन आयरलैंड में रहते हैं/आयरिश शिक्षा के माध्यम से जाते हैं।

1

मान लें कि आप ग्रंथों की प्रोग्रामेटिक तुलना करने का इरादा रखते हैं, आपको ग्रंथों को मैन्युअल रूप से वर्गीकृत करना होगा। गलत अनुमान आपको टेक्स्टुअल विश्लेषण के लिए टूटा एल्गोरिदम बनाने की संभावना बनाते हैं। यह कृत्रिम तंत्रिका नेटवर्क जैसे मशीन सीखने के साथ विशेष रूप से समस्याग्रस्त होगा।