2012-07-19 8 views
8

कुछ भाषाओं में हिंदी, रूसी या जापानी जैसे लैटिन वर्णों के लिए एक स्वीकार्य लिप्यंतरण है। उदाहरण के लिए, देवनागरी लिपि में लिखे गए 'द मैन इट बेइंग' के लिए हिंदी 'आदमी खा रहा है।' लिप्यंतरित, यह 'आदर्श खहा है' होगा। (या कुछ समान; इस दृष्टिकोण को अक्सर ऑनलाइन उपयोग किया जाता है, खासकर अगर लोगों को हिंदी कीबोर्ड तक पहुंच नहीं है।)फोनेटिक उच्चारण (यदि बिल्कुल) के साथ लैंग विशेषता का उपयोग करने का सही तरीका क्या है?

इस मामले में, हम लैटिन लिपि का उपयोग कर रहे हैं लेकिन अभी भी हिंदी लिख रहे हैं, तो यह होगा lang विशेषता का उपयोग या तो भिन्नता को चिह्नित करने के लिए स्वीकार्य:

<span lang="hi">आदमी खा रहा है।</span>या<span lang="hi">Aadmi kha raha hai.</span>

मेरा प्रश्न तो भाषाओं कि सामान्य रूप से लैटिन वर्णमाला अपने आप में लिखा जाता है के बारे में है, लेकिन गैर बोलने वालों के लिए ध्वन्यात्मक गाइड हो सकता है/शिक्षार्थियों - या तो आईपीए या विज्ञापन hoc उच्चारण - क्या कोई सबसे अच्छा अभ्यास है इसे अर्थपूर्ण अर्थ देने के मामले में सीई?

उदाहरण के लिए, आयरिश में अगर मैं कहूं कि "आदमी खा रहा है", तो मैं कहूंगा "यह एक डर एजी है।" मैं के रूप में इस को चिह्नित कर सकते हैं:

<span lang="ga">Tá an fear ag ithe.</span>

अगर मैं देने के लिए गैर-बोलने वालों के लिए एक उच्चारण गाइड थे, मैं "अब तक जैसे IH-वह पर Taw" कह सकते हैं । वाक्य अर्थहीन नहीं है, (जैसे 'लोरेम इप्सम' टेक्स्ट) लेकिन अंग्रेजी या आयरिश में वाक्य भी नहीं है।

इस मामले में एचटीएमएल में भाषा से संबंधित विशेषताओं का सही उपयोग क्या है, या क्या यह उपयोग मामला वर्तमान में विनिर्देशन द्वारा कवर नहीं किया गया है?

+0

दिलचस्प आयरिश देखने के लिए SO पर :) –

+1

@Darragh सोचा क्यों घर के करीब एक उदाहरण का उपयोग नहीं करें :) – anotherdave

उत्तर

5

लघु संस्करण: यदि आप विशेष रूप से यह कहना चाहते हैं कि यह लैटिन वर्णमाला में लिखा गया है, तो आपके द्वारा दिए गए उदाहरणों के लिए "हाय-लैटन" या "गा-लैट" के लिए जाएं।

लांग संस्करण:

The W3C spec for the lang attribute विशेष रूप से इस का उल्लेख नहीं है - यह (जैसे आदेश उपयोग किए गए वर्णों के उच्च गुणवत्ता वाले संस्करणों रेंडर करने के लिए में इसका उपयोग करने के रूप में) है कि इमला पर निर्भर इस में से कुछ का उपयोग करता है पता चलता है, लेकिन कुछ ऐसा नहीं है (जैसे खोज इंजन के लिए)।

RFC1766, जो भाषा टैग के प्रारूप को निर्दिष्ट करता है, बताता है कि टैग की विशेषज्ञता का उपयोग "स्क्रिप्ट विविधताओं, जैसे कि एज़-अरबी और एज़-साइरिलिक" का प्रतिनिधित्व करने के लिए किया जा सकता है। स्क्रिप्ट subtag in this article on the W3C site, और the later RFC5646 में थोड़ा अतिरिक्त के बारे में और कुछ है। वह एक ISO standard list of script names पर इंगित करता है, और उस सूची में जिस स्क्रिप्ट को आप चाहते हैं वह "लेटन" है क्योंकि वे अन्य स्क्रिप्ट के रोमानी रूप हैं।

(यह निर्दिष्ट करने के लिए कैसे आप लिप्यंतरण किया हालांकि भाषाओं जो पिनयिन बनाम वेड-गाइल्स का उपयोग कर लैटिन लिपि में एक से अधिक मानक जैसे चीनी हो सकता है के लिए, जैसी चीजों को कवर नहीं करता।)

+0

धन्यवाद, यह '-Latn' प्रत्यय पर दिलचस्प है। हालांकि मैं जिस भेद को बनाम हिंदी बनाने की कोशिश कर रहा था वह यह है कि आयरिश डिफ़ॉल्ट रूप से लैटिन है: इसलिए हिंदी का अनुवाद करते समय, इसे नई लिपि में ध्वन्यात्मक रूप से लिखा जाता है और अभी भी 'हिंदी' माना जाता है। लैटिन में पहले से ही एक भाषा की फोनेटिक वर्तनी, जैसे आयरिश (या फ्रेंच/जर्मन/आदि) कुछ ऐसी चीज प्रस्तुत करती है जिसे भाषा भी नहीं माना जा सकता है। हालांकि लिंक के लिए धन्यवाद, मेरे पास पढ़ने के लिए कुछ नया होमवर्क है :) – anotherdave

+1

बोनस के रूप में: मुझे यकीन नहीं है कि आयरिश टेक्स्ट के लिए आपके द्वारा दी गई ध्वन्यात्मक वर्तनी कितनी मानक है, लेकिन http: //www.iana। संगठन/असाइनमेंट/भाषा-सबटाग-रजिस्ट्री में वेरिएंट टैग हैं जिनका उपयोग आप आईपीए (GA-fonipa) या एक्स-सैम्पा (GA-fonxsamp) में कर सकते हैं। – bouteillebleu

+0

पूरी तरह से, 100% मानक नहीं :) वाह, यह दिलचस्प है जैसे मैं आईपीए मानकों का उपयोग कर रहा था, यह सही होगा। मैं उस पृष्ठ से भी देखता हूं कि 'ज़ीय' और 'ज़ज्ज़' वेरिएंट (क्रमशः 'अनिश्चित स्क्रिप्ट' और 'अनिश्चित स्क्रिप्ट' के लिए) हैं जो गैर-मानक रूपों के लिए भी उपयोग किए जा सकते हैं। – anotherdave

0

आप इसे <ruby> के रूप में चिह्नित करने के लिए देखना चाहते हैं।

उदाहरण के लिए:

<ruby lang="hi">आदमी<rt>Aadmi</rt> खा<rt>kha</rt> रहा<rt>raha</rt> है।<rt>hai</rt></ruby> 
+2

मान्य है कि मैं एक विशेषज्ञ नहीं हूं लेकिन यह उत्तर की तरह दिखता है। क्या डाउनवॉटर टिप्पणी कर सकता है? (हो सकता है कि यह सिर्फ फॉर्म के बारे में है - मैं मानता हूं कि उत्तर सिर्फ एक लिंक के बजाय थोड़ा और विवरण प्रदान कर सकता है) –

+0

उत्तर में प्रश्न के साथ कुछ भी नहीं है, जो भाषा मार्कअप के बारे में था। –

+1

@ जुक्का लेकिन '' * * भाषा मार्कअप/उच्चारण गाइड के बारे में नहीं है? –

3

सबसे व्यावहारिक प्रयोजनों के लिए, यह कोई बात नहीं, ब्राउज़र, खोज इंजन, और अन्य प्रासंगिक कार्यक्रमों के बाद से आम तौर पर lang विशेषताओं पर ध्यान न दें। गुण फ़ॉन्ट की पसंद को प्रभावित कर सकते हैं, लेकिन केवल तभी जब पृष्ठ स्वयं फ़ॉन्ट्स (जो दुर्लभ है) का सुझाव नहीं देता है। कुछ भाषण ब्राउज़र lang के लिए कुछ मानों को पहचानते हैं और तदनुसार उनकी कार्यक्षमता को अनुकूलित करते हैं। और यदि आप एमएस वर्ड में एक HTML दस्तावेज़ खोलते हैं, तो यह lang मार्कअप को पहचानता है और भाषा-विशिष्ट वर्तनी उपकरण लागू करता है। लेकिन यह सब सीमित है और शायद ही कभी मायने रखता है। इसके अलावा, इन मामलों में, केवल भाषा कोडों के सबसे सरल प्रकार पहचाने जाते हैं।

सिद्धांत रूप में, लेखन प्रणाली ("स्क्रिप्ट"), जैसे लैटिन बनाम देवनागरी, और लिप्यंतरण या प्रतिलेखन प्रणाली का उपयोग किया गया है, को इंगित करना संभव है। यह BCP 47 में वर्णित किया गया है। लेकिन इसके अधिकांश में, यह कार्यान्वयन करने वालों के लिए दिशानिर्देश हैं, ऐसा कुछ नहीं जो आप यहां और अब उपयोग कर सकते हैं।

उदाहरण के लिए, आप यह संकेत देने के लिए <span lang="hi-Latn">Aadmi kha raha hai.</span> लिख सकते हैं कि सामग्री हिंदी में है लेकिन लैटिन अक्षरों में लिखी गई है। और सिद्धांत रूप में कम से कम, यह इंगित करने का एक तरीका है कि प्रतिस्पर्धी रोमानीकरण प्रणाली का कौन सा उपयोग किया गया है। मुझे नहीं लगता कि कोई वेब-संबंधित सॉफ़्टवेयर lang="hi-Latn" को पहचानता है; कार्यक्रम lang="hi" को पहचानने के बावजूद भी इसे पहचानने में असफल हो सकते हैं।

तो आप lang के लिए विस्तृत मान का उपयोग कर सकते हैं, लेकिन इसका अधिक उपयोग नहीं है।किसी भी प्रमुख किसी अन्य भाषा में खंड (कहें, एक वाक्य या अधिक) के लिए lang="hi" जैसे सरल मार्कअप का उपयोग करना अच्छा अभ्यास है, हालांकि बहुत कुछ नहीं है। इस पर बहुत अधिक समय बिताने से पहले, विचार करें कि आप किस व्यावहारिक लाभ की उम्मीद कर सकते हैं। उदाहरण के लिए, यदि आप hyphenate.js जैसे क्लाइंट-साइड हाइफ़ेनेटर का उपयोग करने पर विचार करते हैं, तो lang मार्कअप आवश्यक हो जाता है; लेकिन फिर आपको सामान्य विनिर्देशों की बजाय उस सॉफ़्टवेयर की अपेक्षाओं की जांच करने की आवश्यकता है।

चेतावनी का एक शब्द: मैंने लैटिन अक्षरों में लिखे गए रूसी के लिए lang="ru" का उपयोग करते समय अजीब परिणाम देखा है। इसका कारण यह है कि ब्राउज़र "रूसी के लिए फ़ॉन्ट" के अपने विचार पर स्विच कर सकते हैं, जिससे फोंट का मिश्रण होता है। लेकिन सरल उपाय यह है कि इस तरह के मामलों में, आपके सभी ग्रंथों के लिए कुछ लगातार फ़ॉन्ट सेटिंग्स, ब्राउज़र डिफ़ॉल्ट को ओवरराइड करना है।

स्ट्रिंग्स जैसे "दूर पर उदाहरण जैसे Ih-he" को कुछ भाषा में अर्थपूर्ण रूप से वर्गीकृत नहीं किया जा सकता है। यदि आप भाषा मार्कअप का उपयोग करते हैं, तो lang="" (खाली स्ट्रिंग के साथ मूल्य के रूप में) का उपयोग करें, क्योंकि यह स्पष्ट रूप से इंगित करने का परिभाषित तरीका है कि भाषा इंगित नहीं की गई है!

+0

धन्यवाद, मुझे नहीं पता था कि आप एक खाली लैंग विशेषता प्रदान कर सकते हैं! इस तथ्य के बारे में कि खोज इंजन लैंग विशेषताओं को अनदेखा करते हैं - क्या आपके पास इसके लिए एक लिंक होगा? मैंने हमेशा सोचा कि Google et al ने इसे अपनी उन्नत सेटिंग्स (फ़्रेंच, आदि में प्रदर्शन परिणाम) के लिए उपयोग किया है। – anotherdave

+0

यह कहना आम बात है कि खोज इंजन 'लैंग' विशेषताओं का उपयोग करते हैं, लेकिन उस पर कोई सबूत नहीं है। टेस्ट सुझाव देते हैं कि उनका कोई प्रभाव नहीं है। खोज इंजन से जुड़े लोगों से अनौपचारिक बयान कहते हैं कि 'लैंग' विशेषताएं बहुत अविश्वसनीय हैं, अक्सर सादा गलत उदा। क्योंकि कुछ संलेखन सिस्टम लेखक से पूछे बिना 'lang =" en "' उत्सर्जित करते हैं। खोज इंजन सामग्री से भाषा का अनुमान लगा सकते हैं, और वे करते हैं। –

+0

लैंग विशेषता पहुंच के लिए महत्वपूर्ण है और एक डब्ल्यूसीएजी 2.0 आवश्यकता है। स्क्रीन पाठक प्लेबैक के दौरान उपयोग करने के लिए सही आवाज और फोनेटिक इंजन निर्धारित करने के लिए लैंग विशेषता के मान का उपयोग करते हैं। – charlieb

 संबंधित मुद्दे

  • कोई संबंधित समस्या नहीं^_^