मुझे यह जानने की ज़रूरत है कि विभिन्न XML टूल (पार्सर्स, वैधकर्ता, XPath अभिव्यक्ति मूल्यांकनकर्ता, आदि) का प्रदर्शन इनपुट दस्तावेज़ के आकार और जटिलता से कैसे प्रभावित होता है। क्या वहां संसाधन हैं जो दस्तावेज करते हैं कि कैसे सीपीयू समय और स्मृति उपयोग प्रभावित होते हैं ... अच्छा, क्या? बाइट्स में दस्तावेज़ का आकार? नोड्स की संख्या? और रिश्ते रैखिक, बहुपद, या बदतर है?एक्सएमएल पार्सर्स/वैधकर्ताओं की एल्गोरिदमिक जटिलता
अद्यतन
IEEE कम्प्यूटर पत्रिका में एक लेख में, खंड 41 एन.आर. 9, सितम्बर 2008, लेखकों चार लोकप्रिय XML पार्सिंग मॉडल (डोम, SAX, StAX और VTD) सर्वेक्षण। वे कुछ बहुत ही बुनियादी प्रदर्शन परीक्षण चलाते हैं जो दिखाते हैं कि इनपुट फ़ाइल का आकार 1-15 केबी से 1-15 एमबी तक या लगभग 1000x बड़ा होने पर डीओएम-पार्सर का थ्रूपुट कम हो जाएगा। अन्य मॉडलों का थ्रूपुट महत्वपूर्ण रूप से प्रभावित नहीं होता है।
दुर्भाग्य से उन्होंने नोड्स/आकार की संख्या के फ़ंक्शन के रूप में थ्रूपुट/मेमोरी उपयोग जैसे अधिक विस्तृत अध्ययन नहीं किए।
लेख here.
है अद्यतन
मैं इस समस्या का कोई औपचारिक उपचार खोजने में असमर्थ था। इसके लायक होने के लिए, मैंने कुछ प्रयोग किए हैं जो XML दस्तावेज़ में नोड्स की संख्या को बाइट्स में दस्तावेज़ के आकार के फ़ंक्शन के रूप में मापते हैं। मैं गोदाम प्रबंधन प्रणाली पर काम कर रहा हूं और एक्सएमएल दस्तावेज ठेठ गोदाम दस्तावेज हैं, उदाहरण के लिए उन्नत शिपिंग नोटिस इत्यादि
नीचे दिया गया ग्राफ बाइट्स में आकार और नोड्स की संख्या के बीच संबंध दिखाता है (जो दस्तावेज़ के मेमोरी पदचिह्न के लिए डीओएम मॉडल के अनुपात में होना चाहिए)। विभिन्न रंग विभिन्न प्रकार के दस्तावेज़ों से मेल खाते हैं। पैमाने लॉग/लॉग है। ब्लैक प्वाइंट ब्लू पॉइंट्स के लिए सबसे अच्छा फिट है। यह ध्यान रखना दिलचस्प है कि सभी प्रकार के दस्तावेजों के लिए, बाइट आकार और नोड आकार के बीच संबंध रैखिक है, लेकिन आनुपातिकता का गुणांक बहुत अलग हो सकता है।
यूएचएच ग्राफ! हमेशा अच्छा। अच्छे अपडेट! – svrist