में एलओएफ कार्यान्वयन से अलग-अलग परिणाम मैंने एलओएफ का अपना कार्यान्वयन लिखा है और मैं ईएलकेआई और रैपिडमिनर में कार्यान्वयन के साथ परिणामों की तुलना करने की कोशिश कर रहा हूं, लेकिन सभी 3 अलग-अलग परिणाम देते हैं! मैं बाहर काम करने की कोशिश कर रहा हूँ क्यों।ईएलकेआई और रैपिडमिनर
मेरा संदर्भ डेटासेट कई डुप्लीकेट वाले एक-आयामी, 102 वास्तविक मान हैं। मैं कोशिश करूँगा और इसे नीचे पोस्ट करूंगा।
सबसे पहले, रैपिडमिनर कार्यान्वयन। एलओएफ स्कोर ईएलकेआई से और मेरे परिणामों से जंगली रूप से अलग हैं; कई अनंतता के एलओएफ के साथ वापस आते हैं। क्या इस कार्यान्वयन को सही होने के रूप में मान्य किया गया है?
मेरे परिणाम ELKI के समान हैं, लेकिन मुझे बिल्कुल वही LOF मान नहीं मिलते हैं। ईएलकेआई स्रोत कोड में टिप्पणियों के त्वरित स्कैन से, मुझे लगता है कि यह के-पड़ोस की गणना के तरीके में मतभेदों के कारण हो सकता है।
एलओएफ पेपर में, मिनीपेट पैरामीटर (कहीं और कहा जाता है) न्यूनतम संख्या निर्दिष्ट करता है। के-पड़ोस में अंक शामिल किए जाएंगे। ईएलकेआई कार्यान्वयन में, मुझे लगता है कि वे के-पड़ोस को के-दूरी या के-विशिष्ट दूरी के सभी बिंदुओं के बजाय के-पड़ोस को बिल्कुल के अंक के रूप में परिभाषित कर रहे हैं। क्या कोई पुष्टि कर सकता है कि ईएलकेआई के-पड़ोस का निर्माण कैसे करता है? इसके अलावा एक निजी चर है जो बिंदु को स्वयं अपने पड़ोस में शामिल करने की अनुमति देता है, लेकिन ऐसा लगता है कि डिफ़ॉल्ट इसे शामिल नहीं करना है।
क्या किसी को सार्वजनिक संदर्भ डेटासेट के बारे में पता है जिसमें सत्यापन उद्देश्यों के लिए एलओएफ स्कोर संलग्न हैं?
--- अधिक जानकारी के पालन ---
संदर्भ: ELKI स्रोत कोड यहाँ है:
http://elki.dbs.ifi.lmu.de/browser/elki/trunk/src/de/lmu/ifi/dbs/elki/algorithm/outlier/lof/LOF.java
RapidMiner स्रोत कोड यहाँ है:
यहाँ मेरा परीक्षण डेटासेट है:
4,32323 5,12595 5,12595 5,12595 5,12595 5,7457 5,7457 5,7457 5,7457 5,7457 5,7457 5,97766 5,97766 6,07352 6,07352 6,12015 6,12015 6,12015 6,44797 6,44797 6,48131 6,48131 6,48131 6,48131 6,48131 6,48131 6,6333 6,6333 6,6333 6,70872 6,70872 6,70872 6,70872 6,70872 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 6,77579 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,03654 7,10361 7,10361 7,10361 7,10361 7,10361 7,10361 7,10361 7,10361 7,15651 7,1 5651 7,15651 7,15651 7,15651 7,15651 7,15651 7,15651 8,22598 8,22598 8,22598 8,22598 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538 8,5538
उदाहरण के लिए, मैं पहली बार नंबर के लिए निम्नलिखित LOF अंक प्राप्त (४.३२,३२३):
- RapidMiner: अनंत
- ELKI (MinPts कम/ऊपरी सीमा 10100 करने के लिए सेट के साथ): 2।6774 (k = 10 और distfunction/reachdistfunction डिफ़ॉल्ट करने के लिए सेट के साथ)
- मेरे कार्यान्वयन: 1,9531
पर कुछ अधिक जानकारी के क्या मेरी कार्यान्वयन कर रही है:
- MinPts 10 है, इसलिए मैं मैं बिंदु के 10 विशिष्ट पड़ोसियों को ढूंढ रहा हूँ। तो 4.32323 का पड़ोस वास्तव में 48 अंक है, 5.125 9 5 से 6.77579 तक।
- जो मुझे के रूप में 1,58277
- मैं के रूप में 1/(99,9103/48) नमूने के LRD की गणना कर रहा हूँ 2,45256
- मैं पहली बार पड़ोसी की गम्यता दूरी की गणना कर रहा हूँ की एक k-अलग दूरी देता है
- LRD (O)/LRD (p) सभी 48 पड़ोसियों के लिए का योग 1,9531
आप (एक उच्च अधिकतम बिना) minpts = 10 के लिए RapidMiner परिणाम जोड़ने चाहेंगे? यह देखना दिलचस्प होगा कि क्या यह सहमत है, या हमेशा अनंतता पर जाता है। –