2012-08-26 8 views
14

मुझे हाल ही में सर्वर लॉग डेटा (नई नौकरी पर) की एक बड़ी राशि तक पहुंच मिली है। मुझे कॉलेज से मशीन सीखने में कुछ अनुभव है। लॉग डेटा में सर्वर लॉग, डेटाबेस एक्सेस लॉग इत्यादि शामिल हैं। मैं सोच रहा था कि इस तरह के डेटा से किस प्रकार की शिक्षा की जा सकती है।सर्वर लॉग डेटा पर मशीन लर्निंग

मैंने कोशिश की एक छोटी सी बात पिछले सप्ताह के आंकड़ों के आधार पर दिन के एक निश्चित घंटे पर अनुरोधों की संख्या की भविष्यवाणी करने के लिए थी, जो ठीक लग रहा था लेकिन यह एक तरह का मामूली है। तो,

  • ऐसे डेटा से किस प्रकार की शिक्षा की जा सकती है?
    • पिछले स्पैमर के कुछ उपयोग पैटर्न के आधार पर विज्ञापनों पर स्पैम क्लिक करने वाले आईपी की संभावना की भविष्यवाणी कर सकता है (हां कंपनी उसमें है)?
    • भविष्यवाणी कर सकता है कि ट्रैफ़िक किस समय शूट हो सकता है।
  • क्या कोई मौजूदा उपकरण/परियोजनाएं हैं जो विशेष रूप से लाभ उठाती हैं?
  • कोई भी दिलचस्प संसाधन/कागजात जो समान सामान के बारे में बात करते हैं?
  • इसके अलावा, डेटा से संबंधित प्रक्रिया गतिविधि सर्वर पर एक निश्चित समय पर। क्या यह सीखने के लिए उपयोगी हो सकता है?

उत्तर

25

Wei Xu एट अल (2010) Experience on Mining Google's Production Console Logs पर एक नज़र और काम वे अदालत में तलब किया है। संक्षेप में वे: लॉग से पहचानकर्ता को निकालने के लिए

  1. निकालें लॉगिंग टेम्पलेट्स स्रोत कोड से (उदाहरण के लिए "% s फाइल करने के लिए लेखन") (लॉग% s के लिए इसी में बात एक पहचानकर्ता है)। वे गैर-पहचानकर्ताओं (जैसे समय) से पहचानकर्ताओं को अलग करने के लिए कुछ हेरिस्टिक का उपयोग करते हैं।
  2. कच्चे नंबर की बजाय मूल्यों के बीच अनुपात का उपयोग करें (उदा। असफल और सभी काम करता है)
  3. ऐसी सुविधाओं के वैक्टरों में विसंगतियों को खोजने के लिए प्रिंसिपल घटक विश्लेषण का उपयोग करें।

शायद आप ऐसा नहीं कर सकते हैं 1. लेकिन शायद आप अपने स्वयं के "पार्सर" लिखने वाले चर निकाल सकते हैं।

इस तरह के डेटा में हमले की खोज के लिए DARPA challenge भी है, लेकिन यह लगभग 15 साल पहले है।

कुछ उपकरण जैसे splunk हैं, लेकिन एक अच्छा इंटरफेस के अलावा वे सरल खोज और फ़िल्टरिंग से काफी अधिक ऑफर नहीं करते हैं। अद्यतन: prelert द्वारा एक विसंगति पहचान प्लगइन है।

मुझे और भी पता नहीं है। अगर आपको कुछ और मिलता है तो कृपया मुझे बताएं।

तो मुझे क्या करना होगा: लॉग से

  1. निकालें सुविधाओं/चर

    आप शायद स्रोत कोड है कि संदेशों उत्पन्न के रूप में जू था के लिए पहुँच नहीं है, लेकिन मुझे लगता है कि यह मान लॉग का एक बड़ा हिस्सा पैटर्न की एक छोटी संख्या से ढंका जा सकता है (उदाहरण के लिए सभी फ़ायरवॉल लॉगों में एक ही पैटर्न होगा)। आप उन लॉग से सुविधाओं को निकालने वाले रेगेक्स पार्सर्स लिख सकते हैं (उदा। कुछ समय पर एक कनेक्शन अस्वीकार कर दिया गया था)।

  2. विसंगति का पता लगाने (पीसीए, या केवल व्यक्तिगत रूप से उनके अर्थ से विचलन) और उन पर भविष्यवाणी करने का प्रयास करें।

+0

धन्यवाद! मैं एक बार नजर डालूँगा – swair