मैं इसे स्वीकार करूंगा, मैं आंकड़े नहीं हूं। लेकिन मैंने पहले इस तरह की समस्याओं में भाग लिया है। वास्तव में हम यहां किस बारे में बात कर रहे हैं यह है कि आपके पास कुछ मनाए गए, अलग-अलग कार्यक्रम हैं और आप यह जानना चाहते हैं कि संभावित यह है कि आप उन्हें किसी भी समय दिए गए बिंदु पर देखेंगे। आपको जो मुद्दा मिला है वह यह है कि आप अलग डेटा लेना चाहते हैं और इसके बारे में निरंतर डेटा बनाना चाहते हैं।
जो शब्द दिमाग में आता है वह density estimation है। विशेष रूप से kernel density estimation। आप सरल कताई द्वारा कर्नेल घनत्व अनुमान के कुछ प्रभाव प्राप्त कर सकते हैं (उदाहरण के लिए प्रत्येक तिमाही घंटे या घंटे जैसे समय अंतराल में संख्या घटनाओं की गणना करें।) कर्नेल घनत्व अनुमान में सरल कताई की तुलना में कुछ अच्छे सांख्यिकीय गुण हैं। (उत्पादित डेटा अक्सर 'चिकना' होता है।)
यह केवल आपकी समस्याओं में से एक का ख्याल रखता है। अगली समस्या अभी भी कहीं अधिक दिलचस्प है - आप डेटा की समय रेखा कैसे लेते हैं (इस मामले में, केवल प्रिंटर डेटा) और इससे भविष्यवाणी की? पहली बात यह है कि जिस तरह से आपने समस्या को स्थापित किया है वह वह नहीं हो सकता है जिसे आप ढूंढ रहे हैं। जबकि डेटा का सीमित स्रोत होने और उस स्रोत के अगले चरण की भविष्यवाणी करने का चमत्कार विचार आकर्षक लगता है, वास्तविक भविष्यवाणी बनाने के लिए अधिक डेटा स्रोतों को एकीकृत करना कहीं अधिक व्यावहारिक है। (उदाहरण के लिए प्रिंटर बहुत सारी फोन गतिविधि के बाद कड़ी मेहनत कर सकते हैं - कुछ कंपनियों में भविष्यवाणी करने में बहुत मुश्किल हो सकती है) नेटफ्लिक्स चैलेंज इस बिंदु का एक और उदाहरण है।
बेशक, अधिक डेटा स्रोतों के साथ समस्या यह है कि डेटा एकत्र करने वाले सिस्टम को स्थापित करने के लिए अतिरिक्त लेगवर्क है।
ईमानदारी से, मैं इसे एक डोमेन-विशिष्ट समस्या मानता हूं और दो दृष्टिकोण लेता हूं: समय-स्वतंत्र पैटर्न ढूंढें, और समय-निर्भर पैटर्न ढूंढें।
एक उदाहरण समय-निर्भर पैटर्न यह होगा कि प्रत्येक सप्ताह के दिन 4:30 पर सूजी दिन की रिपोर्ट के अंत में प्रिंट करता है। यह सप्ताह के हर दिन विशिष्ट समय पर होता है। इस तरह की चीज निश्चित अंतराल के साथ पता लगाना आसान है। (हर दिन, हर सप्ताह के दिन, प्रत्येक सप्ताहांत दिवस, प्रत्येक मंगलवार, महीने के हर 1, आदि ...) पूर्व निर्धारित अंतराल के साथ पता लगाने के लिए यह बेहद आसान है - केवल अनुमानित संभाव्यता घनत्व समारोह का एक वक्र बनाएं जो एक सप्ताह है लंबे समय तक वापस जाएं और वक्र औसत (संभवतः बेहतर भविष्यवाणियों के लिए खिड़की के फ़ंक्शन के माध्यम से भारित औसत)।
यदि आप अधिक परिष्कृत होना चाहते हैं, तो इस तरह के अंतराल का पता लगाने के लिए एक तरीका खोजें। (संभावना है कि डेटा इतनी जबरदस्त नहीं होगी कि आप इसे बलपूर्वक बल दे सकते हैं।)
एक उदाहरण समय-स्वतंत्र पैटर्न यह है कि प्रत्येक बार माइक इन अकाउंटिंग सूची चालान को प्रिंट करता है, वह जॉनथन के पास जाता है जो कुछ घंटे बाद पूर्ण चालान रिपोर्ट के बजाय बड़े बैच को प्रिंट करता है। इस तरह की चीज का पता लगाना मुश्किल है क्योंकि यह अधिक मुफ्त रूप है। मैं समय के विभिन्न अंतराल को देखने की सलाह देता हूं (उदाहरण के लिए 30 सेकंड, 40 सेकंड, 50 सेकंड, 1 मिनट, 1.2 मिनट, 1.5 मिनट, 1.7 मिनट, 2 मिनट, 3 मिनट, .... 1 घंटा, 2 घंटे, 3 घंटे, ....) और एक वेक्टर बनाने के लिए उन्हें एक अच्छे तरीके से (जैसे Lanczos resampling) के माध्यम से subsampling। फिर "रोचक" पैटर्न को वर्गीकृत करने के लिए vector-quantization शैली एल्गोरिदम का उपयोग करें। आपको श्रेणियों की निश्चितता से निपटने के तरीके के बारे में सावधानी से सोचने की आवश्यकता होगी, हालांकि - यदि आपकी परिणामी श्रेणी में बहुत कम डेटा है, तो शायद यह विश्वसनीय नहीं है। (कुछ वेक्टर क्वांटिअलाइजेशन एल्गोरिदम दूसरों के मुकाबले बेहतर होते हैं।)
फिर, भविष्य में कुछ प्रिंट करने की संभावना के रूप में भविष्यवाणी करने के लिए, सबसे हालिया गतिविधि अंतराल देखें (30 सेकंड, 40 सेकंड, 50 सेकंड , 1 मिनट, और अन्य सभी अंतराल) वेक्टर क्वांटिज़ेशन के माध्यम से और अनुमानों के भारित औसत बनाने के लिए परिणामों को उनके निश्चितता के आधार पर वजन बढ़ाते हैं।
अंतिम अनुमान बनाने के लिए आप समय-निर्भर और समय-स्वतंत्र आउटपुट की निश्चितता को मापने के लिए एक अच्छा तरीका खोजना चाहेंगे।
इस तरह की चीज पूर्वानुमानित डेटा संपीड़न योजनाओं के विशिष्ट है। मैं आपको PAQ पर एक नज़र डालने की सलाह देता हूं क्योंकि इसमें बहुत सारी अवधारणाएं हैं जिन्हें मैं यहां चला गया हूं और कुछ बहुत ही रोचक अंतर्दृष्टि प्रदान कर सकता हूं। प्रयुक्त कोड एल्गोरिदम पर उत्कृष्ट दस्तावेज़ीकरण के साथ भी उपलब्ध है।
आप वेक्टर क्वांटिज़ेशन से पूरी तरह से अलग दृष्टिकोण लेना चाहते हैं और डेटा को अलग कर सकते हैं और PPM योजना जैसे कुछ और उपयोग कर सकते हैं। यह लागू करने और अभी भी प्रभावी करने के लिए बहुत आसान हो सकता है।
मुझे नहीं पता कि इस परियोजना का समय सीमा या दायरा क्या है, लेकिन इस तरह की चीज हमेशा एन-वें डिग्री में ले जाया जा सकता है। अगर इसकी समय सीमा तय हो गई है, तो मैं इस बात पर जोर देना चाहूंगा कि आप पहले कुछ काम करने के बारे में चिंता करते हैं, और फिर इसे अच्छी तरह से काम करते हैं। कुछ भी इष्टतम नहीं है कुछ भी नहीं है।
इस तरह की परियोजना ठंडा है। यदि आप इसे सही तरीके से लपेटते हैं तो इस तरह की परियोजना आपको नौकरी मिल सकती है। मैं आपको सलाह दूंगा कि आप अपना समय लें, इसे सही करें, और इसे फ़ंक्शन, ओपन सोर्स, उपयोगी सॉफ़्टवेयर के रूप में पोस्ट करें। मैं खुले स्रोत की अत्यधिक अनुशंसा करता हूं क्योंकि आप एक ऐसा समुदाय बनाना चाहते हैं जो डेटा स्रोत प्रदाताओं को उन वातावरणों में योगदान दे सकता है जिनके पास आपके पास पहुंच है, समर्थन करना होगा या समर्थन के लिए समय होगा।
शुभकामनाएँ!
हो सकता है कि आप 0s और 1s की एक सूची उत्पन्न कर सकें, जहां घटनाएं होती हैं, अन्यथा शून्य, पैटर्न को पहचानने के लिए एक तंत्रिका जाल को प्रशिक्षित करें। असल में यदि आपकी सूची 1000 घटनाएं लंबी है, और आप अगले 100 की भविष्यवाणी करना चाहते हैं, तो 1000-> 100 तंत्रिका नेट का उपयोग करें। –
आपको शायद [सांख्यिकी स्टैकएक्सचेंज] में बेहतर उत्तर मिलेगा (http://stats.stackexchange.com/) – amit
उस बारे में नहीं पता था! मुझे लगता है कि मुझे इसे वहां पर दोबारा पोस्ट करना चाहिए? – ankushg