मान लीजिए कि आप किसी साइट के उपयोगकर्ताबेस के आकार का आकलन करना चाहते हैं जो इस जानकारी को प्रचारित नहीं करता है।नमूना लेने से साइट के उपयोगकर्ताबेस के आकार का अनुमान लगाने के लिए उपयोगकर्ता नाम
लोग विभिन्न संभावनाओं के साथ अलग-अलग उपयोगकर्ता नाम प्राप्त करने की अधिक संभावना रखते हैं। उदाहरण के लिए, यदि उपयोगकर्ता नाम 'निक' सिस्टम पर मौजूद नहीं है, तो इसकी संभावना बहुत कम उपयोगकर्ताबेस होने की संभावना है। यदि उपयोगकर्ता नाम 'स्टारबाबी' लिया जाता है, तो यह एक बहुत बड़ी साइट होने की संभावना है। यह एक सीधी बेयसियन समस्या की तरह लगता है।
समस्या यह है कि अलग-अलग साइटों में स्वीकार्य उपयोगकर्ता नामों की एक अलग जगह हो सकती है। सबसे बड़ी समस्या सामान्य पात्रों की वैधता होगी जैसे रिक्त स्थान, मुझे कल्पना है। एक और मुद्दा जो पूर्व वितरण को दंडित कर सकता है यह है कि जब साइट आप चाहते हैं तो नाम नाम सुझाता है, या आपको खुद को और अधिक रचनात्मक नाम के बारे में सोचने के लिए छोड़ देता है।
आप विभिन्न आकार के सिस्टम में उपयोगकर्ता नामों की घटना की आवृत्ति का प्रशिक्षण सेट कैसे बना सकते हैं? बेयस का उपयोग निश्चित चौड़ाई वाली बाल्टी में वर्गीकरण के बजाय संख्यात्मक अनुमान करने के लिए करने का कोई तरीका है?
बेहतर उत्तर प्राप्त करने के लिए अनुमान लगा सकें, तो मैं इसे संपादित कर दूंगा आखिरी सवाल, "क्या आपको लगता है कि इस विचार में योग्यता है?" हर कोई उस पर ध्यान केंद्रित करने जा रहा है और आपको कठोर राय-आधारित उत्तर देता है, लेकिन आपके लिए अधिक मूल्यवान लोग आपके पहले दो तकनीकी प्रश्नों के उत्तर होंगे। –
@ ब्रेंट ओज़र: अच्छी सलाह! मुझे यह देखकर खुशी हुई कि उसने इसे लिया। –
और जल्दी से एक बेहतर उत्तर मिला –