मैं डेटा की एक बड़ी मात्रा में एक यादृच्छिक क्रम में डेटा की एक छोटी राशि कैसे वितरित करूं?डेटा का यादृच्छिक वितरण
उदाहरण के लिए, मेरे पास 'वास्तविक' डेटा की कई हजार लाइनें हैं, और मैं 'वास्तविक' डेटा में एक यादृच्छिक क्रम में नियंत्रण डेटा के दर्जन या दो पंक्तियां डालना चाहता हूं।
अब मैं यादृच्छिक संख्या जेनरेटर का उपयोग करने के लिए पूछने की कोशिश नहीं कर रहा हूं, मैं एक सांख्यिकीय प्रश्न पूछ रहा हूं, मुझे याद है कि यादृच्छिक संख्याएं कैसे उत्पन्न करें, लेकिन मेरा सवाल यह है कि मैं कैसे सुनिश्चित करूं कि यह डेटा यादृच्छिक रूप से डाला गया है आदेश के साथ ही फ़ाइल के माध्यम से काफी समान रूप से बिखरे हुए हैं।
यदि मैं केवल यादृच्छिक संख्याएं उत्पन्न करने पर भरोसा करता हूं तो एक संभावना है (हालांकि बहुत छोटा है) कि मेरा सभी नियंत्रण डेटा, या कम से कम क्लंप, 'असली' डेटा के काफी संकीर्ण चयन के भीतर डाला जाएगा। ऐसा होने से रोकने का सबसे अच्छा तरीका क्या है?
इसे एक और तरीके से वाक्यांश करने के लिए, मैं अपने वास्तविक डेटा में नियंत्रण डेटा डालना चाहता हूं, बिना किसी तीसरे पक्ष के गणना के लिए कि कौन सी पंक्तियां नियंत्रित हैं और वास्तविक हैं।
अद्यतन: मैंने इसे 'समुदाय विकी' बना दिया है, इसलिए यदि कोई मेरा प्रश्न संपादित करना चाहता है तो यह अधिक समझ में आता है और फिर आगे बढ़ता है।
अद्यतन: मुझे एक उदाहरण आज़माएं (मैं इस भाषा या मंच को निर्भर नहीं करना चाहता क्योंकि यह कोडिंग प्रश्न नहीं है, यह एक सांख्यिकीय प्रश्न है)।
- मेरे पास 'वास्तविक' डेटा की 3000 पंक्तियां हैं (यह राशि उपयोगकर्ता के डेटा की मात्रा के आधार पर रन से चलने के लिए बदल जाएगी)।
- मेरे पास 'नियंत्रण' डेटा की 20 पंक्तियां हैं (फिर से, यह उपयोगकर्ता की नियंत्रण पंक्तियों की संख्या के आधार पर बदल जाएगी, शून्य से ऊपर कुछ भी)।
अब मैं इन 20 'नियंत्रण' पंक्तियों को लगभग 15012 या 'असली' डेटा डालने के बाद लगभग डालना चाहता हूं (3000/20 = 150)। हालांकि मैं यह उतना सटीक नहीं होना चाहता जितना कि मैं नहीं चाहता कि नियंत्रण पंक्तियों को आउटपुट डेटा में उनके स्थान के आधार पर पहचानने योग्य हो।
इसलिए मुझे कोई आपत्ति नहीं है 'नियंत्रण' पंक्तियों के कुछ साथ clumped जा रहा है या वहाँ के लिए बहुत कुछ या सभी में कोई 'नियंत्रण' पंक्तियों के साथ कुछ वर्गों हो सकता है, लेकिन आम तौर पर मैं 'नियंत्रण' चाहते हैं पंक्तियों में समान रूप से वितरित पंक्तियों को समान रूप से वितरित किया जाता है।
किस संदर्भ में? क्या यह डेटाबेस में है? एक सादा पाठ फ़ाइल? – ine
यह एक सादा पाठ फ़ाइल है, वास्तव में मेरे पास नियंत्रण पंक्तियों के साथ स्मृति में पंक्तियां हैं। जैसे ही मैं फाइल करने के लिए 'असली' पंक्तियां लिखता हूं, मैं यह तय करने में सक्षम होना चाहता हूं कि मुझे 'नियंत्रण' पंक्ति लिखनी चाहिए, नियंत्रण पंक्तियों को वास्तविक डेटा में वितरित किया जा रहा है और सभी शुरुआत या अंत में नहीं फंस गए हैं। – AnturCynhyrfus