में स्रोत कोड और डेटा को साफ तरीके से कैसे प्रबंधित करें मैं एक सहयोगी वैज्ञानिक परियोजना पर काम कर रहा हूं जो कुछ हद तक पायथन स्क्रिप्ट (1 एम अधिकतम) और अपेक्षाकृत बड़े डेटासेट (1.5 जीबी) द्वारा बनाई गई है। डेटासेट्स पाइथन स्क्रिप्ट से कड़े से जुड़े हुए हैं क्योंकि डेटासेट स्वयं विज्ञान हैं और स्क्रिप्ट उनके लिए एक सरल इंटरफ़ेस हैं।रिपोजिटरी
मैं अपने स्रोत नियंत्रण उपकरण के रूप में Mercurial का उपयोग कर रहा हूं, लेकिन मैं भंडार को परिभाषित करने के लिए एक अच्छी तंत्र पर स्पष्ट नहीं हूं। तर्कसंगत रूप से इन्हें एक साथ बंडल करना समझ में आता है ताकि संग्रह को क्लोन करके आपको पूरा पैकेज मिल सके। दूसरी तरफ, मैं बड़ी मात्रा में डेटा से निपटने वाले स्रोत नियंत्रण उपकरण के बारे में चिंतित हूं।
क्या इसे संभालने के लिए एक साफ तंत्र है?
आम तौर पर वैज्ञानिक मेरे हाथों से बाहर प्रत्येक डेटासेट के लिए एक नया उपकरण रोल करते हैं। स्क्रिप्ट अपेक्षाकृत हल्की और कसकर प्रत्येक डेटासेट के quirks से जुड़ा हुआ है। किसी और के लिए डेटा एक्सचेंज प्रोटोकॉल को मजबूर करने के बजाय मेरे लिए एक छोटी लिपि को अनुकूलित करना मेरे लिए आसान है। – Rich