मुझे नहीं पता किसी मौजूदा प्लेटफ़ॉर्म-स्वतंत्र सॉफ़्टवेयर के बारे में जानें जो इसे पूरा करेगा, लेकिन मुझे यह पता है कि यह एक व्याख्या (प्लेटफार्म-स्वतंत्र) भाषा जैसे जावा में पूरा किया जा सकता है।
अनिवार्य रूप से, हम केवल फ़ाइल से कोई भी मेटाडाटा (टैग) पट्टी, जरूरत वीडियो फ़ाइलों demultiplexing पहले से। सैद्धांतिक रूप से डेमक्स के बाद और मेटाडेटा को हटाने के बाद, कोई फ़ाइल को हश कर सकता है और एक और फाइल के खिलाफ तुलना कर सकता है जिसने अलग-अलग टैग होने के बावजूद समान फ़ाइलों से मेल खाने के लिए एक ही प्रक्रिया को पार किया है। एक अंगुली की छाप के विपरीत, इस मिलते-जुलते गीतों/फिल्में लेकिन समान फ़ाइलें (कल्पना करें कि आप 10 विभिन्न संस्करणों या किसी दिए गए गीत आपके द्वारा संग्रहीत की बिटरेट चाहते हो सकता है, लेकिन है उनमें से किसी के आसपास चल के 2 समान प्रतियां नहीं चाहता) की पहचान नहीं होता ।
इसका सबसे परेशान हिस्सा टैग को हटा रहा है क्योंकि टैग प्रारूपों के लिए कई अलग-अलग विनिर्देश हैं जो विभिन्न अनुप्रयोगों में जरूरी नहीं हैं, यानी दो अलग-अलग अनुप्रयोगों के माध्यम से अलग-अलग टैग को समान टैग के समान सटीक ऑडियो फ़ाइल न हो समान आउटपुट फाइलों में। एकमात्र तरीका यह एक ऑडियो-केवल चेकसम की अवधारणा के लिए घातक मुद्दा उत्पन्न कर सकता है, यदि लोकप्रिय टैगिंग सॉफ़्टवेयर फ़ाइल के बाइनरी ऑडियो भाग में कोई बदलाव करता है, या ऑडियो को गैर-मानक तरीके से पैड करता है।
चेकसम ले रहा है तुच्छ है, लेकिन मैं demux और detag एमपीईजी फ़ाइलों को किसी भी मंच स्वतंत्र पुस्तकालयों में से मेरे सिर के ऊपर से अवगत नहीं हूँ। मुझे पता है कि 'निक्स वातावरण में, mpgtx एक महान कमांड लाइन उपकरण है जो डेमक्स और डिटेग कर सकता है, लेकिन जाहिर है कि यह एक मंच-स्वतंत्र समाधान नहीं है।
हो सकता है कि किसी को वहाँ बाहर महत्वाकांक्षी लगता है?
मुझे लगता है कि आप कुछ फिंगरप्रिंटिंग एल्गोरिथ्म ... कौन सा दिलचस्प होगा के रूप में यह समान मीडिया भी पहचान करने के लिए इस्तेमाल किया जा सकता के लिए देख रहे हैं। उत्तर देने के लिए तत्पर हैं, बंपिंग। +1 – hurikhan77
फिंगरप्रिंटिंग भी दिलचस्प है, उदाहरण के लिए है ऑडियो के लिए libofa [1] (जो मैं पैच के बावजूद ओएसएक्स पर संकलित नहीं कर सका) लेकिन मुझे डुप्लिकेट फाइलों की पहचान करने के लिए कुछ और सामान्य होना चाहिए और गाने/फिल्में डुप्लिकेट नहीं करना चाहिए। [1] http://code.google.com/p/musicip-libofa/ – yawniek
"टैग के बिना" द्वारा आप "मेटाडाटा के बिना" क्या मतलब है? यदि ऐसा है, तो "मीडिया डेटा" कहकर चीजों को भ्रमित कर सकता है। – cregox