मुझे एक दिलचस्प समस्या पर कुछ इनपुट चाहिए जो मुझे सौंपा गया है। कार्य गोपनीयता नीतियों के सैकड़ों, और अंततः हजारों का विश्लेषण करना और उनमें से मूल विशेषताओं की पहचान करना है। उदाहरण के लिए, क्या वे उपयोगकर्ता का स्थान लेते हैं ?, क्या वे तीसरे पक्ष के साथ साझा/बेचते हैं ?, आदिदिलचस्प एनएलपी/मशीन-लर्निंग स्टाइल प्रोजेक्ट - गोपनीयता नीतियों का विश्लेषण
मैंने कुछ लोगों से बात की है, गोपनीयता नीतियों के बारे में बहुत कुछ पढ़ा है, और इस बारे में सोचा है। यहां हमले की मेरी वर्तमान योजना है:
सबसे पहले, बहुत सारी गोपनीयता पढ़ें और प्रमुख "संकेत" या संकेतक खोजें जो एक निश्चित विशेषता से मुलाकात की जाती हैं। उदाहरण के लिए, यदि सैकड़ों गोपनीयता नीतियों में एक ही पंक्ति है: "हम आपका स्थान लेंगे।", यह पंक्ति 100% आत्मविश्वास के साथ एक क्यू हो सकती है कि उस गोपनीयता नीति में उपयोगकर्ता के स्थान को शामिल करना शामिल है। अन्य संकेत एक निश्चित विशेषता के बारे में आत्मविश्वास की बहुत छोटी डिग्री देंगे .. उदाहरण के लिए, "स्थान" शब्द की उपस्थिति से उपयोगकर्ता की स्थिति 25% तक की संभावना बढ़ सकती है।
विचार इन संकेतों को विकसित करना होगा, और उनके उचित आत्मविश्वास अंतराल पर उस बिंदु पर जहां मैं उच्च गोपनीयता वाले सभी गोपनीयता नीतियों को वर्गीकृत कर सकता हूं। यहां एक समानता ईमेल-स्पैम पकड़ने वाली प्रणालियों के लिए बनाई जा सकती है जो बेयसियन फ़िल्टर का उपयोग यह पहचानने के लिए करते हैं कि कौन सा मेल वाणिज्यिक और अनचाहे हो सकता है।
मैं पूछना चाहता था कि क्या आप सोचते हैं कि यह इस समस्या का एक अच्छा दृष्टिकोण है। आप इस तरह की समस्या से कैसे संपर्क करेंगे? इसके अलावा, क्या कोई विशिष्ट उपकरण या ढांचे हैं जिनका उपयोग आप अनुशंसा करते हैं। कोई इनपुट स्वागत है। यह मेरी पहली बार एक परियोजना कर रही है जो कृत्रिम बुद्धि, विशेष रूप से मशीन लर्निंग और एनएलपी पर छूती है।
समस्या वास्तव में दस्तावेज़ वर्गीकरण नहीं है। आप प्रत्येक दस्तावेज़ को टुकड़ों में विभाजित करना चाहते हैं, फिर प्रत्येक खंड को लेबल/वर्गीकृत/सारांशित करना चाहते हैं। एक निष्पक्ष दृष्टिकोण प्रत्येक पैराग्राफ या व्याकरण वाक्य को एक खंड के रूप में देख सकता है, लेकिन यह बहुत कच्चा हो सकता है। – tripleee
हालांकि कुछ पैराग्राफ वास्तव में एक विशिष्ट उपयोगकर्ता की गोपनीयता के लिए मुख्य हैं। मुझे "हॉट-बटन" मुद्दों में दिलचस्पी है, जैसे स्थान पकड़ना, तीसरे पक्षों को बेचना आदि। मानक बॉयलरप्लेट अप्रासंगिक है। – babonk
उन बिंदुओं में से एक जो मैंने करने की कोशिश की है, यह है कि इस तरह की प्रणाली के लिए यह एक गंभीर त्रुटि होगी क्योंकि "मुझे पता है कि यह क्या है, और मैं इसे अनदेखा कर सकता हूं" और "मुझे नहीं पता कि यह क्या है है"। इसलिए मुझे लगता है कि वास्तव में आपको "मानक बॉयलरप्लेट" कहने की आवश्यकता है। यदि वास्तव में यह मानक और बॉयलरप्लेट है, तो यह मुख्य कार्य की तुलना में आसान होना चाहिए। – tripleee