5

एल्गोरिदम में क्या अंतर होता है यह एक बड़ा या छोटा गामा मूल्य बनाता है? मेरे ऑप्टिक में, जब तक यह न तो 0 या 1 है, यह बिल्कुल वही काम करना चाहिए। दूसरी तरफ, जो भी गामा मैं चुनता हूं, ऐसा लगता है कि क्वाल्व्स वास्तव में बहुत जल्दी शून्य के करीब आते हैं (मुझे यहां एक त्वरित परीक्षण में 10^-300 के आदेश पर मूल्य हैं)। आम तौर पर लोग क्वॉल्यूज़ कैसे प्लॉट करते हैं (मैं उस स्थिति के लिए एक (x, y, सर्वोत्तम QValue) प्लॉट कर रहा हूं? समस्या है? मैं लॉगरिदम के साथ घूमने की कोशिश कर रहा हूं लेकिन फिर भी यह थोड़ी अजीब लगता है।QLearning में अल्फा और गामा पैरामीटर

इसके अलावा, मुझे नहीं लगता कि क्यू लर्निंग अपडेट फ़ंक्शन में होने और अल्फा पैरामीटर के पीछे क्या कारण है। यह मूल रूप से उस अद्यतन की परिमाण को सेट करता है जिसे हम क्यू वैल्यू फ़ंक्शन में करने जा रहे हैं। मुझे लगता है कि यह आमतौर पर कम हो जाता है समय के साथ घटने में रुचि क्या है? शुरुआत में एक अद्यतन मूल्य 1000 एपिसोड के बाद अधिक महत्व होना चाहिए?

इसके अलावा, मैं सोच रहा था कि प्रत्येक बार एजेंट की जगह अंतरिक्ष की खोज के लिए एक अच्छा विचार लालची कार्रवाई करना नहीं चाहता है किसी भी राज्य का पता लगाने के लिए जो अभी भी एक ज़ीर है ओ QValue (इसका मतलब है, कम से कम ज्यादातर बार, एक राज्य पहले कभी नहीं किया), लेकिन मुझे नहीं लगता कि किसी भी साहित्य में संदर्भित है। क्या इसके लिए कोई डाउनसाइड्स हैं? मुझे पता है कि इसका उपयोग (कम से कम कुछ) सामान्यीकरण कार्यों के साथ नहीं किया जा सकता है।

अन्य विचार विज़िट किए गए राज्यों/कार्यों की एक तालिका रखना होगा, और उन कार्यों को करने का प्रयास करें जो उस राज्य में कम समय पहले किए गए थे। बेशक यह केवल अपेक्षाकृत छोटे राज्य रिक्त स्थान में किया जा सकता है (मेरे मामले में यह निश्चित रूप से संभव है)।

अन्वेषण प्रक्रिया में देरी के लिए एक तीसरा विचार न केवल सर्वोत्तम कार्यवाही की तलाश में चयनित कार्रवाई को देखना होगा बल्कि उन सभी कार्यों को भी संभवतः और उस राज्य के अंदर और फिर उस राज्य के अन्य लोगों में भी देखना होगा। ।

मुझे पता है कि उन प्रश्नों को थोड़े से असंबंधित हैं, लेकिन मैं उन लोगों की राय सुनना चाहता हूं जिन्होंने इससे पहले काम किया है और (शायद) उनमें से कुछ के साथ भी संघर्ष किया है।

+0

नीति क्या थी? समस्या क्या है? राज्य क्या हैं? क्या काम को प्रेरित करता है? आपने किस कोड का उपयोग किया? क्या आपने अपना कोड काम दिखाने के लिए संदर्भ समस्या का उपयोग किया था? – EngrStudent

उत्तर

-2

मैंने पहले वास्तव में इस तरह सिस्टम के साथ काम नहीं किया है, इसलिए मैं मैं हो सकता है कि कैसे उपयोगी पता नहीं है, लेकिन ...

गामा एजेंट के रुझान की माप भविष्य पुरस्कार के लिए तत्पर हैं करने के लिए है । जितना छोटा होगा उतना ही एजेंट परिणामस्वरूप राज्य के बावजूद सबसे बड़ा इनाम के साथ कार्रवाई करेगा। बड़े गामा वाले एजेंट बड़े पुरस्कारों के लिए लंबे मार्ग सीखेंगे। जैसा कि सभी क्यू मान शून्य तक पहुंचते हैं, क्या आपने गामा = 0 के साथ एक बहुत ही सरल राज्य मानचित्र (कहें, एक राज्य और दो क्रियाएं) के साथ प्रयास किया है? इसे तुरंत क्यू = इनाम से संपर्क करना चाहिए।

अल्फा को कम करने का विचार क्यू मानों में ऑसीलेशन को कम करना है, ताकि एजेंट जंगली युवाओं के बाद एक स्थिर पैटर्न में बस सके।

राज्य की जगह तलाश रहे हैं? क्यों न सिर्फ इसे फिर से शुरू करें, क्या एजेंट सब कुछ करने का प्रयास करें? एजेंट को वास्तव में अपने सीखने में कार्रवाई के पाठ्यक्रम का पालन करने का कोई कारण नहीं है - जब तक कि यह आपके सिमुलेशन का बिंदु न हो। यदि विचार इष्टतम व्यवहार पैटर्न को ढूंढने के लिए है, तो सभी प्रश्नों को समायोजित करें, न केवल पथ के साथ उच्चतम वाले।

+0

क्यू-लर्निंग करने का मुद्दा सभी जगहों पर पुनरावृत्ति नहीं करना है। जितना संभव हो सके तेज़ी से सीखना ठीक है (यानी, विशाल राज्य की जगहें, तेजी से सीखना कि किसी दिए गए कार्य के लिए उन्हें कितना अच्छी तरह से खोजना है)। यदि विचारधारा उस पर फिर से चलाना था, तो मैं एक विशिष्ट खोज प्रणाली (सांस पहले, गहरी खोज, आदि) का उपयोग करता था। इसके अलावा, मुझे शून्य पर गामा सेट करने का बिंदु नहीं मिलता है। यह केवल उन क्रियाओं को करेगा जो लक्ष्य को अपडेट किए जाते हैं। अन्य सभी शून्य के बराबर होंगे। –

8

एक सुदृढीकरण झुकाव स्वामी उम्मीदवार से:

अल्फा सीखने दर है। अगर इनाम या संक्रमण समारोह स्टोकास्टिक (यादृच्छिक) है, तो अल्फा को समय के साथ बदलना चाहिए, अनंत पर शून्य तक पहुंचना। यह एक आंतरिक उत्पाद (टी (संक्रमण) * आर (इनाम) के अपेक्षित परिणाम को अनुमानित करने के साथ करना है, जब दोनों में से एक या दोनों में यादृच्छिक व्यवहार होता है।

यह तथ्य ध्यान रखना महत्वपूर्ण है।

गामा भविष्य के इनाम का मूल्य है। यह काफी सीखने को प्रभावित कर सकता है, और एक गतिशील या स्थैतिक मूल्य हो सकता है। यदि यह एक के बराबर है, तो एजेंट भविष्य के इनाम को वर्तमान इनाम के रूप में बहुत महत्व देता है। इसका मतलब है, दस कार्यों में, यदि कोई एजेंट कुछ अच्छा करता है तो यह केवल इस क्रिया को करने के रूप में मूल्यवान है। तो सीखना उच्च गामा मूल्यों पर उस कुएं पर काम नहीं करता है।

इसके विपरीत, शून्य की एक गामा एजेंट को तत्काल पुरस्कारों का महत्व देगी, जो केवल बहुत विस्तृत इनाम कार्यों के साथ काम करती है।

इसके अलावा - खोज व्यवहार के लिए ... वास्तव में इस पर साहित्य के टन हैं। आपके सभी विचारों में, 100% की कोशिश की गई है। मैं एक और विस्तृत खोज की सिफारिश करता हूं, और निर्णय सिद्धांत और "नीति सुधार" को भी शुरू करना चाहता हूं।

बस अल्फा पर एक नोट जोड़ना: कल्पना कीजिए कि आपके पास एक इनाम फ़ंक्शन है जो एक निश्चित राज्य क्रिया कॉम्बो एसए के लिए 1, या शून्य थूकता है। अब जब भी आप SA निष्पादित करते हैं, तो आपको 1, या 0 प्राप्त होगा। यदि आप अल्फा को 1 के रूप में रखते हैं, तो आपको 1, या शून्य के क्यू-वैल्यू मिलेंगे। यदि यह 0.5 है, तो आपको +0.5, या 0 के मान मिलेंगे, और फ़ंक्शन हमेशा के लिए दो मानों के बीच आ जाएगा। हालांकि, अगर हर बार आप अपना अल्फा 50 प्रतिशत घटाते हैं, तो आपको इस तरह के मूल्य मिलते हैं। (माना जाता है कि इनाम प्राप्त किया गया है 1,0,1,0, ...)। आपके क्यू-वैल्यू 1,0.5,0.75,0.9,0.8, ... और अंततः 0.5 के करीब के रूप में परिवर्तित हो जाएंगे। अनंतता पर यह 0.5 होगा, जो एक संभाव्य अर्थ में अपेक्षित इनाम है।

+0

क्या आप कुछ लिंक जोड़ सकते हैं? – EngrStudent

0

एल्गोरिदम में क्या अंतर होता है यह बड़ा या छोटा गामा मूल्य बनाता है?

gammas अवलोकन अंतरिक्ष के आकार के अनुरूप होना चाहिए: यदि आप बड़े राज्य रिक्त स्थान, और ऐसे छोटे स्थानों के लिए छोटे gammas के लिए (यानी 1 के समीप) बड़ा gammas उपयोग करना चाहिए।

गामा के बारे में सोचने का एक तरीका यह है कि यह अंतिम, सफल राज्य से इनाम की क्षय दर का प्रतिनिधित्व करता है।