this, हम जानते हैं:
क्यू सीखने के अभिसरण किसी भी अन्वेषण नीति का उपयोग धारण, और केवल आवश्यकता है कि प्रत्येक राज्य कार्रवाई युग्म (s,a)
निष्पादित होता है असीम अक्सर।
epsilon-greedy policy
अन्वेषण और शोषण के बीच संतुलन है, जो दोनों अभिसरण और अक्सर अच्छे प्रदर्शन की गारंटी देता है।लेकिन व्यावहारिक समस्याओं में, हमें बेहतर रिटर्न का प्रतिनिधित्व करने के लिए सीखने की गति alpha
बदलने के लिए अक्सर कुछ हेरिस्टिक की आवश्यकता होती है। अन्यथा, infinite often
आवश्यकता को पूरा करना मुश्किल है।
मैं नीचे एक उदाहरण सूचीबद्ध करता हूं। यह एक शास्त्रीय समस्या है, जिसमें आपके पास ग्रिड है और आपके पास प्रत्येक सेल में संभवतः अलग इनाम राशि है। उदाहरण के लिए, एक 4x4 ग्रिड नीचे दिखाया गया है, जिसमें प्रत्येक सेल में 1
का इनाम होता है, शीर्ष-बाएं सेल को छोड़कर (आपके पास 10
की राशि के साथ एक बड़ा इनाम है)। ग्रिड में एक रोबोट चल रहा है। कानूनी कार्य LEFT
, RIGHT
, UP
और DOWN
पर जा रहे हैं, लेकिन रोबोट ग्रिड से बाहर नहीं जा सकता है।
तो हमारे राज्य स्थान में 16 अलग-अलग राज्य होते हैं, जो 16 कोशिकाओं से मेल खाते हैं। प्रत्येक राज्य के लिए, सीमा बाधा के कारण कानूनी कार्रवाइयों की अलग-अलग संख्याएं होती हैं। हमारा लक्ष्य इष्टतम नीति की गणना करना है (किसी भी राज्य s
दिए गए, एक इष्टतम कार्रवाई a
आउटपुट)।
+++++++++++++++++++++
+ 10 + 1 + 1 + 1 +
+++++++++++++++++++++
+ 1 + 1 + 1 + 1 +
+++++++++++++++++++++
+ 1 + 1 + 1 + 1 +
+++++++++++++++++++++
+ 1 + 1 + 1 + 1 +
+++++++++++++++++++++
मान लीजिए हम प्रयोग epsilon=0.1
के साथ एक epsilon-greedy policy
, एक निरंतर सीखने की दर alpha=0.1
। हम ग्रिड पर एक यादृच्छिक स्थिति के साथ शुरू करते हैं। जब भी हम ऊपरी बाएं कोने तक पहुंचते हैं, हम फिर से एक यादृच्छिक स्थिति के साथ पुनरारंभ करते हैं।
नीचे 200,000 चालों का सिमुलेशन चलाने का परिणाम है। बाएं सबसे अधिक ब्लॉक प्रत्येक सेल पर वर्तमान लालची नीति को दृष्टि से दिखाता है।
-->
सही
<--
छोड़ दिया चलती
^
अप
v
चलती नीचे चलती
तो आप देख यह सर्वोत्कृष्ट नीति से दूर है। स्पष्ट रूप से एक इष्टतम नीति में, प्रत्येक सेल को या तो बाएं या ऊपर इंगित करना चाहिए क्योंकि हमारे पास (0,0)
स्थिति पर एक बड़ा बड़ा इनाम है।
v v v v | 2 9 5 4
v v v v | 14 98 75 14
--> v v <-- | 258 3430 3312 245
--> --> <-- <-- | 3270 93143 92978 3191
सही ब्लॉक दिखाता है कि हम कितनी बार प्रत्येक सेल पर जाते हैं। आप देखते हैं कि हम नीचे की अधिकांश यात्राओं का खर्च करते हैं लेकिन हम शीर्ष पंक्ति पर बहुत दुर्लभ जाते हैं। यही कारण है कि हम अभी तक इष्टतम नीति तक नहीं पहुंच पाए हैं।
यदि हम सीखने की दर alpha=1/(number of times you visited (s,a) so far)
पर बदलते हैं, तो हम 20,000 चरणों के भीतर इष्टतम नीति (नीचे दिखाए गए) तक पहुंचने में सक्षम हैं। साथ ही हम प्रत्येक सेल का दौरा करने की संख्या को समान रूप से वितरित नहीं करते हैं, हालांकि यह सही नहीं है।
--> <-- <-- <-- | 34 7997 7697 294
^^^<-- | 731 898 524 132
^^^^ | 709 176 88 94
^^^^ | 245 256 96 77
अधिक राज्यों के साथ एक बड़ा समस्या के लिए, उदाहरण के लिए, एक 10x10 ग्रिड, मैं इसे बड़ा epsilon
उपयोग करना बेहतर है पाते हैं। उदाहरण के लिए, epsilon=0.5
के साथ 10x10 ग्रिड पर 80,000 चाल के बाद सिमुलेशन का परिणाम नीचे दिया गया है। यह नीचे-दाएं कोने को छोड़कर लगभग इष्टतम है। क्यू-लर्निंग की अभिसरण दर में सुधार करने में मदद के लिए सिम्युलेटेड एनीलिंग का उपयोग करने के बारे में idea भी है।
v <-- <-- <-- <-- <-- <-- <-- <-- <-- | 19 2500 1464 716 386 274 216 159 121 71
^ <-- <-- <-- <-- v <-- <-- <-- <-- | 9617 11914 3665 1071 580 410 319 225 207 131
^ ^^<-- <-- <-- <-- v <-- <-- | 5355 5716 2662 1675 1465 611 302 183 162 101
^ ^^^^<-- <-- <-- <-- <-- | 1604 1887 1192 621 1056 882 693 403 206 100
^ ^^^^^^<-- <-- <-- | 639 735 731 333 412 399 480 294 172 114
^ ^^<--^^^<-- <--^ | 373 496 640 454 272 266 415 219 107 98
^ ^^^^^^^<--^ | 251 311 402 428 214 161 343 176 114 99
^ ^^^<-- -->^<-- <-- <-- | 186 185 271 420 365 209 359 200 113 70
^ ^^^^^^^ v v | 129 204 324 426 434 282 235 131 99 74
^ ^^^^<--^<-- <-- <-- | 100 356 1020 1233 703 396 301 216 152 78
Btw, खिलौना समस्या के लिए मेरे अजगर कोड (~ 100 लाइनों) here है।
जाहिर है, यहां तक कि शून्य से क्यू (एस, ए) अवधि असीम विकसित करने के लिए कार्रवाई मूल्य को सीमित नहीं करता। टी (रों, एक, रों) = 1 आर (रों, एक, रों) = 1 अधिकतम (क्यू (रों, एक)) = क्यू (रों, क) इस मामले में: इस परिदृश्य पर मान लें , कार्य मूल्य सकारात्मक अनंतता की तरफ बढ़ने के लिए जारी रहेगा। असली कारण है कि यह (एक परिमित क्षितिज बिना एमडी पी एस में) अनंत को भी नहीं बढ़ता है, जो बाद में कार्रवाई मूल्यों, करने के लिए कम और कम महत्व प्रदान करती है गामा के मूल्य (जो हमेशा 1 से कम है) की वजह से है जो अनंतता की ओर बहाव को प्रतिबंधित करता है। – user3575425