एल्गोरिदम में क्या अंतर होता है यह एक बड़ा या छोटा गामा मूल्य बनाता है? मेरे ऑप्टिक में, जब तक यह न तो 0 या 1 है, यह बिल्कुल वही काम करना चाहिए। दूसरी तरफ, जो भी गामा मैं चुनता हूं, ऐसा लगता है कि क्वाल्व्स वास्तव में बहुत जल्दी शून्य के करीब आते हैं (मुझे यहां एक त्वरित परीक्षण में 10^-300 के आदेश पर मूल्य हैं)। आम तौर पर लोग क्वॉल्यूज़ कैसे प्लॉट करते हैं (मैं उस स्थिति के लिए एक (x, y, सर्वोत्तम QValue) प्लॉट कर रहा हूं? समस्या है? मैं लॉगरिदम के साथ घूमने की कोशिश कर रहा हूं लेकिन फिर भी यह थोड़ी अजीब लगता है।QLearning में अल्फा और गामा पैरामीटर
इसके अलावा, मुझे नहीं लगता कि क्यू लर्निंग अपडेट फ़ंक्शन में होने और अल्फा पैरामीटर के पीछे क्या कारण है। यह मूल रूप से उस अद्यतन की परिमाण को सेट करता है जिसे हम क्यू वैल्यू फ़ंक्शन में करने जा रहे हैं। मुझे लगता है कि यह आमतौर पर कम हो जाता है समय के साथ घटने में रुचि क्या है? शुरुआत में एक अद्यतन मूल्य 1000 एपिसोड के बाद अधिक महत्व होना चाहिए?
इसके अलावा, मैं सोच रहा था कि प्रत्येक बार एजेंट की जगह अंतरिक्ष की खोज के लिए एक अच्छा विचार लालची कार्रवाई करना नहीं चाहता है किसी भी राज्य का पता लगाने के लिए जो अभी भी एक ज़ीर है ओ QValue (इसका मतलब है, कम से कम ज्यादातर बार, एक राज्य पहले कभी नहीं किया), लेकिन मुझे नहीं लगता कि किसी भी साहित्य में संदर्भित है। क्या इसके लिए कोई डाउनसाइड्स हैं? मुझे पता है कि इसका उपयोग (कम से कम कुछ) सामान्यीकरण कार्यों के साथ नहीं किया जा सकता है।
अन्य विचार विज़िट किए गए राज्यों/कार्यों की एक तालिका रखना होगा, और उन कार्यों को करने का प्रयास करें जो उस राज्य में कम समय पहले किए गए थे। बेशक यह केवल अपेक्षाकृत छोटे राज्य रिक्त स्थान में किया जा सकता है (मेरे मामले में यह निश्चित रूप से संभव है)।
अन्वेषण प्रक्रिया में देरी के लिए एक तीसरा विचार न केवल सर्वोत्तम कार्यवाही की तलाश में चयनित कार्रवाई को देखना होगा बल्कि उन सभी कार्यों को भी संभवतः और उस राज्य के अंदर और फिर उस राज्य के अन्य लोगों में भी देखना होगा। ।
मुझे पता है कि उन प्रश्नों को थोड़े से असंबंधित हैं, लेकिन मैं उन लोगों की राय सुनना चाहता हूं जिन्होंने इससे पहले काम किया है और (शायद) उनमें से कुछ के साथ भी संघर्ष किया है।
नीति क्या थी? समस्या क्या है? राज्य क्या हैं? क्या काम को प्रेरित करता है? आपने किस कोड का उपयोग किया? क्या आपने अपना कोड काम दिखाने के लिए संदर्भ समस्या का उपयोग किया था? – EngrStudent