q-learning - उत्कृष्ट पुस्तकालय

q-learning

6गर्मी

3उत्तर

क्यू-वैल्यू में असंबद्ध वृद्धि, क्यू-लर्निंग

में एक ही कार्रवाई को दोहराने के बाद आवर्ती इनाम के परिणामस्वरूप मैं एक छोटे से आवेदन पर एक सरल क्यू-लर्निंग कार्यान्वयन के विकास की प्रक्रिया में हूं, लेकिन ऐसा कुछ है जो मुझे परेशान करता रहता है । क

16गर्मी

4उत्तर

निरंतर * एक्शन * स्पेस

के साथ काम करने के लिए क्यू-लर्निंग सामान्यीकृत करना मैं एक मजबूती सीखने की सेटिंग में कुछ कार्य करने के लिए आवश्यक माउस आंदोलनों को सीखने के लिए एजेंट प्राप्त करने की कोशिश कर रहा हूं (यानी इनाम सिग्