में एक ही कार्रवाई को दोहराने के बाद आवर्ती इनाम के परिणामस्वरूप मैं एक छोटे से आवेदन पर एक सरल क्यू-लर्निंग कार्यान्वयन के विकास की प्रक्रिया में हूं, लेकिन ऐसा कुछ है जो मुझे परेशान करता रहता है । क
के साथ काम करने के लिए क्यू-लर्निंग सामान्यीकृत करना मैं एक मजबूती सीखने की सेटिंग में कुछ कार्य करने के लिए आवश्यक माउस आंदोलनों को सीखने के लिए एजेंट प्राप्त करने की कोशिश कर रहा हूं (यानी इनाम सिग्