planning

8गर्मी

2उत्तर

सभी reinforcement learning एल्गोरिदम के बारे में मैं आमतौर पर एक एजेंट कार्यों की एक निश्चित संख्या है पर लागू होते हैं पढ़ा है के साथ। क्या कार्यवाही की एक चरम संख्या को ध्यान में रखते हुए निर्णय लेन