![]() ![]() |
Lessons from alphazero for optimal, model predictive, and adaptive control
本书构建了近似动态规划和强化学习的新的理论框架, 简洁但雄心勃勃。这一框架以离线训练和在线学习这两个算法为中心, 彼此独立又通过牛顿法有机融合。当今新一代人工智能技术发展绚丽多彩。在看似纷繁复杂的数据与算法表象之下, 其实蕴藏着简洁而美妙的规律。通过本书的学习, 读者将能体会经典优化控制理论在分析理解当代强化学习算法性能中的强大威力, 更能领悟到以阿尔法零为代表的新一代算法浪潮对经典理论提供的新的发展机遇。
你还可能感兴趣
我要评论
|