基于客户端的学习算法节能问题-

深圳大学本科毕业论文（设计）诚信声明本人郑重声明：所呈交的毕业论文（设计），题目基于客户端的学习算法节能问题是本人在指导教师的指导下，独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式注明。除此之外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。本人完全意识到本声明的法律结果。目录摘要(关键词)11引言1 11选题意义1 12国内外发展状况1 13展望2 14目前强化学习遇到的问题2 15研究方法的探索32系统模型及理论支持3 21马尔科夫决策过程3 22强化学习3 23 Q学习4 24 Q学习的信道选择算法5 25 Boltzmann学习规则6 26 模拟退火过程7 27 OFDM的信道接入方式7 28 系统模型7 29 蒙特卡洛方法83算法流程及实验过程8 31实验过程8 32算法流程8 33仿真过程104结果分析11 41数据分析11 42实验中存在的问题和可行性135结束语136参考文献137致谢14abstract(key words)15基于客户端的学习算法节能问题信息工程学院电子工程系（集成电路设计与集成系统）蔡凯钊学号：2014130254【摘要】如今移动客户端数量日益增多，通信频道资源渐渐难以满足需求，本文采用一种基于Q学习的信道选择算法，通过建立点对点用户之间的通信信道模型，并且建立一个合理的回报函数，使得智能机能够通过总结经验来改善行为决策，进而使得最终可以得到最优的选择决策。由仿真结果可以得出，该算法可以有效的提高用户接入信道的平均信道容量，由于信道的平均容量得到了提升，信息在该系统下的信息传递速率也会有一定的优化，从而达到充分利用优秀信道资源，节约信道资源的效果。【关键词】信道选择；Q学习；节能问题1引言1.1选题意义人工智能是现今最热门的研究领域之一，其中研究人工智能的核心方法就有机器学习。最初是希望计算机拥有一定的自我学习能力，从而可以自我获取知识、提高智能性。随着机器学习领域的不断探索，将人类的学习能力赋予机器已经不再是机器学习的主要目标了，研究目标转向了可以有效地由计算机实习数据分析技术。然而机器学习需要采集大量的环境反馈，累积奖赏值，从而获得最优决策，这一过程需要大量的数据采集、分配和计算，对于计算机的能耗有着较大的要求。为了节约能耗，我们需要通过强化学习，优化算法结构和效率，从而用更少的能耗找到最优决策，这样可以减少对硬件的要求，将机器学习推广到更多领域中。强化学习，是机器学习领域中一种重要的学习方法，强化学习的应用烦恼为涵盖了智能控制、机器人及分析预测等众多领域。在无线通信领域中，无线资源的需求日益增加，如何高效有序的将信道频谱资源进行分配，也是节约能耗的一个关键问题。本文通过强化学习的方法来对频谱接入，和信道分配进行动态规划，目的是为了合理运用现有资源，充分改善资源利用率，为实现动态频谱管理，和减少频谱资源需求，提供了一定的实践基础。1.2国内外发展状况国内外对于强化学习都有众多的研究成果和应用实例，目前发展应用较多的几个方面有：在调度管理中的应用：调度问题是一种随即优化控制问题的实际例子，解决这种问题将会带来很高的经济价值。比如，Crites和Barto就把强化学习算法应用到楼层电梯系统中。通过强化学习算法，采集记录乘客的位置和目标楼层，动态规划电梯的行径，其效率远远超过了一般的动态规划。另外，强化学习的应用例子还有很多，如，在蜂窝电话系统中动态信道分配及机器调度问题。在机器人技术中的应用：机器人研究领域是强化学习最适合，也是应用实例最多一个领域。近年来国际上兴起了将强化学习应用到智能机器人领域的研究热潮。Hee RakBeem为了可以让陆上移动机器人导航系统可以完美避开碰撞物和达到目的地两种行为，采用了模糊逻辑和强化学习的方法，使得机器人导航系统得以优化。国内目前的现状：国内目前处于新兴发展阶段，对于强化学习和人工智能方面逐渐赶上外国发达国家，如今已有不少的关于强化学习的成果，应用于多个行业及领域。如基于时隙CSMA的水声无线传感器网络节能强化学习算法，为了达到以最低能源消耗传送数据包到汇聚节点的目标，出了一种节能的基于时隙CSMA(载波帧听多访问)的强化学习算法。分析了时隙CSMA的强化学习协议的可行性。并研究了每个节点的平均能耗与子信道个数之间的关系，提高了传感器的使用寿命。1.3展望在最近的研究发展来看，研究人员越来越重视强化学习理论和应用，可是由于现实问题的复杂度过高，强化学习在实际工程中的应用依旧存在很多问题，如环境的不完全感知；多agent分布式的问题；分层强化学习的问题等，尽管如此，强化学习已开始逐渐应用于人工智能、机器人控制和工业控制等系统，运用强化学习算法来解决客户端的学习节能问题，可以将机器学习推广到更多领域。通过强化学习的方式，还可以动态优化神经网络结构，使得机器学习能够更高效，更有目的地处理指定问题，缩短机器学习的学习周期，减少能耗。如果强化学习能够有效利用在各行各业，在调度、提高速率、合理分配资源等方面都可以得到极大优化，前景广阔。1.4目前强化学习遇到的问题在时间信用方面存在着分配问题，智能体所作出动作不仅决定立即奖赏，还可能会影响到下一状态的环境。导致智能体不仅要考虑立即奖赏，还要考虑下一状态所带来的奖赏。奖赏延迟越多，学习算法就需要进行的尝试次数就会越多，导致学习消耗额时间增加，学习时间的增加就会使得智能体运算消耗变大，造成资源浪费。学习过程中存在着探索和利用两个问题，如何对这两个过程进行一个折衷考量也是强化学习中的一个关键问题，通过利用已知的动作，智能体可以得到一个稳定奖赏，但是相比于利用已知动作获得奖赏，探索新的动作可以获得更高的奖赏，但是过多的探索又会使得系统消耗更多的资源。强化学习是一项与环境紧密联系在一起的学习算法，外界环境的复杂度与反复无常的变化都会影响智能体的学习过程，动态地规划学习过程中的探索和利用过程也是一个亟待解决的问题。强化学习算法从优化函数和状态空间中获得有用的策略，一旦系统复杂度变高，则要大量的参数来描述，这样状态到动作的映射组合量会大量增加，学习的时间也会极大变长，那么得到决策优化的过程将会相当漫长，增加了任务的探索负担，最终影响决策优化效率。强化学习算法是依赖于外界环境状态的，而学习算法最终要完成决策优化，是需要算法具有收敛性的，一旦外界环境和系统变得越发复杂，那么智能体无法精确地得到所有环境状态，由此会使得学习算法无法在实际环境中得到收敛，这么一来不解决算法收敛问题，算法的应用就难以在复杂工程中得到应用。1.5研究方法的探索由于信道选择可以看作为一个概率事件，这里可以通过蒙特卡洛方法来对通信模型进行仿真。在通信中有多种指标可以衡量系统对信道的利用率，这里我们主要通过考虑信道容量这一指标来观察Q学习是否可以优化改良信道的选择问题，信道容量还可以侧面衡量出信息的传输速率。强化学习算法有一个比较关键的问题，就是如何对探索过程和利用过程进行一个折衷，由于本文进行的通信系统模型比较简单，我们通过模拟退火温度的方法，来对Q学习Q值矩阵的权重进行调整，从而一定程度上解决探索和利用的矛盾，使得Q学习最终可以收敛。2.系统模型及理论支持2.1马尔科夫决策过程大部分的强化学习算法都是根据马尔科夫决策过程发展过来的，所以在实用强化学习算法前，需要对马尔科夫决策过程进行了解。马尔科夫决策过程：是通过马尔科夫过程理论延伸出来的一种决策过程，这是一种从随机动态系统中，获得最优决策的过程。马尔科夫决策过程是指在仿佛的周期循环过程中，决策者不断地观察随机动态系统（这个系统具有马尔科夫性），然后序贯地作出决策。详细说明就是决策者在每一个时刻观察到的状态，从决策者可以作出的所有行动中选择一个行动，以此行动作为决策，系统达到下一个状态是完全随机的，并且这个状态转移的概率是遵循马尔科夫性的。决策者通过观测到的新的状态，作出新的决策，循环反复进行。马尔科夫性指的是一个随机事件，通过未来的发展，具有一定的概率规律，和历史无关的一种性质。总的来说就是一种状态转移概率的无后效性。2.2强化学习强化学习是一种机器学习方法，主要是通过智能机与环境交流联系，并通过动作对环境进行反馈，得到的环境反馈作为智能机的输入。强化学习主要是利用智能体不断与环境进行交流和接受反馈的思路，主要利用的方法是一种试错的模式，然后智能体可以在状态空间到动作空间的映射中获得学习，改善决策，并不断累计奖赏值。强化学习算法过程中，一般是由环境来发送信号的，这个信号主要是为了对Agent选择决策出来的动作进行判断，判断环境带来的奖赏是正奖赏还是负奖赏，这个环境所反馈回来的信号是不会对智能体选择动作作出直接影响的。所以Agent就需要靠累计的奖赏总结经验进行学习。通过这种方式，Agent可以通过获得外界环境反馈得到的信号来优化自己的决策过程，进过足够的迭代学习，最终可以得到一个最优的决策，学习过程就如图1所示。图1 Agent通过环境的学习过程强化学习的处理一般是通过建立马尔科夫决策过程，简称MDP。一个MDP一般被一个五元组S，A，P(st，at，st+1)，r(st，at )，Q； st，st+1 S，at A表示，当中S表示为连续的状态空间，A表示为连续的动作空间，P(st，at，st+1)表示为Agent处于状态 st 时，执行动作at之后，转移到下一个状态st+1的概率，r(st，at)表示在st时执行动作at之后得到的奖赏，Q表示状态-动作值函数。从文献8中了解到，强化学习算法有多种实现方法，也有多种算法实例，如动态规划（DP）、蒙特卡洛算法、瞬时差分学习算法（TD算法）、Q学习算法、Sarsa算法和Dyna学习算法，本文主要利用Q学习算法来进行信道的选择优化问题。2.3 Q学习从文献7中了解到了Q学习的主要原理和迭代算法原理，由此可以得到Q学习的一些相关实现方式。首先要了解Q学习的概念和形式，Q学习是一种由动态规划理论中总结发展得出的，这是一种与模型没有关系的延迟学习方式。Q学习算法的形式为：（1）其中是在状态s下，智能机通过执行动作a，所获得的最优的奖赏值的总和。定义为在状态s下的最优值函数，则（2）说明对现有状态值Q进行反复的反应，就可以获得该状态下最优的动作决策，也就是当前的状态即动作的Q值在这个数值中包含了所需信息，就可以说明，在状态s下，智能体选择动作a时，智能体将会获得累计奖赏的最大值。由此可以得到Q学习的迭代公式为（3）该算法的一个交互过程如图2所示：图2 智能体与环境的交互过程2.4 Q学习的信道选择算法本文将Q学习算法应用与机会频谱接入系统中的信道选择策略中，在接入体系和信道选择框架下，用户通过接入策略和选择信道方式来侦听频谱，探索环境中的信道是否处于空闲状态，然后进行信道接入决策，以此获得奖赏值，完成与环境的交流和互动。通过建立一个有限的马尔科夫决策过程，设定状态空间S、动作空间A、状态转移函数和回报函数r，具体的体系框架如图3所示。