聚合物品牌切换的控制方法-

聚合物品牌切换的控制方法聚合物品牌切换的控制方法本发明公开了一种聚合物品牌切换的控制方法，包括：获得离线优化轨迹作为系统行为的观测样本集；利用决策树的非参数建模方法基于所述观测样本集建立Q函数的学习模型；基于所述Q函数的学习模型获得最优控制策略并予以实施；收集历史操作轨迹补充到所述观测样本集中，并重复以上步骤，直到停止学习。本发明基于动态批次强化学习的优点，根据观测到的样本数据，借助决策树的建模方法，学习Q函数并从中得到平稳的闭环最优策略。【专利说明】聚合物品牌切换的控制方法【技术领域】0001本发明涉及聚合物生产过程自动控制领域，尤其涉及一种聚合物品牌切换的控制方法。【背景技术】0002随着市场对聚合物产品多样化需求的不断提高，生产过程需要频繁地进行产品牌号的切换操作。而切换过程中，由于反应器内两种不同品牌的聚合物发生混合并且停留时间长(一般3-5小时)，因此反应器出口的聚合物质量指标不能完成瞬时切换，并且切换时间较长，产出大量不满足质量指标的废料。因此，对聚乙烯生产装置稳定、高效运行而言，关键的问题是保证装置平稳、安全操作的前提下，缩短牌号切换时间，降低废料量。0003模型预测控制与迭代学习控制是两种常见的控制方法。对于模型预测控制来说，对象系统的数学模型必须是已知的。但是，由于在线扰动、建模误差等因素，系统模型总是存在着模型失配的问题，并且在线地求解一个带有复杂模型的优化问题往往容易陷入局部最优。而迭代学习控制是一种适用于具有重复操作性质的被控系统，其目的是通过反复应用前次操作的误差来实现对给定轨迹的跟踪。但是，这种方法要求控制策略必须实施在一个固定时间长度的控制周期上，对于那些要求时间最优的控制问题来说，一定程度上并不能满足要求。【发明内容】0004本发明所要解决的技术问题之一是需要提供一种聚合物品牌切换的控制方法，该方法能够根据观测到的样本数据，得到平稳的闭环最优策略。0005为了解决上述技术问题，本发明提供了一种聚合物品牌切换的控制方法，包括:获得离线优化轨迹作为系统行为的观测样本集；利用决策树的非参数建模方法基于所述观测样本集建立Q函数的学习模型；基于所述Q函数的学习模型获得最优控制策略并予以实施；收集历史操作轨迹补充到所述观测样本集中，并重复以上步骤，直到停止学习。0006在一个实施例中，在所述获得离线优化轨迹作为系统行为的观测样本集的步骤中，进一步包括，获得离线优化轨迹；计算离线优化轨迹上各个离散点的Q值；根据离线优化轨迹上各个离散点的Q值建立观测样本集。0007在一个实施例中，在所述的离线优化轨迹为,(.V,) = w; xh ),w2(),Wr (Xir )时，利用以下表达式计算离线优化轨迹上各个离散时间点ti(i = 1，2，.，)的Q值，T-10008Qil ,Utj ) = cxT) + Yj (-, , U1)0009然后，利用以下表达式建立所述观测样本集，0010F = (in1, OU1), I = 1，2，F|0011其中，样本集的输入数据为in = (K, X1t,U1t)，以及样本的输出数据为【权利要求】1.一种聚合物品牌切换的控制方法，包括: 获得离线优化轨迹作为系统行为的观测样本集；利用决策树的非参数建模方法基于所述观测样本集建立Q函数的学习模型；基于所述Q函数的学习模型获得最优控制策略并予以实施；收集历史操作轨迹补充到所述观测样本集中，并重复以上步骤，直到停止学习。2.根据权利要求1所述的控制方法，其特征在于，在所述获得离线优化轨迹作为系统行为的观测样本集的步骤中，进一步包括，获得离线优化轨迹；计算离线优化轨迹上各个离散点的Q值；根据离线优化轨迹上各个离散点的Q值建立观测样本集。3.根据权利要求2所述的控制方法，其特征在于，在所述的离线优化轨迹为Kx-) = ?: (x, ) 如果存在这样的子区域-W,.，那么对来说，通过决策树估计该样本的Q值的估计值；如果不存在这样的子区域-W,?,.，那么寻找一个最近子区域，通过决策树估计该样本的Q值的估计值；对所有的.分别计算样本的Q值的估计值，从中选择一个最小的Q值的估计值对应的决策变量作为最优的决策值