理论教育 动态规划术语及其应用优化

动态规划术语及其应用优化

时间:2023-07-06 理论教育 版权反馈
【摘要】:常用sk表示第k阶段的状态变量。在动态规划中,从过程的第k阶段开始到终止状态为止的过程称为问题后部子过程。

动态规划术语及其应用优化

1.阶段(k)

通常把所给问题的过程恰当地分为若干个相互联系的阶段,以便能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分一般是根据时间和空间的自然特征来划分,但要便于把问题的过程能转化为多阶段决策的过程。如前述的最短路线问题可划分为6个阶段求解,则k=1,2,3,4,5,6。

2.状态(sk

状态表示每个阶段开始所处的自然状态或客观条件,它描述了研究问题过程的状况,称为不可控因素。在例5.3中,状态就是某阶段的出发位置,它既是该阶段某线路的起点,又是前一阶段某线路的终点。通常一个阶段有若干个状态,如例5.3中第一阶段有一个状态就是点As,第二阶段有两个状态,即点集合{B1,B2},一般第k阶段的状态就是第k阶段所有始点的集合。

描述过程中状态的变量称为状态变量。它可用一个数、一组数或一向量来描述。常用sk表示第k阶段的状态变量。如在例5.3中,第三阶段有4个状态,则s3={C1,C2,C3,C4}。

动态规划中的状态变量具有无后效性,即:如果某阶段状态给定后,则在这阶段以后过程的发展不受这阶段以前各阶段状态的影响,也就是说,过程的历史只能通过当前的状态去影响它未来的发展,当前的状态是以往历史的一个总结。

3.决策(uk(sk))

决策表示当过程处于某一阶段的某个状态时,可以作出不同的决策,从而确定下一阶段的状态。描述决策的变量称为决策变量,它可用一个数、一组数或一向量来描述,常用uk(sk)表示第k阶段当状态处于sk时的决策变量,它是状态变量的函数。在实际问题中,决策变量的取值往往限制在某一范围内,此范围称为允许决策集合,常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk)∈Dk(sk)。

4.策略(pk,n(sk))

策略是一个按顺序排列的由决策组成的集合。在动态规划中,从过程的第k阶段开始到终止状态为止的过程称为问题后部子过程(或称为k子过程)。由每段的决策按顺序排列组成的决策函数序列{uk(sk),uk+1(sk+1),···,un(sn)}称为k子过程策略,简称为子策略,记为pk,n(sk),即

当k=1时,此决策函数序列称为全过程的一个策略,简称为策略,记为p1,n(s1),即

在实际问题中可供选择的策略有一定的范围,此范围称为允许策略集合,用P表示,从允许策略集合中找出达到最优效果的策略称为最优策略。

5.状态转移方程(Tk(sk,uk))(www.daowen.com)

状态转移方程是确定过程由一个状态到另一个状态的演变过程,若给定第k阶段状态变量sk的值,如果该阶段的决策变量uk一经确定,则第k+1阶段的状态变量sk+1的值也就完全确定了,即sk+1的值随sk和uk的值变化而变化,这种确定的对应关系记为sk+1=Tk(sk,uk),它描述了由第k阶段到第k+1阶段的状态转移规律,称为状态转移方程,Tk称为状态转移函数。

6.指标函数(Vk,n)和最优值函数(fk(sk))

指标函数是用来衡量所实现过程优劣的一种数量指标,它是定义在全过程和所有后部子过程上确定的数量函数,常用Vk,n表示,即

由于动态规划算法的需要,对于要构成动态规划模型的指标函数,应具有分离性,并满足递推关系,即

动态规划中常用的指标函数形式包括:

(1)过程和它的任一子过程的指标是它所包含的各阶段指标的和,即

其中vj(sj,uj)表示第j阶段的阶段指标,这时上式也可写成

(2)过程和它的任一子过程的指标是它所包含的各阶段指标的乘积,即

它也可写成

指标函数的最优值称为最优值函数,记为fk(sk),它表示从第k阶段的状态sk开始到第n阶段的终止状态的过程中采取最优策略所得到的指标函数值,即

其中“opt”表示最优化,它可以是min或max。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈