Chapter05_非线性规划
试述非线性规划数学模型的一般形式及其同线性规划的主要区别
一般形式 { min f ( X ) h i ( X ) = 0 , i = 1 , 2 ⋯ , m g j ( X ) ≥ 0 , j = 1 , 2 ⋯ , l \begin{cases}\min f(\boldsymbol{X})\\h_{i}(\boldsymbol{X})=0,&i=1,2\cdots,m\\g_{j}(\boldsymbol{X})\ge0,&j=1,2\cdots,l\end{cases} ⎩ ⎨ ⎧ min f ( X ) h i ( X ) = 0 , g j ( X ) ≥ 0 , i = 1 , 2 ⋯ , m j = 1 , 2 ⋯ , l
主要区别 最优解的位置:若线性规划问题有最优解,则其最优解一定在其可行域的边界上达到;而非线性规划问题的最优解则可能在其可行域中任意一点达到
分别说明在什么条件下,称 X ∗ \boldsymbol{X}^* X ∗ 为 f ( X ) f(\boldsymbol{X}) f ( X ) 在 R \mathbb{R} R 上的
局部最小点 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 的在某一区域 R \mathbb{R} R 上的 n n n 元实函数,其中 X = ( x 1 , x 2 , ⋯ , x n ) ⊺ \boldsymbol{X}=(x_1,x_2,\cdots,x_n)^\intercal X = ( x 1 , x 2 , ⋯ , x n ) ⊺ ;对于 X ∗ ∈ R \boldsymbol{X}^*\in\mathbb{R} X ∗ ∈ R ,若存在 ϵ > 0 \epsilon>0 ϵ > 0 ,使得所有与 X ∗ \boldsymbol{X}^* X ∗ 的距离小于 ϵ \epsilon ϵ 的 X ∈ R \boldsymbol{X}\in\mathbb{R} X ∈ R (即 X ∈ R \boldsymbol{X}\in\mathbb{R} X ∈ R 且 ∥ X − X ∗ ∥ < ϵ \Vert \boldsymbol{X}-\boldsymbol{X}^*\Vert <\epsilon ∥ X − X ∗ ∥ < ϵ )均满足不等式 f ( X ∗ ) ≤ f ( X ) f(\boldsymbol{X}^*)\le f(\boldsymbol{X}) f ( X ∗ ) ≤ f ( X ) 则称 X ∗ \boldsymbol{X}^* X ∗ 为 f ( X ) f(\boldsymbol{X}) f ( X ) 在 R \mathbb{R} R 上的局部最小点 ,f ( X ∗ ) f(\boldsymbol{X}^*) f ( X ∗ ) 为局部最小值
严格局部最小点 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 的在某一区域 R \mathbb{R} R 上的 n n n 元实函数,其中 X = ( x 1 , x 2 , ⋯ , x n ) ⊺ \boldsymbol{X}=(x_1,x_2,\cdots,x_n)^\intercal X = ( x 1 , x 2 , ⋯ , x n ) ⊺ ;对于 X ∗ ∈ R \boldsymbol{X}^*\in\mathbb{R} X ∗ ∈ R ,若存在 ϵ > 0 \epsilon>0 ϵ > 0 ,使得所有与 X ∗ \boldsymbol{X}^* X ∗ 的距离小于 ϵ \epsilon ϵ 的 X ∈ R \boldsymbol{X}\in\mathbb{R} X ∈ R (即 X ∈ R \boldsymbol{X}\in\mathbb{R} X ∈ R 且 ∥ X − X ∗ ∥ < ϵ \Vert \boldsymbol{X}-\boldsymbol{X}^*\Vert <\epsilon ∥ X − X ∗ ∥ < ϵ )均满足不等式 f ( X ∗ ) < f ( X ) f(\boldsymbol{X}^*) < f(\boldsymbol{X}) f ( X ∗ ) < f ( X ) 则称 X ∗ \boldsymbol{X}^* X ∗ 为 f ( X ) f(\boldsymbol{X}) f ( X ) 在 R \mathbb{R} R 上的严格局部最小点 ,f ( X ∗ ) f(\boldsymbol{X}^*) f ( X ∗ ) 为严格局部最小值
全局最小点 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 的在某一区域 R \mathbb{R} R 上的 n n n 元实函数,其中 X = ( x 1 , x 2 , ⋯ , x n ) ⊺ \boldsymbol{X}=(x_1,x_2,\cdots,x_n)^\intercal X = ( x 1 , x 2 , ⋯ , x n ) ⊺ ;对于 X ∗ ∈ R , ∀ X ∈ R \boldsymbol{X}^*\in\mathbb{R},\forall\ \boldsymbol{X}\in\mathbb{R} X ∗ ∈ R , ∀ X ∈ R ,均有 f ( X ∗ ) ≤ f ( X ) f(\boldsymbol{X}^*)\le f(\boldsymbol{X}) f ( X ∗ ) ≤ f ( X ) ,则称 X ∗ \boldsymbol{X^*} X ∗ 为全局最小点 ,f ( X ∗ ) f(\boldsymbol{X^*}) f ( X ∗ ) 为全局最小值
严格全局最小点 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 的在某一区域 R \mathbb{R} R 上的 n n n 元实函数,其中 X = ( x 1 , x 2 , ⋯ , x n ) ⊺ \boldsymbol{X}=(x_1,x_2,\cdots,x_n)^\intercal X = ( x 1 , x 2 , ⋯ , x n ) ⊺ ;对于 X ∗ ∈ R , ∀ X ∈ R \boldsymbol{X}^*\in\mathbb{R},\forall\ \boldsymbol{X}\in\mathbb{R} X ∗ ∈ R , ∀ X ∈ R ,均有 f ( X ∗ ) < f ( X ) f(\boldsymbol{X}^*) < f(\boldsymbol{X}) f ( X ∗ ) < f ( X ) ,则称 X ∗ \boldsymbol{X^*} X ∗ 为严格全局最小点 ,f ( X ∗ ) f(\boldsymbol{X^*}) f ( X ∗ ) 为严格全局最小值
分别写出下属概念的数学表达式
函数 f ( X ) f(\boldsymbol{X}) f ( X ) 在 X ∗ \boldsymbol{X}^* X ∗ 处的梯度 ∇ f ( X ∗ ) = ( ∂ f ( X ∗ ) ∂ x 1 ∂ f ( X ∗ ) ∂ x 2 ⋯ ∂ f ( X ∗ ) ∂ x n ) ⊺ \nabla f(\boldsymbol{X}^*)= \begin{pmatrix}\frac{\partial f(\boldsymbol{X}^*)}{\partial x_{1}} & \frac{\partial f(\boldsymbol{X}^*)}{\partial x_{2}} & \cdots & \frac{\partial f(\boldsymbol{X}^*)}{\partial x_{n}}\end{pmatrix}^{\intercal} ∇ f ( X ∗ ) = ( ∂ x 1 ∂ f ( X ∗ ) ∂ x 2 ∂ f ( X ∗ ) ⋯ ∂ x n ∂ f ( X ∗ ) ) ⊺
f ( X ) f(\boldsymbol{X}) f ( X ) 在 X ∗ \boldsymbol{X}^* X ∗ 处的海塞 (Hesse) 矩阵( ∂ f ( X ) ∂ x 1 2 ∂ f ( X ) ∂ x 1 ∂ x 2 ⋯ ∂ f ( X ) ∂ x 1 ∂ x n ∂ f ( X ) ∂ x 2 ∂ x 1 ∂ f ( X ) ∂ x 2 2 ⋯ ∂ f ( X ) ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ f ( X ) ∂ x n ∂ x 1 ∂ f ( X ) ∂ x n ∂ x 2 ⋯ ∂ f ( X ) ∂ x n 2 ) \begin{pmatrix} \frac{\partial f(\boldsymbol{X})}{\partial x_1^2 } & \frac{\partial f(\boldsymbol{X})}{\partial x_1 \partial x_2} & \cdots & \frac{\partial f(\boldsymbol{X})}{\partial x_1 \partial x_n} \\ \frac{\partial f(\boldsymbol{X})}{\partial x_2 \partial x_1} & \frac{\partial f(\boldsymbol{X})}{\partial x_2^2 } & \cdots & \frac{\partial f(\boldsymbol{X})}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f(\boldsymbol{X})}{\partial x_n \partial x_1} & \frac{\partial f(\boldsymbol{X})}{\partial x_n \partial x_2} & \cdots & \frac{\partial f(\boldsymbol{X})}{\partial x_n^2 } \\ \end{pmatrix} ⎝ ⎛ ∂ x 1 2 ∂ f ( X ) ∂ x 2 ∂ x 1 ∂ f ( X ) ⋮ ∂ x n ∂ x 1 ∂ f ( X ) ∂ x 1 ∂ x 2 ∂ f ( X ) ∂ x 2 2 ∂ f ( X ) ⋮ ∂ x n ∂ x 2 ∂ f ( X ) ⋯ ⋯ ⋱ ⋯ ∂ x 1 ∂ x n ∂ f ( X ) ∂ x 2 ∂ x n ∂ f ( X ) ⋮ ∂ x n 2 ∂ f ( X ) ⎠ ⎞
二次型f ( X ) = X ⊺ A X f(\boldsymbol{X}) = \boldsymbol{X}^\intercal\boldsymbol{A}\boldsymbol{X} f ( X ) = X ⊺ A X
正定、半正定、负定、半负定二次型的充要条件
正定 ∀ X ∈ R , f ( X ) = X ⊺ A X > 0 \forall\ \boldsymbol{X}\in \mathbb{R},\ f(\boldsymbol{X}) = \boldsymbol{X}^{\intercal}\boldsymbol{AX} > 0 ∀ X ∈ R , f ( X ) = X ⊺ AX > 0
半正定 ∀ X ∈ R , f ( X ) = X ⊺ A X ≥ 0 \forall\ \boldsymbol{X}\in \mathbb{R},\ f(\boldsymbol{X}) = \boldsymbol{X}^{\intercal}\boldsymbol{AX} \ge 0 ∀ X ∈ R , f ( X ) = X ⊺ AX ≥ 0
否定 ∀ X ∈ R , f ( X ) = X ⊺ A X < 0 \forall\ \boldsymbol{X}\in \mathbb{R},\ f(\boldsymbol{X}) = \boldsymbol{X}^{\intercal}\boldsymbol{AX} < 0 ∀ X ∈ R , f ( X ) = X ⊺ AX < 0
半负定 ∀ X ∈ R , f ( X ) = X ⊺ A X ≤ 0 \forall\ \boldsymbol{X}\in \mathbb{R},\ f(\boldsymbol{X}) = \boldsymbol{X}^{\intercal}\boldsymbol{AX} \le 0 ∀ X ∈ R , f ( X ) = X ⊺ AX ≤ 0
试述凸函数、严格凸函数、凹函数和严格凹函数的定义;凸函数的性质及判断一个函数是否为凸函数的一阶及二阶条件
定义
凸函数 和严格凸函数 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 中某个凸集 R \mathbb{R} R 上的函数,若 ∀ α ∈ ( 0 , 1 ) \forall\ \alpha \in(0,1) ∀ α ∈ ( 0 , 1 ) ,都有及 R \mathbb{R} R 上任意两点 X ( 1 ) \boldsymbol{X}^{(1)} X ( 1 ) 和 X ( 2 ) \boldsymbol{X}^{(2)} X ( 2 ) ,恒有f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) ≤ α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) f(\alpha\boldsymbol{X}^{(1)} + (1-\alpha)\boldsymbol{X}^{(2)}) \le \alpha f(\boldsymbol{X}^{(1)})+ (1-\alpha) f(\boldsymbol{X}^{(2)}) f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) ≤ α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) 则称 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 R \mathbb{R} R 上的凸函数 ;若恒有f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) < α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) f(\alpha\boldsymbol{X}^{(1)} + (1-\alpha)\boldsymbol{X}^{(2)}) < \alpha f(\boldsymbol{X}^{(1)})+ (1-\alpha) f(\boldsymbol{X}^{(2)}) f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) < α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) 则称 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 R \mathbb{R} R 上的严格凸函数
凹函数 和严格凹函数 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 n n n 维欧式几何 E n \mathbb{E}^{n} E n 中某个凸集 R \mathbb{R} R 上的函数,若 ∀ α ∈ ( 0 , 1 ) \forall\ \alpha \in(0,1) ∀ α ∈ ( 0 , 1 ) ,都有及 R \mathbb{R} R 上任意两点 X ( 1 ) \boldsymbol{X}^{(1)} X ( 1 ) 和 X ( 2 ) \boldsymbol{X}^{(2)} X ( 2 ) ,恒有f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) ≥ α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) f(\alpha\boldsymbol{X}^{(1)} + (1-\alpha)\boldsymbol{X}^{(2)}) \ge \alpha f(\boldsymbol{X}^{(1)})+ (1-\alpha) f(\boldsymbol{X}^{(2)}) f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) ≥ α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) 则称 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 R \mathbb{R} R 上的凹函数 ;若恒有f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) > α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) f(\alpha\boldsymbol{X}^{(1)} + (1-\alpha)\boldsymbol{X}^{(2)}) > \alpha f(\boldsymbol{X}^{(1)})+ (1-\alpha) f(\boldsymbol{X}^{(2)}) f ( α X ( 1 ) + ( 1 − α ) X ( 2 ) ) > α f ( X ( 1 ) ) + ( 1 − α ) f ( X ( 2 ) ) 则称 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在 R \mathbb{R} R 上的严格凹函数
性质
性质一 若 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在凸集 R \mathbb{R} R 上的凸函数,则对任意实数 β ≥ 0 \beta \ge 0 β ≥ 0 ,函数 β f ( X ) \beta f(\boldsymbol{X}) β f ( X ) 也是定义在 R \mathbb{R} R 上的凸函数
性质二 设 f 1 ( X ) f_1(\boldsymbol{X}) f 1 ( X ) 和 f 2 ( X ) f_2(\boldsymbol{X}) f 2 ( X ) 均为定义在凸集 R \mathbb{R} R 上的两个凸函数,则其和 f ( X ) = f 1 ( X ) + f 2 ( X ) f(\boldsymbol{X})=f_1(\boldsymbol{X})+f_2(\boldsymbol{X}) f ( X ) = f 1 ( X ) + f 2 ( X ) 也为定义在 R \mathbb{R} R 上的凸函数;
推论 有限个凸函数的非负线性组合∑ i = 1 m β i f i ( X ) ; β i ≥ 0 , ( i = 1 , 2 , ⋯ , m ) \sum_{i=1}^{m}\beta_{i}f_{i}(\boldsymbol{X});\quad\beta_{i}\ge0,(i=1,2,\cdots,m) i = 1 ∑ m β i f i ( X ) ; β i ≥ 0 , ( i = 1 , 2 , ⋯ , m ) 仍为凸函数
性质三 设 f ( X ) f(\boldsymbol{X}) f ( X ) 为定义在凸集 R \mathbb{R} R 上的凸函数,则对任意实数 β \beta β ,集合S β = { X ∣ X ∈ R , f ( X ) ≤ β } S_{\beta} = \{\boldsymbol{X}\vert \boldsymbol{X}\in\mathbb{R},f(\boldsymbol{X})\le \beta\} S β = { X ∣ X ∈ R , f ( X ) ≤ β } 为凸集
条件
一阶条件 :设 R \mathbb{R} R 为 n n n 维欧式空间 E n \mathbb{E}^n E n 上的开凸集,f ( X ) f(\boldsymbol{X}) f ( X ) 在R \mathbb{R} R 上具有一阶连续偏导数,则 f ( X ) f(\boldsymbol{X}) f ( X ) 为 R \mathbb{R} R 上的凸函数的充要条件是,对任意两个不同点 X ( 1 ) , X ( 2 ) ∈ R \boldsymbol{X}^{(1)},\boldsymbol{X}^{(2)}\in\mathbb{R} X ( 1 ) , X ( 2 ) ∈ R ,恒有f ( X ( 2 ) ) ≥ f ( X ( 1 ) ) + ∇ f ( X ( 1 ) ) ⊺ ( X ( 2 ) − X ( 1 ) ) f(\boldsymbol{X}^{(2)})\ge f(\boldsymbol{X}^{(1)}) + \nabla f(\boldsymbol{X}^{(1)})^{\intercal}(\boldsymbol{X}^{(2)}-\boldsymbol{X}^{(1)}) f ( X ( 2 ) ) ≥ f ( X ( 1 ) ) + ∇ f ( X ( 1 ) ) ⊺ ( X ( 2 ) − X ( 1 ) )
二阶条件 设 R \mathbb{R} R 为 n n n 维欧式空间 E n \mathbb{E}^n E n 上的开凸集,f ( X ) f(\boldsymbol{X}) f ( X ) 在R \mathbb{R} R 上具有二阶连续偏导数,则 f ( X ) f(\boldsymbol{X}) f ( X ) 为 R \mathbb{R} R 上的凸函数的充要条件是:f ( X ) f(\boldsymbol{X}) f ( X ) 的海塞矩阵 H ( X ) \boldsymbol{H}(\boldsymbol{X}) H ( X ) 在 R \mathbb{R} R 上处处半正定
何为凸规划?
考虑非线性规划{ min X ∈ R f ( X ) R = { X ∣ g i ( X ) ≥ 0 , j = 1 , 2 , ⋯ , l } \begin{cases}\displaystyle\min_{\boldsymbol{X}\in\mathbb{R}} f(\boldsymbol{X})\\\mathbb{R} = \{\boldsymbol{X}\vert g_i(\boldsymbol{X})\ge 0, j=1,2,\cdots,l\}\end{cases} { X ∈ R min f ( X ) R = { X ∣ g i ( X ) ≥ 0 , j = 1 , 2 , ⋯ , l } 若
f ( X ) f(\boldsymbol{X}) f ( X ) 为凸函数
g j ( X ) ( j = 1 , 2 , ⋯ , l ) g_{j}(\boldsymbol{X})\quad(j=1,2,\cdots,l) g j ( X ) ( j = 1 , 2 , ⋯ , l ) 为凹函数 (或 − g j ( X ) -g_{j}(\boldsymbol{X}) − g j ( X ) 为凸函数) ,这样的非线性规划称为凸规划
为什么求解有约束的极值问题相较于求解无约束的极值问题要困难得多?对具体约束的极值问题,为简化其优化工作,通常可采取哪些方法?
原因 对于有约束的极值问题,相较于无约束的极值问题,除了要使得每次迭代都有所下降外,还要注意解的可行性的问题,因此,要困难得多
简化方法
将约束问题化为无约束问题
将非线性问题化为线性规划问题
试解释以下概念
不起作用的约束 ,起作用的约束 设 X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 为非线性规划的一个可行解,其满足所有约束。先考虑某一不等式约束 g j ( X ) ≥ 0 g_j(\boldsymbol{X})\ge 0 g j ( X ) ≥ 0 ,X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 满足其有两种可能:
其一,g j ( X ( 0 ) ) > 0 g_j(\boldsymbol{X}^{(0)})>0 g j ( X ( 0 ) ) > 0 ,这时,点X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 不是处于这一约束条件形成的可行域边界上,因而这一约束对X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 点的微小摄动不起限制作用,因此,称此约束为X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 点的不起作用约束 (无效约束 )
其二,g j ( X ( 0 ) ) = 0 g_j(\boldsymbol{X}^{(0)})=0 g j ( X ( 0 ) ) = 0 ,这时X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 点处于该约束条件形成的可行域边界上,它对X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 的摄动起到某种限制作用,故称此约束为X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 的起作用约束 (有效约束 )
可行方向 假定X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 是非线性规划的一个可行点,现考虑此点的某一方向D \boldsymbol{D} D ,若存在实数λ 0 > 0 \lambda_{0}>0 λ 0 > 0 ,使得对于任意λ ∈ [ 0 , λ 0 ] \lambda\in[0,\lambda_0] λ ∈ [ 0 , λ 0 ] 均有X ( 0 ) + λ D ∈ R \boldsymbol{X}^{(0)}+\lambda\boldsymbol{D}\in\mathbb{R} X ( 0 ) + λ D ∈ R 则称方向D \boldsymbol{D} D 为X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 点的一个可行方向
下降方向 假定X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 是非线性规划的一个可行点,对该点的任一方向D \boldsymbol{D} D 来说,若存在实数 λ 0 ′ > 0 \lambda_{0}'>0 λ 0 ′ > 0 ,对任意λ ∈ [ 0 , λ 0 ′ ] \lambda\in[0,\lambda_0'] λ ∈ [ 0 , λ 0 ′ ] ,均有f ( X ( 0 ) + λ D ) < f ( X ( 0 ) ) f(\boldsymbol{X}^{(0)}+\lambda\boldsymbol{D}) < f(\boldsymbol{X}^{(0)}) f ( X ( 0 ) + λ D ) < f ( X ( 0 ) ) 则称 D \boldsymbol{D} D 为 X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 的一个下降方向
可行下降方向 若方向 D \boldsymbol{D} D 既是 X ( 0 ) \boldsymbol{X}^{(0)} X ( 0 ) 的可行方向,又是这个点的下降方向,则称其是该点的可行下降方向
什么是库恩-塔克 Kuhn-Tucker 条件和库恩-塔克点?为什么满足库恩-塔克条件是点 X ∗ \boldsymbol{X}^* X ∗ 成为最优点的必要条件?
定义
Kuhn-Tucker 条件:设 X ∗ \boldsymbol{X}^{*} X ∗ 是非线性规划的极小点,而且在 X ∗ \boldsymbol{X}^{*} X ∗ 点的各起作用的约束的梯度线性无关 ,则存在向量 Γ ∗ = ( γ 1 ∗ , γ 2 ∗ , ⋯ , γ l ∗ ) ⊺ \boldsymbol{\Gamma}^{*}=(\gamma_{1}^*,\gamma_{2}^*,\cdots,\gamma_{l}^*)^\intercal Γ ∗ = ( γ 1 ∗ , γ 2 ∗ , ⋯ , γ l ∗ ) ⊺ ,使得下述条件成立{ ∇ f ( X ∗ ) - ∑ j = 1 l γ j ∗ ∇ g j ( X ∗ ) = 0 γ j ∗ g j ( X ∗ ) = 0 , j = 1 , 2 , ⋯ , l γ j ∗ ≥ 0 , j = 1 , 2 , ⋯ , l \begin{cases}\displaystyle \nabla f(\boldsymbol{X}^{*}) - \sum_{j=1}^{l}\gamma_{j}^{*}\nabla g_{j}(\boldsymbol{X}^{*}) = 0 \\ \gamma_{j}^*g_{j}(\boldsymbol{X}^{*}) = 0, &j=1,2,\cdots,l\\\gamma^{*}_j\ge0,& j=1,2,\cdots,l\end{cases} ⎩ ⎨ ⎧ ∇ f ( X ∗ ) - j = 1 ∑ l γ j ∗ ∇ g j ( X ∗ ) = 0 γ j ∗ g j ( X ∗ ) = 0 , γ j ∗ ≥ 0 , j = 1 , 2 , ⋯ , l j = 1 , 2 , ⋯ , l 此式常称为库恩-塔克条件 ,满足此条件的点称为库恩塔克点
为什么是必要条件? 设 X ∗ \boldsymbol{X}^{*} X ∗ 位于某个约束条件形成的可行域边界上 g j ( X ∗ ) = 0 g_j(\boldsymbol{X}^{*})=0 g j ( X ∗ ) = 0 ;若 X ∗ \boldsymbol{X}^{*} X ∗ 为极小点,则 g j ( X ∗ ) g_j(\boldsymbol{X}^{*}) g j ( X ∗ ) 必与 − f ( X ∗ ) -f(\boldsymbol{X}^{*}) − f ( X ∗ ) 在一条直线上且方向相反;否则该点就一定存在下降可行方向,因此,存在实数 γ j ≥ 0 \gamma_j\ge 0 γ j ≥ 0 ,使得∇ f ( X ∗ ) − γ j ∇ g j ( X ∗ ) = 0 \nabla f(\boldsymbol{X}^{*}) - \gamma_{j}\nabla g_j(\boldsymbol{X}^{*}) = 0 ∇ f ( X ∗ ) − γ j ∇ g j ( X ∗ ) = 0 以此类推可得到∇ f ( X ∗ ) - ∑ j = 1 l γ j ∇ g j ( X ∗ ) = 0 \nabla f(\boldsymbol{X}^{*}) - \sum_{j=1}^{l}\gamma_{j}^{}\nabla g_{j}(\boldsymbol{X}^{*}) = 0 ∇ f ( X ∗ ) - j = 1 ∑ l γ j ∇ g j ( X ∗ ) = 0 因此,只有满足库恩塔克条件,该解才有可能为极小点,因此为极小点的必要条件
写出二次规划数学模型的一般表达式,又在满足什么条件时二次规划属于凸规划?
一般表达形式 { min f ( X ) = ∑ j = 1 n c j x j + 1 2 ∑ j = 1 n ∑ k = 1 n c j k x j x k c j k = c k j k = 1 , 2 ⋯ , n ∑ j = 1 n a i j x j + b i ≥ 0 , i = 1 , 2 , ⋯ , m x j ≥ 0 , j = 1 , 2 , ⋯ , n \begin{cases}\displaystyle \min f(\boldsymbol{X}) = \sum_{j=1}^{n}c_jx_j + \frac{1}{2}\sum_{j=1}^{n}\sum_{k=1}^n c_{jk}x_jx_k\\\begin{array}{ll}&c_{jk} = c_{kj} &k=1,2\cdots,n\\&\displaystyle\sum_{j=1}^na_{ij}x_j + b_i \ge 0,&i=1,2,\cdots,m\\&x_j\ge0,\quad &j=1,2,\cdots,n\end{array}\end{cases} ⎩ ⎨ ⎧ min f ( X ) = j = 1 ∑ n c j x j + 2 1 j = 1 ∑ n k = 1 ∑ n c jk x j x k c jk = c kj j = 1 ∑ n a ij x j + b i ≥ 0 , x j ≥ 0 , k = 1 , 2 ⋯ , n i = 1 , 2 , ⋯ , m j = 1 , 2 , ⋯ , n
当二次型 f ( X ) f(\boldsymbol{X}) f ( X ) 正定(或半正定)时,该函数为严格凸函数(或凸函数);因为,二次规划的可行域为凸集,因此,其为凸规划
如何将一个二次规划问题转化为线性规划问题?试写出转化后的线性规划问题的数学模型,并说明模型中各个符号的意义。
转化
根据库恩塔克条件( 1 ) (1) ( 1 ) ,并用 y y y 代替 γ \gamma γ 可得− ∑ k = 1 n c j k x k + ∑ i = 1 m a i j y n + i + y j = c j , j = 1 , 2 , ⋯ , n -\sum_{k=1}^{n}c_{jk}x_{k} + \sum_{i=1}^{m}a_{ij}y_{n+i} + y_{j}=c_{j},\quad j =1,2,\cdots,n − k = 1 ∑ n c jk x k + i = 1 ∑ m a ij y n + i + y j = c j , j = 1 , 2 , ⋯ , n
对于约束可加入,松弛变量,使其成为等式∑ j = 1 n a i j x j + b i − x n + i = 0 , i = 1 , 2 , ⋯ , m \sum_{j=1}^{n}a_{ij}x_{j} + b_{i} - x_{n+i} = 0,\quad i = 1,2,\cdots,m j = 1 ∑ n a ij x j + b i − x n + i = 0 , i = 1 , 2 , ⋯ , m
再将库恩塔克条件第二个条件应用于如上问题,得到x j y j = 0 , j = 1 , 2 , ⋯ , n + m x_jy_j=0,\quad j=1,2,\cdots,n+m x j y j = 0 , j = 1 , 2 , ⋯ , n + m
由于c j c_j c j 有正有负,因此,引入人工变量z j z_{j} z j ,使得∑ i = 1 m a i j y n + i + y j − ∑ k = 1 n c j k x k + sgn ( c j ) z j = c j , j = 1 , 2 , ⋯ , n \sum_{i=1}^{m}a_{ij}y_{n+i} + y_{j} -\sum_{k=1}^{n}c_{jk}x_{k} +\text{sgn}(c_{j})z_{j}= c_{j},\quad j =1,2,\cdots,n i = 1 ∑ m a ij y n + i + y j − k = 1 ∑ n c jk x k + sgn ( c j ) z j = c j , j = 1 , 2 , ⋯ , n
由此变为如下规划问题min φ ( Z ) = ∑ i = 1 n z j s.t { ∑ i = 1 m a i j y n + i + y j − ∑ k = 1 n c j k x k + sgn ( c j ) z j = c j , j = 1 , 2 , ⋯ , n ∑ j = 1 n a i j x j + b i − x n + i = 0 , i = 1 , 2 , ⋯ , m x j ≥ 0 , y j ≥ 0 , j = 1 , 2 , ⋯ , n + m z j ≥ 0 , j = 1 , 2 , ⋯ , n \begin{split}&\min \varphi(\boldsymbol{Z})= \sum_{i=1}^n z_{j}\\&\text{s.t}\begin{cases}\displaystyle\sum_{i=1}^{m}a_{ij}y_{n+i} + y_{j} -\sum_{k=1}^{n}c_{jk}x_{k} +\text{sgn}(c_{j})z_{j}= c_{j},& j =1,2,\cdots,n\\\displaystyle \sum_{j=1}^{n}a_{ij}x_{j} + b_{i} - x_{n+i} = 0,&i=1,2,\cdots,m\\x_{j}\ge 0,y_{j}\ge 0,&j=1,2,\cdots,n+m\\z_{j}\ge 0,&j=1,2,\cdots,n\end{cases}\end{split} min φ ( Z ) = i = 1 ∑ n z j s.t ⎩ ⎨ ⎧ i = 1 ∑ m a ij y n + i + y j − k = 1 ∑ n c jk x k + sgn ( c j ) z j = c j , j = 1 ∑ n a ij x j + b i − x n + i = 0 , x j ≥ 0 , y j ≥ 0 , z j ≥ 0 , j = 1 , 2 , ⋯ , n i = 1 , 2 , ⋯ , m j = 1 , 2 , ⋯ , n + m j = 1 , 2 , ⋯ , n