机器学习必修之数学基础系列课程

开课时间:录播回放,在线学习
开课时长:线上视频课程,随到随学

一、矩阵运算于图像处理:

0、像素取值范围是[0, 255];

1、矩阵加法,增幅较小,易使像素值大于等于255,因此在图像上即表现为白色噪声;

2、同理,矩阵相乘,增幅是成倍数的,因此易使像素取值集中到0或255,也就呈现出黑白相间的条纹状;

二、矩阵运算

1、AB≠BA

2、方阵的幂

[展开全文]

1、向量是带方向的标量,所以它的一个自然属性就是有序。

关于这一点,可以联系排列组合的概念理解:

(1)所谓排列,就是指从给定个数的元素中取出指定个数的元素进行排序。

(2)组合则是指从给定个数的元素中仅仅取出指定个数的元素,不考虑排序

因此,关于向量相等的条件也就很清楚了,必须得一一相等。

2、向量内积(点乘,数量积)

(1)计算结果是一个数值。

(2)引入的素材是物理中的做功,功表示能量,其大小是数值。因此内积的结果也是数值。

(3)向量内积可用来判断两个向量是否正交(相互垂直)

3、向量范数

(1)之所以称为范数而不是长度,是因为生活中不同的应用场景所对应的“规则”不同, 称谓也不同,因此以“范数”来广泛定义。可与张量的概念相类比。

(2)0范数不是范数,因为它违反了向量范数定义的第2个条件——齐次性。

4、线性相关与线性无关

(1)向量组的秩

(2)极大无关组

5、由向量引出矩阵的概念

5.1 矩阵范数

6、作业

 

 

 

[展开全文]

进入到凸优化,难度比以前加强了,主要是概念和定理比较多,比较抽象化,需要结合画图和例题来进行梳理。

1可行下降方向:

定义一

可行方向
  
满足
  
,则称d为约束优化问题(1)在x点的可行下降方向

定义二

设X是非线性规划问题(NLP)的一个可行点,非零矢量d即是点X处的可行方向,又是f(X)在点X处的一个下降方向,则称d为f(X)在点X处的一个可行下降方向 [1] 

 2.起作用约束(active constraint)

亦称紧约束或积极约束,是指在某可行点处使不等式约束成为等式的约束。对于可行点x',当gi(x')=0时点x'处于这个约束形成的可行域的边界上,起到了限制作用,故称这一约束为点x'处的起作用约束,等式约束对所有可行点都是起作用约束。

3. 拉格朗日乘子

基本的拉格朗日乘子法(又称为拉格朗日乘数法),就是求函数 f(x1,x2,...) 在 g(x1,x2,...)=0 的约束条件下的极值的方法。其主要思想是引入一个新的参数 λ (即拉格朗日乘子),将约束条件函数与原函数联系到一起,使能配成与变量数量相等的等式方程,从而求出得到原函数极值的各个变量的解

 

4.KKT条件

min.:f(x) 
s.t.:gi(x)≤0,i=1,2,…,p, 
hj(x)=0,k=1,2,…,q, 
x∈Ω⊂Rn 
KKT条件是指在满足一些有规则的条件下, 一个非线性规划(Nonlinear Programming)问题能有最优化解法的一个必要和充分条件. 这是一个广义化拉格朗日乘数的成果. 一般地, 一个最优化数学模型的列标准形式参考开头的式子, 所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最优点x∗必须满足下面的条件: 
 - 1. 约束条件满足gi(x∗)≤0,i=1,2,…,p, 以及,hj(x∗)=0,j=1,2,…,q 
 - 2. ∇f(x∗)+∑i=1pμi∇gi(x∗)+∑j=1qλj∇hj(x∗)=0, 其中∇为梯度算子; 
 - 3. λj≠0且不等式约束条件满足μi≥0,μigi(x∗)=0,i=1,2,…,p

 

更多概念参考:https://blog.csdn.net/weixin_37352167/article/details/84675233

[展开全文]

1.方向导数与梯度

 方向导数是数值,表示某个方向上的导数

 梯度为矢量,梯度方向上唯一存在最大的方向导数,梯度定义:

2.二元函数的极值判断:

设:二元函数 f(x,y)的稳定点为:(x0,y0),即:∂f(x0,y0)/∂x = ∂f(x0,y0)/∂y = 0;记::A=∂²f(x0,y0)/∂x²B=∂²f(x0,y0)/∂x∂yC=∂²f(x0,y0)/∂y²∆=AC-B²

如果:∆>0 A0,f(x0,y0) 为极小值;如果:∆0f(0,0)=0 为最小值。

求解函数极值方法:寻求函数整个定义域上的最大值和最小值是数学优化的目标。如果函数在闭合区间上是连续的,则通过极值定理存在整个定义域上的最大值和最小值。此外,整个定义域上最大值(或最小值)必须是域内部的局部最大值(或最小值),或必须位于域的边界上。

3.多元泰勒展开式:

[展开全文]

凸优化的第一课,概念内容比较多。

主要包括:凸集,超平面,半空间,锥,凸锥,射线,顶点,多面集,极点,极方向。参考老师给出的《最优化理论预算法》,具体概念和实例

[展开全文]

关于样本方差的无偏估计为什么是

 

而不是

 

这篇博文有做详细的推导证明https://blog.csdn.net/qq_39521554/article/details/79633207

 

这节课讨论的主要内容是估计包括点估计矩阵估计最大似然估计。估计的含义就是根据样本区估计总体估计总体的参数如总体期望总体方差。二者的具体介绍

 

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

 

[展开全文]

这节课的基本概念在标题里已经涵盖,对课程中的重点做了一下归纳,需要注意的几点:

1. X,Y独立可得E(XY)=E(X)*E(Y),反之不成立。X,Y独立的充要条件是P(XY) = P(X)*P(Y)
 
2.方差与协方差:方差用于描述数据的离散程度,而协方差为了描述数据的相关程度。而皮尔逊系数则结合二者表达了线性相关的程度,在[-1,1]之间。当值接近1时,完全线性相关,-1时负线性相关,为0时不相关。
 
3.极限定理主要包括大数定律和中心极限定律,大数定理主要用于描述平均结果和频率的稳定性。后者主要用于描述分布的稳定性。二者的定义如下:
 
大数定律:在概率论中,用来阐明大量平均结果稳定性的一系列定理统称为大数定律。
 
中心极限定律:在客观实际中有许多随机变量,它们是由大量相互独立的随机因素的综合效应所形成的,而其中的每一个单个因素在总的效应中所起的作用都是微小的。这类随机变量往往近似地服从正态分布。在概率论中,论证随机变量和的极限分布是正态分布的一系列定理统称为中心极限定理。
[展开全文]

这一节课的概念很多,整理一下:

非退化双线性型

非退化矩阵(non-degenerate matrix)又称“非异矩阵(non-singular matrix) ”、“满秩矩阵”,若n阶矩阵A的行列式|A|≠0,则称A为一个非退化矩阵,若|A|=0,则称A为“退化矩阵”,也称“奇异矩阵”、“降秩矩阵”。n阶方阵A是非退化的充要条件为A是可逆矩阵

双线性型指的是一个二元函数f(x,y)对x,y分别是线性的,即

f(x1+x2,y)=f(x1,y)+f(x2,y)
f(kx,y)=kf(x,y);
f(x,y1+y2)=f(x,y1)+f(x,y2)
f(x,ky)=kf(x,y)

 

合同、等价、相似

1、等价,相似和合同三者都是等价关系。

2、矩阵相似或合同必等价,反之不一定成立。

3、矩阵等价,只需满足两矩阵之间可以通过一系列可逆变换,也即若干可逆矩阵相乘得到。

4、矩阵相似,则存在可逆矩阵P使得,P^(-1)AP=B。

5、矩阵合同,则存在可逆矩阵P使得,P^TAP=B。

6、当上述矩阵P是正交矩阵时,即P^T=P^(-1),则有A,B之间既满足相似,又满足合同关系。

7、矩阵等秩是相似、合同、等价的必要条件,相似、合同、等价是等秩的充分条件。

8、矩阵等价是相似、合同的必要条件,相似、合同是等价的充分条件。  

9、 矩阵相似、合同之间没有充要关系,存在相似但不合同的矩阵,也存在合同但不相似的矩阵。 

10、总结起来就是:相似=>等价,合同=>等价,等价=>等秩。

 

正惯性指标

线性代数里矩阵的正的特征值个数,也即是规范型里的系数"1"的个数

 

二次型的标准型和规范型

标准型就是只含平方项的二次型叫标准型,但标准型不唯一。当把标准型前面的正系数变成正1,负系数变成-1.就是规范型。具有唯一性。

 

正定

对称矩阵A为正定矩阵的充分必要条件是A的所有特征值都是正数

 

矩阵的微分技巧

利用矩阵的内积来计算矩阵的微分

 

[展开全文]

进入小组观看课程

以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流