![深度学习](https://wfqqreader-1252317822.image.myqcloud.com/cover/317/22651317/b_22651317.jpg)
数学符号
下面简要介绍本书所使用的数学符号。我们在第2~4章中描述大多数数学概念,如果你不熟悉任何相应的数学概念,可以参考对应的章节。
数和数组
a 标量(整数或实数)
a 向量
A 矩阵
A 张量
In n行n列的单位矩阵
I 维度蕴含于上下文的单位矩阵
e(i) 标准基向量[0, ···,0,1,0, ···,0],其中索引i处值为1
diag(a) 对角方阵,其中对角元素由a 给定
a 标量随机变量
a 向量随机变量
A 矩阵随机变量
集合和图
集合
实数集
{0,1} 包含0和1的集合
{0,1, ···,n} 包含0和n之间所有整数的集合
[a,b] 包含a和b的实数区间
(a,b] 不包含a但包含b的实数区间
差集,即其元素包含于
但不包含于B
图
图
中xi的父节点
索引
向量a的第i个元素,其中索引从1开始
除了第i个元素,a的所有元素
矩阵A的i,j元素
: 矩阵A的第i行
矩阵A的第i列
3维张量A的(i,j,k)元素
3维张量的2维切片
随机向量a的第i个元素
线性代数中的操作
矩阵A的转置
A的Moore-Penrose伪造
A和B的逐元素乘积(Hadamard乘积)
A的行列式
微积分
y关于x的导数
y关于x的偏导
y关于x的梯度
y关于X的矩阵导数
y关于X求导后的张量
的Jacobian矩阵
f在点x处的Hessian矩阵
x整个域上的定积分
集合
上关于x的定积分
概率和信息论
a和b相互独立的随机变量
给定c后条件独立
离散变量上的概率分布
连续变量(或变量类型未指定时)上的概率分布
具有分布P的随机变量a
f(x)关于P(x)的期望
f(x)在分布P(x)下的方差
f(x)和g(x)在分布P(x)下的协方差
随机变量x的香浓熵
P和Q的KL散度
均值为µ,协方差为Σ,x上的高斯分布
函数
定义域为A值域为B的函数f
fg f和g的组合
f(x; θ) 由θ参数化,关于x的函数(有时为简化表示,我们忽略θ而记为f(x))
logx x的自然对数
σ(x) Logistic sigmoid,
ζ(x) Softplus, log(1+exp(x))
||x||p x的Lp范数
||x|| x的L2范数
x+ x的正数部分,即max(0,x)
1condition 如果条件为真则为1,否则为0
有时候我们使用函数f,它的参数是一个标量,但应用到一个向量、矩阵或张量:f(x)、f(X)或f(X)。这表示逐元素地将f应用于数组。例如,C=σ(X),则对于所有合法的i、j和k, Ci,j,k=σ(Xi,j,k)。
数据集和分布
pdata 数据生成分布
由训练集定义的经验分布
训练样本的集合
x(i) 数据集的第i个样本(输入)
y(i)或y(i) 监督学习中与x(i)关联的目标
X m×n的矩阵,其中行Xi, :为输入样本x(i)