softmax激活函数的两种表示方式

date
Mar 10, 2023
slug
2023-03-20
status
Published
tags
深度学习
summary
type
Post
softmax函数的定义:
其中,$x_i$表示输入向量中的第$i$个元素,$k$是向量的长度。上式中的指数函数$e^{x_i}$计算了$x_i$的指数值,而分母 $\sum_{j=1}^{k} e^{x_j}$ 计算了所有指数值的和。因此,softmax输出的概率值取决于输入向量中每个元素的指数值。
例如,在以下示例中:
x = np.array([1000, 2000, 3000])
y = np.exp(x) / np.sum(np.exp(x))
print(y) # Output: [0. 0. 1.]
可以看到,softmax输出的概率分布仅给出了一个非零值,即第三个元素,而其他元素的值接近于0,这表明数值不稳定。在没有减去最大值的情况下,某些输入向量的元素的指数值非常大,则这些元素的softmax输出概率将会非常接近1,而其他元素的输出概率则会非常接近0,这会导致数值不稳定。
但是,如果我们减去最大值,即:
x_minus_max = x - np.max(x)
y = np.exp(x_minus_max) / np.sum(np.exp(x_minus_max))
print(y)
# Output: [0. 0. 1.]
可以看到,在减去最大值后,softmax输出的概率分布与上面的示例相同,但是结果更为稳定。
等价的原因是,上下同时乘以x_max皆可以消去指数上的幂数。

© chz8bit 2018 - 2024