“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

什么是“感知机”，它的缺陷为什么让“神经网络”陷入低潮

7. 程序员的性格为什么那么轴，那都是有原因的

MCC x Minecraft 15th Anniversary Party

The New Lethal Company Update is Out of Control

J.D. Vance addresses RNC crowd: FULL SPEECH

“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”

王木头学科学

Просмотров 22 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 28 июн 2021
梯度下降法中求梯度，求的是损失函数的梯度。不同的损失函数会直接影响神经网络的训练效率。
损失函数是如何设计出来的？
有3种主要设计思路：最小二乘法、极大似然法、|交叉熵法
这一次先直观理解最小二乘法和极大似然法
Наука

Комментарии • 34

@user-oc8vy6rc2t 4 месяца назад ⁺²
说得太好了，把最自然的思路用准确通俗的语言展现出来❤
@user-oc8vy6rc2t 4 месяца назад ⁺¹
真实世界和理念世界的解释真的太棒了！
@leiyang2176 Год назад ⁺³
最小二乘法和交叉墒都其实可以通过极大似然法得到：
- 在线性回归模型中，每一个对应的标签y可以假设是线性函数再叠加上一个服从期望为0的正态分布，假定每一个例子中噪声都是独立同分布的话，则通过极大似然估计，可以证明通过最小二乘法得到的模型参数，可以使估计值y最大可能的服从假定的正态分布
- 在二元分类问题中，用似然估计，可以证明通过让交叉墒最小，获得的模型参数可以使得每个给定的特征向量(X), 估计的分类值尽可能等于标签值(Y)。当然也需要假设每个例子是独立同分布的.
@wkaing 3 года назад ⁺⁴
修正：极大似然法在求二项分布的概率时，少了系数C(10,3)，因为抛硬币，正面和反面出现的次序不重要，C(10,3)代表了不同次序的数量。不过，不影响视频最后结论，因为训练数据集确定后，这个系数是一个常数。
@dechaowu4967 2 года назад ⁺²
以前似懂非懂，看完顿时清晰了，讲的太棒了！！！
@user-TweetyBird 4 месяца назад
你说得太对了，每一个大问题别人都不在意
@yuhangli-vd8zp 7 месяцев назад
讲得很好，很多地方的思想很有帮助
@dongmingli9546 2 года назад ⁺¹
王木头讲的真好！非常清楚！我反正看完是通透了！快点更新吧我还等着看呢，是不是因为看的人太少了不更新了啊。。。
@nikkilin4396 Год назад
讲得太好了。
@woodywan4010 2 года назад ⁺¹
講得太好了！
@frankzhang6009 11 месяцев назад
讲的真的很好。
@joenoci7452 11 месяцев назад
讲的真好
@seekingthewholetruth Год назад
好频道。粉了！
@howardyin Год назад
必须要给个手动点赞！😁
@user-ee5gi9sg4n 2 месяца назад
UP主讲得太好了。不喜欢直接列公式，我也是想了解这个公式怎么来的，背后的道理是什么，如果我记不住这个公式，能不能根据学习过的理解方式重新推导出来。
@poloola7569 2 года назад
通透！
@yeelignyee3767 2 года назад
赞赞赞！！！
@victorli3829 2 года назад
粉了粉了！！
@zhangbd2010 6 месяцев назад
19:33处条件慨率P(Xi|Yi)转变为贝努力概率时候有一些费解。因为条件概率的直接计算是P(Xi n Yi)/P(Yi), 我只能理解为在Xi已知的情况下P(Yi|Xi)的概率计算可以用贝努力公式。
@zhangbd2010 6 месяцев назад
我明白了，这里计算的是P(Xi|Yi) ，Yi已知情况下P(Xi)的概率，毕竟是一种P(Xi)，而不是某种情况下的 P(Yi)，因为X只有两种情况所以可以用贝努力公式，神经网络求出的概率Yi 可以理解为硬币为正面的理论概率，Xi是实际观察到的概率。 P(X) = Y 的X方乘以 (1-Y)的(1-X)方
@waynebrown719 9 месяцев назад
沐神的损失函数只有 ylogy_hat ,没有+后面那项（1-y）log（1-y_hat）
@chenli741 2 года назад
感谢上传，全是干货。不过有一点，似然函数取最大的目的并不是让其接近0.5的概率分布（换成其他分布，解释可能不成立）。而是让样本数据发生的概率最大。
@pengxu8542 2 года назад
Target 是数量值就用最小二乘，targrt是分类标签就用最大似然估计
@taotaotan5671 2 года назад
极大似然应该都可以吧，至少解线性回归和logistic 回归都没问题。
@lancezhang892 6 месяцев назад
损失函数是一堆samples的数值吗？
@sunksun 3 месяца назад
针不戳
@user-TweetyBird 4 месяца назад
一键三连什么意思啊？
@KeevnWang 2 года назад
损失函数远不止三种，重点在在于你的最小化目标是什么
@allanwakes6301 2 года назад ⁺¹
不知道是不是我的理解有问题，是不是极大似然估计“包裹”了最小二乘法以及交叉熵，最根本的是maximum likelihood estimation
@taotaotan5671 2 года назад
至少在求线性模型的时候，极大似然和最小二乘所估计出的斜率和截距会是一样的。不过神经网络我就不确定了。
@hudsonvan4322 2 года назад
最小平方法就是用來算估計誤差的可以從回歸方程解析解的證明方法中得知
@user-if2mq2jv8k 2 года назад
讲得简直不要再好了！！！赞
@shunjiwei2514 2 года назад ⁺²
正在学机器学习，就是死活搞不清楚，最小二乘法正规方程，极大似然值，逻辑回归这之间的关系，貌似懂，又貌似啥都不懂，反正Python也能得出结果，但就是无法从抽象到具象化进行理解
@moorehan3506 2 месяца назад
是，弄不懂，不通透，难受

Следующие

Автовоспроизведение

“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

“交叉熵”如何做损失函数？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

什么是“感知机”，它的缺陷为什么让“神经网络”陷入低潮

什么是“感知机”，它的缺陷为什么让“神经网络”陷入低潮

7. 程序员的性格为什么那么轴，那都是有原因的

7. 程序员的性格为什么那么轴，那都是有原因的

MCC x Minecraft 15th Anniversary Party

MCC x Minecraft 15th Anniversary Party

The New Lethal Company Update is Out of Control

The New Lethal Company Update is Out of Control

J.D. Vance addresses RNC crowd: FULL SPEECH

J.D. Vance addresses RNC crowd: FULL SPEECH

College Football 25 Road To Glory - 5 Star RB Commits To A 2 Star College!

College Football 25 Road To Glory - 5 Star RB Commits To A 2 Star College!

【最透彻】13 最大似然估计【小元老师】

【最透彻】13 最大似然估计【小元老师】

为什么神经网络，必须使用非线性的激活函数

为什么神经网络，必须使用非线性的激活函数

什么是最小二乘估计？它解决什么问题？「珂学原理」No.94

什么是最小二乘估计？它解决什么问题？「珂学原理」No.94

如何理解“梯度下降法”？什么是“反向传播”？通过一个视频，一步一步全部搞明白

如何理解“梯度下降法”？什么是“反向传播”？通过一个视频，一步一步全部搞明白

把光速降到0会发生什么？你将看见人类的一种未来

把光速降到0会发生什么？你将看见人类的一种未来

哥德尔不完备视角下的自然数为什么如此特殊？这个问题隐藏着数学和世界真实性的线索

哥德尔不完备视角下的自然数为什么如此特殊？这个问题隐藏着数学和世界真实性的线索

“L1和L2正则化”直观理解(之一)，从拉格朗日乘数法角度进行理解

“L1和L2正则化”直观理解(之一)，从拉格朗日乘数法角度进行理解

从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变

从“卷积”、到“图像卷积操作”、再到“卷积神经网络”，“卷积”意义的3次改变

什么是卷积神经网络？卷积到底卷了啥？

什么是卷积神经网络？卷积到底卷了啥？

Новый питомец! Робот с искусственным интеллектом! Он меня узнал! Anki Cozmo

Новый питомец! Робот с искусственным интеллектом! Он меня узнал! Anki Cozmo

Choose a phone for your mom

Choose a phone for your mom

iPhone 15 Pro в реальной жизни

iPhone 15 Pro в реальной жизни

Wylsa Pro: Глобальный сбой компьютеров на Windows по всему миру, 100% брак у Samsung!

Wylsa Pro: Глобальный сбой компьютеров на Windows по всему миру, 100% брак у Samsung!

Создание ЭКСКЛЮЗИВНЫХ колонок с использованием современных технологий

Создание ЭКСКЛЮЗИВНЫХ колонок с использованием современных технологий

ЗАКОПАЛ НОВЫЙ ТЕЛЕФОН!!!🎁😱

ЗАКОПАЛ НОВЫЙ ТЕЛЕФОН!!!🎁😱

Смело ставь iOS 18

Смело ставь iOS 18

Самый быстрый пылесос!

Самый быстрый пылесос!