Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
整个宇宙就是个超高维度的向量,我们这个世界就是这个超高维度的投影, 语言就是人类在这个投影下的现实世界的简化描述 , 大语言模型就是对描述的极致压缩。最后浓缩成一堆12288维度的单词向量表格。大家还对此乐此不疲,不过是窥豹一斑,降维下的浮光掠影,探索真实还远远没开始,也许永不会结束。
这篇文档详细介绍了大语言模型(如ChatGPT)的工作原理,从简单的词向量到复杂的Transformer结构,最终到如何通过训练数据优化模型参数。以下是总结的几个关键点:1. 词向量 (Word Vectors)每个单词通过高维向量表示(如300维或更多),捕捉词与词之间的语义关系。类似Google的Word2Vec模型,可以通过向量运算实现类比推理(如"王" + "女" = "女王")。2. Transformer 结构Transformer是大语言模型的核心,由多层神经网络组成。通过注意力机制(Attention Heads)处理上下文,捕捉单词之间的语义关系。3. 注意力机制每个单词创建“查询向量”和“关键向量”,用于寻找与其相关的单词。注意力机制帮助模型从上下文中提取信息,并更新单词的语义表示。4. 前馈层通过神经元连接,匹配文本中的特定模式。高层神经元处理更抽象的模式,如时间间隔或电视节目的相关信息。5. 训练过程利用大规模未标注文本,通过预测下一个单词进行训练。权重参数通过前向传播和反向传播算法调整,优化模型性能。需要庞大的计算资源和数据量,例如GPT-3训练需要5000亿个单词和数月时间。6. 规模与性能模型参数、维度和层数的增加显著提高性能。更大的模型可以处理复杂的推理任务,并展现出类似人类的高级认知能力(如心智理论)。7. 能力与局限GPT-4展示了对复杂问题的推理能力,但这种“理解”是否与人类相同仍存在争议。研究表明模型具有自发的高级能力,但可能也只是复杂的统计模式匹配。8. 应用与前景大语言模型在自然语言处理、编程、翻译等领域展现了强大能力。尽管性能不断提升,但模型仍然面临诸如偏见、解释性和资源需求等挑战。文档以浅显易懂的方式解读了复杂的数学和技术背景,对于初学者理解AI工作原理非常友好。
大飛這期的視頻很可惜,只能給一個讚,我想給 100 個讚啊,講的實在是太棒了,非常感謝!🙏
感谢支持🙏一个赞就够了🤣
@@bestpartners 只给單數的讚,比如1、3、5... etc., 🎉🎉🎉❤❤❤
感谢up辛苦付出,收获颇丰
謝謝大飛! 這是一個很棒的內容讓我對transformer有了進一步的了解. 👏👏👏🎉🎉🎉!
太感谢了 我第二天又找出来来来回回再看几遍。让我能看到大语言大概。更坚定AI 前景
大飞精益求精, 鼓励赞叹
感谢大飞!这个科普真的很不错!非常棒!👍👍👍
很捧的分享,有了更深的了解。谢谢你😊
淺顯易懂的說明🎉
虽然我曾经学习过线性代数,但是我听第一遍的时候依然有些晕😷。但是大飞的内容质量很高,再刷几遍!
感谢支持,能有些帮助就好
看完了,讲的太好了,感谢!
学习了,谢谢播主
確實,光談到什麼叫做「理解」,就成了哲學問題
其实是数学问题
可见生物的出现,真的很奇妙。仅仅就是设计一个推理机,要经过如此复杂的过程。
太棒🎉
非常棒
## 大語言模型工作原理筆記### 一、詞向量:表示語言的方式* 大語言模型使用**詞向量**來表示單詞,每個詞向量是由一串數字組成的列表,代表詞空間中的一個點。* **詞空間**中,含義相近的詞位置更接近,例如"貓"的詞向量會靠近"狗"、"小貓"等詞向量。* **詞向量的好處**: * 可以進行數值運算,例如"最大" - "大" + "小" = "最小"。 * 能夠捕捉詞語之間的微妙關係,例如"瑞士人"與"瑞士"的關係類似於"柬埔寨人"與"柬埔寨"的關係。 * 可以根據上下文用不同的向量來表示同一個詞,解決多義詞問題,例如"銀行"可以指金融機構或河岸。### 二、Transformer:大語言模型的基石* **Transformer**是一種神經網絡結構,由多個層組成,每層都接收一系列詞向量作為輸入,並添加信息以更好地預測下一個詞。* Transformer 的兩個核心處理過程: * **注意力機制**: 詞匯會觀察周圍,尋找具有相關背景並彼此共享信息的詞,並通過查詢和關鍵項鏈的匹配來傳遞信息。 * **潛會層**: 每個詞會思考之前注意力步驟中收集到的信息,並嘗試預測下一個詞。* **注意力機制**: * 可以將其視為單詞之間的"撮合服務",每個詞會製作查詢和關鍵項鏈來描述自己和尋找的詞,並通過比較找到最佳匹配的詞。 * 擁有**注意力頭**,每個注意力頭專注於不同的任務,例如匹配代詞和名詞、解析多義詞等。* **潛會層**: * 可以訪問注意力頭提供的上下文信息,並通過模式匹配來預測下一個詞。 * 早期層傾向於匹配特定單詞,後期層則匹配更廣泛類別的短語。 * 可以通過向量運算進行推理,例如將國家轉化為首都。* 注意力機制和潛會層的分工:注意力機制從提示中檢索信息,而潛會層讓語言模型記住未在提示中出現的信息。### 三、訓練:讓模型學習語言* 大語言模型通過預測文本段落中的下一個詞來學習,不需要人工標記數據。* 訓練過程: 1. **前向傳播**: 輸入文本,檢查模型預測的下一個詞是否正確。 2. **反向傳播**: 根據預測結果調整模型的權重參數,使模型做出更好的預測。* 訓練需要大量的數據和計算資源,例如 GPT-3 在 5000 億個單詞的語料庫上進行訓練,需要運行數月才能完成。### 四、模型規模與能力:越大越好* 研究表明,模型規模越大,在語言任務上的表現越好。* 模型規模的增大帶來了更強的推理能力,例如 GPT-3 在心智理論任務上的表現接近人類兒童。### 五、結論大語言模型通過學習大量文本數據,能夠以驚人的準確度預測下一個詞,並展現出一定的推理能力。雖然其內部工作機制尚未被完全理解,但其強大的能力和潛力已不容忽視。
辛苦了!
这篇文章不错
刚刚说的爆米花的问题坦白说,第一次我没听明白,里面明明是爆米花,为什么说他相信里面装满了 ___ , 应该是巧克力呢?看第二遍我明白了,这个问题是需要回答问题的人去揣摩Sam的当时思想,而明确的说了,Sam没有看到里面装的,他只能看到标签,所以答案是巧克力;这种能够将本我带入问题去揣摩别人的思考能力是心智(Theory Of Mind )的表现;
好精彩,很新视野。我怎么看不到这样内容和论文呢
🎉🎉🎉❤❤❤
由此看来,高质量的训练内容可以极大的提高模型质量。由专业人员训练专业模型,生成高质量专家模型,再由专家模型训练更高质量的模型。词向量的感觉就像脑神经里的突触链接,词向量的纬度描述了脑神经里特定信息所持有的链接。同样的信息不同的人感受是不一样的,可能就是每个人的该信息词向量纬度和标记都不一样。可能基于人类行为正态分布训练出来的是一个普通人,不是一个独特的特别的人。未来可能会更精更专,同样的纬度词向量,参数规模在更精确更窄的范围内训练,出来的模型可不可以得到更好的效果。就像你去医院看病,你不知道什么问题先去问服务站的护士,她根据你的情况告诉你应该挂什么科的医生,到了医生那里医生给你开出了各种专业的检查,如果达不到要求,他可能要求你转院。你在每个层级遇到的人,都是差不多参数的大模型,但是每个模型训练的内容质量不一样。在现有人类能力之下,很快就会达到物理瓶颈,不可能无限制的增加芯片节点。未来的Ai,当你与Gpt交谈,它会自动匹配模型,来满足你的深度,从而让硬件系统效率最大化。大飞的视频质量越来越高了,🎉,感觉可以就某些方面做一系列,可以短小精悍,作为对主视频的补充。
还有一个问题就是,人类所接触的信息量远远小于Ai,也许未来Ai所展示的答案才是真实的。就像盲人摸象,你没有那么大的数据库,你理解的世界和Ai计算的世界会有出入。人类目前胜出的原因可能就是人类大脑里的模型更准确,短小精悍。不过也有可能是人类一叶障目不见泰山。
ai能拿到的数据是公开网络的,如果公司内部的数据可以专门训练成自己行业的专家。链家已经用ai来训练自己的业务员了
讲的真不错。
大语言模型的开发或训练过程中,不知道是否可以定义每一层的具体功能和职能划分,还是只能定义有多少层,多少个参数,具体的内部算法都无法干涉,或者模型本身也并不知道是如何得到这个结果的,依赖训练数据以及多少层和参数,每一次的结果都有随机性,就算开发人员也无法干涉(就算一次结果是错的),调整模型后也无法保证同样问题下一次的结果是正确的,LLM的输出不具备可靠性,没有一致性输出的可靠性,估计连百分比也给不出,汽车是可靠的,医疗器械是可靠的,电器是可靠的,经过很多验证所以人们才能依赖他们,如果LLM的输出是无法预判和随机的,那么LLM的应用领域会大大受限,不能危害人的生命或安全,而且LLM的可靠性在已有LLM模块框架下,可能永远无法达到人类要求汽车的那种可靠性,那么是否应该存在另外一个通用并可靠模型,LLM没有必要再深入的研究,它的上限就在那里了。请指教。
King - man + woman = queen 😂
= Queen
这些“层”是人工添加的还是通过程序来完成的
人工添加的
大飛哥感冒了嗎?小心身體
听到老茧都出来了,不知道还能听从什么新意来,现在的AI 基于语言逻辑,最大的好处是能听懂人类的语言了,也能迅速找到人类需要的信息用人类的语言来表达出来,就像是一个编辑加图书管理员而已,或者是一个文秘而已,用了一年发现他根本不具有空间思维能力,也就是说没有创造力或者动手能力,是个动嘴巴的不是干实事的人. 就算编程也是属于语言编辑和现有它所学的子程序的调用,全部基于语言和调用,你让它去编一个它没有学习过的功能看看,漏洞百出,也就是说它独立干不了工程和科学上的工作,也不具有交叉论证的能力,不足为惧,不过有它协助,工程师和程序员的学习效率显著提高了
每个神经元存储的实什么数据?一个词还是一个向量?
一个词,当推理的时候才有向量
聽版主的英語,有很強烈的撞牆感,毛骨悚然
所以想想看 创造人类本身是不知道高多少级别的设计
为什么要研究呢,LLM 不是人开发出来的吗,直接问业内的不可以吗
我觉得,尝试用静态的逻辑框架,去解释动态的逻辑推导过程,本质上没有实际意义,有点类似迷信了~~神经元内部并不会固定死哪些词汇对应哪个神经元,因为神经元本质就是动态的逻辑,而不是静态的标签,我们人类看到的“词”,实际上是一种语言、思维、逻辑上的错觉。
還是說皮毛而已。
但凡再复杂些,读懂的人会指数级下降。
看了几集,我觉得你不需要出境,你全程没有情绪,像个AI人。
想要什么情绪,娱乐视频还没看够么?
@@bestpartners 他可能想表达视频有讲解的内容就好了,出境在讲解过程没起到作用
出镜的目的是给油管平台看的🤣另外也不是所有画面都能适合做后期素材,真的累啊
@@bestpartners 他想要一个小姐姐给他一边跳着性感的舞蹈,一边给他讲Transformer
抖音快手抗日神剧可能更适合你, :)
整个宇宙就是个超高维度的向量,我们这个世界就是这个超高维度的投影, 语言就是人类在这个投影下的现实世界的简化描述 , 大语言模型就是对描述的极致压缩。最后浓缩成一堆12288维度的单词向量表格。大家还对此乐此不疲,不过是窥豹一斑,降维下的浮光掠影,探索真实还远远没开始,也许永不会结束。
这篇文档详细介绍了大语言模型(如ChatGPT)的工作原理,从简单的词向量到复杂的Transformer结构,最终到如何通过训练数据优化模型参数。以下是总结的几个关键点:
1. 词向量 (Word Vectors)
每个单词通过高维向量表示(如300维或更多),捕捉词与词之间的语义关系。
类似Google的Word2Vec模型,可以通过向量运算实现类比推理(如"王" + "女" = "女王")。
2. Transformer 结构
Transformer是大语言模型的核心,由多层神经网络组成。
通过注意力机制(Attention Heads)处理上下文,捕捉单词之间的语义关系。
3. 注意力机制
每个单词创建“查询向量”和“关键向量”,用于寻找与其相关的单词。
注意力机制帮助模型从上下文中提取信息,并更新单词的语义表示。
4. 前馈层
通过神经元连接,匹配文本中的特定模式。
高层神经元处理更抽象的模式,如时间间隔或电视节目的相关信息。
5. 训练过程
利用大规模未标注文本,通过预测下一个单词进行训练。
权重参数通过前向传播和反向传播算法调整,优化模型性能。
需要庞大的计算资源和数据量,例如GPT-3训练需要5000亿个单词和数月时间。
6. 规模与性能
模型参数、维度和层数的增加显著提高性能。
更大的模型可以处理复杂的推理任务,并展现出类似人类的高级认知能力(如心智理论)。
7. 能力与局限
GPT-4展示了对复杂问题的推理能力,但这种“理解”是否与人类相同仍存在争议。
研究表明模型具有自发的高级能力,但可能也只是复杂的统计模式匹配。
8. 应用与前景
大语言模型在自然语言处理、编程、翻译等领域展现了强大能力。
尽管性能不断提升,但模型仍然面临诸如偏见、解释性和资源需求等挑战。
文档以浅显易懂的方式解读了复杂的数学和技术背景,对于初学者理解AI工作原理非常友好。
大飛這期的視頻很可惜,只能給一個讚,我想給 100 個讚啊,講的實在是太棒了,非常感謝!🙏
感谢支持🙏一个赞就够了🤣
@@bestpartners 只给單數的讚,比如1、3、5... etc., 🎉🎉🎉❤❤❤
感谢up辛苦付出,收获颇丰
謝謝大飛! 這是一個很棒的內容讓我對transformer有了進一步的了解. 👏👏👏🎉🎉🎉!
太感谢了 我第二天又找出来来来回回再看几遍。让我能看到大语言大概。更坚定AI 前景
大飞精益求精, 鼓励赞叹
感谢大飞!这个科普真的很不错!非常棒!👍👍👍
很捧的分享,有了更深的了解。谢谢你😊
淺顯易懂的說明🎉
虽然我曾经学习过线性代数,但是我听第一遍的时候依然有些晕😷。但是大飞的内容质量很高,再刷几遍!
感谢支持,能有些帮助就好
看完了,讲的太好了,感谢!
学习了,谢谢播主
確實,光談到什麼叫做「理解」,就成了哲學問題
其实是数学问题
可见生物的出现,真的很奇妙。仅仅就是设计一个推理机,要经过如此复杂的过程。
太棒🎉
非常棒
## 大語言模型工作原理筆記
### 一、詞向量:表示語言的方式
* 大語言模型使用**詞向量**來表示單詞,每個詞向量是由一串數字組成的列表,代表詞空間中的一個點。
* **詞空間**中,含義相近的詞位置更接近,例如"貓"的詞向量會靠近"狗"、"小貓"等詞向量。
* **詞向量的好處**:
* 可以進行數值運算,例如"最大" - "大" + "小" = "最小"。
* 能夠捕捉詞語之間的微妙關係,例如"瑞士人"與"瑞士"的關係類似於"柬埔寨人"與"柬埔寨"的關係。
* 可以根據上下文用不同的向量來表示同一個詞,解決多義詞問題,例如"銀行"可以指金融機構或河岸。
### 二、Transformer:大語言模型的基石
* **Transformer**是一種神經網絡結構,由多個層組成,每層都接收一系列詞向量作為輸入,並添加信息以更好地預測下一個詞。
* Transformer 的兩個核心處理過程:
* **注意力機制**: 詞匯會觀察周圍,尋找具有相關背景並彼此共享信息的詞,並通過查詢和關鍵項鏈的匹配來傳遞信息。
* **潛會層**: 每個詞會思考之前注意力步驟中收集到的信息,並嘗試預測下一個詞。
* **注意力機制**:
* 可以將其視為單詞之間的"撮合服務",每個詞會製作查詢和關鍵項鏈來描述自己和尋找的詞,並通過比較找到最佳匹配的詞。
* 擁有**注意力頭**,每個注意力頭專注於不同的任務,例如匹配代詞和名詞、解析多義詞等。
* **潛會層**:
* 可以訪問注意力頭提供的上下文信息,並通過模式匹配來預測下一個詞。
* 早期層傾向於匹配特定單詞,後期層則匹配更廣泛類別的短語。
* 可以通過向量運算進行推理,例如將國家轉化為首都。
* 注意力機制和潛會層的分工:注意力機制從提示中檢索信息,而潛會層讓語言模型記住未在提示中出現的信息。
### 三、訓練:讓模型學習語言
* 大語言模型通過預測文本段落中的下一個詞來學習,不需要人工標記數據。
* 訓練過程:
1. **前向傳播**: 輸入文本,檢查模型預測的下一個詞是否正確。
2. **反向傳播**: 根據預測結果調整模型的權重參數,使模型做出更好的預測。
* 訓練需要大量的數據和計算資源,例如 GPT-3 在 5000 億個單詞的語料庫上進行訓練,需要運行數月才能完成。
### 四、模型規模與能力:越大越好
* 研究表明,模型規模越大,在語言任務上的表現越好。
* 模型規模的增大帶來了更強的推理能力,例如 GPT-3 在心智理論任務上的表現接近人類兒童。
### 五、結論
大語言模型通過學習大量文本數據,能夠以驚人的準確度預測下一個詞,並展現出一定的推理能力。雖然其內部工作機制尚未被完全理解,但其強大的能力和潛力已不容忽視。
辛苦了!
这篇文章不错
刚刚说的爆米花的问题
坦白说,第一次我没听明白,里面明明是爆米花,为什么说他相信里面装满了 ___ , 应该是巧克力呢?看第二遍我明白了,这个问题是需要回答问题的人去揣摩Sam的当时思想,而明确的说了,Sam没有看到里面装的,他只能看到标签,所以答案是巧克力;
这种能够将本我带入问题去揣摩别人的思考能力是心智(Theory Of Mind )的表现;
好精彩,很新视野。我怎么看不到这样内容和论文呢
🎉🎉🎉❤❤❤
由此看来,高质量的训练内容可以极大的提高模型质量。由专业人员训练专业模型,生成高质量专家模型,再由专家模型训练更高质量的模型。词向量的感觉就像脑神经里的突触链接,词向量的纬度描述了脑神经里特定信息所持有的链接。同样的信息不同的人感受是不一样的,可能就是每个人的该信息词向量纬度和标记都不一样。可能基于人类行为正态分布训练出来的是一个普通人,不是一个独特的特别的人。未来可能会更精更专,同样的纬度词向量,参数规模在更精确更窄的范围内训练,出来的模型可不可以得到更好的效果。就像你去医院看病,你不知道什么问题先去问服务站的护士,她根据你的情况告诉你应该挂什么科的医生,到了医生那里医生给你开出了各种专业的检查,如果达不到要求,他可能要求你转院。你在每个层级遇到的人,都是差不多参数的大模型,但是每个模型训练的内容质量不一样。在现有人类能力之下,很快就会达到物理瓶颈,不可能无限制的增加芯片节点。未来的Ai,当你与Gpt交谈,它会自动匹配模型,来满足你的深度,从而让硬件系统效率最大化。大飞的视频质量越来越高了,🎉,感觉可以就某些方面做一系列,可以短小精悍,作为对主视频的补充。
还有一个问题就是,人类所接触的信息量远远小于Ai,也许未来Ai所展示的答案才是真实的。就像盲人摸象,你没有那么大的数据库,你理解的世界和Ai计算的世界会有出入。人类目前胜出的原因可能就是人类大脑里的模型更准确,短小精悍。不过也有可能是人类一叶障目不见泰山。
ai能拿到的数据是公开网络的,如果公司内部的数据可以专门训练成自己行业的专家。链家已经用ai来训练自己的业务员了
讲的真不错。
大语言模型的开发或训练过程中,不知道是否可以定义每一层的具体功能和职能划分,还是只能定义有多少层,多少个参数,具体的内部算法都无法干涉,或者模型本身也并不知道是如何得到这个结果的,依赖训练数据以及多少层和参数,每一次的结果都有随机性,就算开发人员也无法干涉(就算一次结果是错的),调整模型后也无法保证同样问题下一次的结果是正确的,LLM的输出不具备可靠性,没有一致性输出的可靠性,估计连百分比也给不出,汽车是可靠的,医疗器械是可靠的,电器是可靠的,经过很多验证所以人们才能依赖他们,如果LLM的输出是无法预判和随机的,那么LLM的应用领域会大大受限,不能危害人的生命或安全,而且LLM的可靠性在已有LLM模块框架下,可能永远无法达到人类要求汽车的那种可靠性,那么是否应该存在另外一个通用并可靠模型,LLM没有必要再深入的研究,它的上限就在那里了。请指教。
King - man + woman = queen 😂
= Queen
这些“层”是人工添加的还是通过程序来完成的
人工添加的
大飛哥感冒了嗎?小心身體
听到老茧都出来了,不知道还能听从什么新意来,现在的AI 基于语言逻辑,最大的好处是能听懂人类的语言了,也能迅速找到人类需要的信息用人类的语言来表达出来,就像是一个编辑加图书管理员而已,或者是一个文秘而已,用了一年发现他根本不具有空间思维能力,也就是说没有创造力或者动手能力,是个动嘴巴的不是干实事的人. 就算编程也是属于语言编辑和现有它所学的子程序的调用,全部基于语言和调用,你让它去编一个它没有学习过的功能看看,漏洞百出,也就是说它独立干不了工程和科学上的工作,也不具有交叉论证的能力,不足为惧,不过有它协助,工程师和程序员的学习效率显著提高了
每个神经元存储的实什么数据?一个词还是一个向量?
一个词,当推理的时候才有向量
聽版主的英語,有很強烈的撞牆感,毛骨悚然
所以想想看 创造人类本身是不知道高多少级别的设计
为什么要研究呢,LLM 不是人开发出来的吗,直接问业内的不可以吗
我觉得,尝试用静态的逻辑框架,去解释动态的逻辑推导过程,本质上没有实际意义,有点类似迷信了~~神经元内部并不会固定死哪些词汇对应哪个神经元,因为神经元本质就是动态的逻辑,而不是静态的标签,我们人类看到的“词”,实际上是一种语言、思维、逻辑上的错觉。
還是說皮毛而已。
但凡再复杂些,读懂的人会指数级下降。
看了几集,我觉得你不需要出境,你全程没有情绪,像个AI人。
想要什么情绪,娱乐视频还没看够么?
@@bestpartners 他可能想表达视频有讲解的内容就好了,出境在讲解过程没起到作用
出镜的目的是给油管平台看的🤣另外也不是所有画面都能适合做后期素材,真的累啊
@@bestpartners 他想要一个小姐姐给他一边跳着性感的舞蹈,一边给他讲Transformer
抖音快手抗日神剧可能更适合你, :)