@@kedaibiao 双向注意力不仅可以用在encoder里,也可以用在decoder里,甚至用来做next token prediction。gpt的火爆不仅标志了decoder-only的崛起,也彻底带火了单向注意力。举个例子,假设abc是三个token,我们要用他们来预测第四个token。单向注意力decoder会允许b attend to a以及,c attend to ab。而双向注意力decoder还会让a attend to bc,b attend to c。但不管单双向注意力,他们都是预测下一个token,都是视频里你说的用生成来处理所有的tasks。
Yes, during reinforcement learning (RL) in the context of training language models like ChatGPT, the model parameters are adjusted. This process is known as Reinforcement Learning from Human Feedback (RLHF). Here is a brief overview of how this works: 1. **Initial Pre-training**: The model is first pre-trained on a large corpus of text data using unsupervised learning. During this phase, the model parameters are adjusted based on predicting the next word in a sequence. 2. **Reinforcement Learning from Human Feedback (RLHF)**: After pre-training, the model undergoes further fine-tuning using reinforcement learning. In this phase: - **Human Feedback**: Humans provide feedback on the model's outputs. For example, they might rank different responses the model generates. - **Reward Model**: This feedback is used to train a reward model that scores the quality of the model's outputs. - **Policy Optimization**: The language model is then fine-tuned using reinforcement learning algorithms like Proximal Policy Optimization (PPO) to maximize the scores given by the reward model. This involves adjusting the model parameters to generate outputs that are more aligned with human preferences. During the RLHF process, the model's parameters are updated to improve the quality and alignment of its responses with human expectations [oai_citation:1,GPT-4 | OpenAI](openai.com/research/gpt-4/) [oai_citation:2,[2303.08774] GPT-4 Technical Report](ar5iv.org/abs/2303.08774).
ICL does not change model weights; it's prompting. Prompting does not change model weights and is stateless. RLHF/RLAIF finetuning changes model weights and makes LLM behaves better to ICL
Bidirectional language model has been around for a long time. Bi-Directional RNN was published in 1997. Bi-Directional LSTM paper is published in 2005. There's some other reason why OpenAI choose to go down GPT.
19:59 會不會這樣分類更好呢? 訓練好的pre-trained大模型: 1. Fine-tune 1.1 傳統 ML模式 1.2 Fine-tune with RLHF 2. Prompt Engineering 2.1 Prompts manipulation(zero shots, one shots, few shots, role playing, chain of though) 2.2 Retrieval-augmented generation (RAG) 定義Fine-tune為"有更新模型權重的方法",相反的Prompt Engineering 就是只靠調整prompt讓LLM達到預期效果。(補充: 我認為 RAG也是prompt engineering, RAG = IR(Information retrieval) + LLM, since once your finish searching all relevant documents, you have to add it back to the context window as prompts) In-context learning 是指原本training GPT的時候,targeting task 是Next token prediction, 但是使用時(inference),可以完成幾乎所有NLP任務 (sentiment analysis, name entity recognition, etc.) 用In-context learning來分類容易誤導。 一點小想法,提出來跟大家討論~ Feel free to correct me if you think I'm wrong, thanks.
其实还有一个叫prompt tuning. 它跟prompt engineering 不一样的地方是模型的weights是变化的。 个人觉得可以简要分两大类 ,一是weights 有变化,另一种是weights没变化。个人觉得RLHF是属于权重有变化的。可以去比较一下llama2 和llama2-chat. Llama2-chat is using RLHF and Llama2 is not. Also, in RL, the "policy" need to be trained to get optimal score. you could understand that for the same prompt, llms need to generate "better" response to get highest score. so weights need to be changed to be able to generate different response for the same prompt/input. so RLHF should change the LLM weights in order to get more aligned response for the similar prompt/input.
Hi 课代表李正, Cornell alum here :) Thank you for the content you are putting out! I remember you mentioned previously that you had created a document to share your thoughts about ChatGPT. Could you tell me how to access that content? Thank you!
不仅仅是更新权重那一块。还有课代表混淆了decoder-only vs encoder-decoder和causal LM vs prefix LM,嘉宾是给足了面子
太好了,可以请你进一步解释,帮我和观众科普一下吗?
@@kedaibiao 双向注意力不仅可以用在encoder里,也可以用在decoder里,甚至用来做next token prediction。gpt的火爆不仅标志了decoder-only的崛起,也彻底带火了单向注意力。举个例子,假设abc是三个token,我们要用他们来预测第四个token。单向注意力decoder会允许b attend to a以及,c attend to ab。而双向注意力decoder还会让a attend to bc,b attend to c。但不管单双向注意力,他们都是预测下一个token,都是视频里你说的用生成来处理所有的tasks。
1. “双向注意力不仅可以用在encoder里,也可以用在decoder里”这个我认同。在我的认知内,encoder和decoder的具体区别,其实学术界没有定论,甚至有可能两者是等价的
2. “gpt的火爆不仅标志了decoder-only的崛起,也彻底带火了单向注意力”。这句话让我觉得可能我的表达造成了误解。我认为Bert和GPT的区别是双向注意力和单向注意力的区别,而不是encoder和decoder的区别。所以这句话让我说的话,我会说“GPT的火爆带火了单向注意力,而单向注意力里面很多是decoder-only”。可是并不是只有decoder-only能实现单向注意力
3. 我觉得“不管单双向注意力,他们都是预测下一个token”这个理解并没有错。我在视频里强调的是,在模型训练中,双向注意力理论上一开始的训练更容易,因为相当于看答案了。单向注意力注定一开始比较难,但是涌现出来的能力也许更有意义。
至于更新权重那一块,确实在这期视频里没有聊清楚,但是在part2视频里的的5:40的时候讨论地很完整,可以看一下那里,一起讨论。
@@kedaibiao
最後感謝
課代表Pin我的回覆,也歡迎小夥伴指出我的錯誤或建議,讓我能夠對LLM的知識更完備~
课代表真贴心,把英文直接备注好了,对我这种英语不好的人非常友好
RLHF / finetuning有各种实现的形式…… 现在比较好用常用的是介于你们说的之间的多加一些learnable parameters的方法。比如最近很火的 Low-Rank Adaptation(LoRA),相当于是在freeze大模型权重的同时在inference的时候inject一些learnable matrix。在目标是保存大模型训练知识(课代表观点)+ 足够灵活的adaptation(中间同学的观点)的时候,这种方式可以带来平衡。
课代表没理解模型调试的几种层级,prompt -> in context -learning -> 模型微调,最后模型微调是可以调模型参数的。调试效果,模型的准确逐级递增,能直接调模型肯定是最好的,具体看业务需求了。
技术问题可以看完2、3一起聊
身边能有朋友深入聊感兴趣的事情真的是让人羡慕。
课代表说的没啥问题?RLHF我觉得其实就是带reward和KL divergency的一个distill or self-distill,reward model是根据人标注数据学出来的排序模型
Yes, during reinforcement learning (RL) in the context of training language models like ChatGPT, the model parameters are adjusted. This process is known as Reinforcement Learning from Human Feedback (RLHF).
Here is a brief overview of how this works:
1. **Initial Pre-training**: The model is first pre-trained on a large corpus of text data using unsupervised learning. During this phase, the model parameters are adjusted based on predicting the next word in a sequence.
2. **Reinforcement Learning from Human Feedback (RLHF)**: After pre-training, the model undergoes further fine-tuning using reinforcement learning. In this phase:
- **Human Feedback**: Humans provide feedback on the model's outputs. For example, they might rank different responses the model generates.
- **Reward Model**: This feedback is used to train a reward model that scores the quality of the model's outputs.
- **Policy Optimization**: The language model is then fine-tuned using reinforcement learning algorithms like Proximal Policy Optimization (PPO) to maximize the scores given by the reward model. This involves adjusting the model parameters to generate outputs that are more aligned with human preferences.
During the RLHF process, the model's parameters are updated to improve the quality and alignment of its responses with human expectations [oai_citation:1,GPT-4 | OpenAI](openai.com/research/gpt-4/) [oai_citation:2,[2303.08774] GPT-4 Technical Report](ar5iv.org/abs/2303.08774).
嘉宾算是很礼貌地纠正和结束了“争议”。
给其他两位大仙扫盲了
我这个路人都看出来了。。。其实承认自己不懂 也没什么大不了的。@@wenchi2055
ICL does not change model weights; it's prompting. Prompting does not change model weights and is stateless.
RLHF/RLAIF finetuning changes model weights and makes LLM behaves better to ICL
can confirm, just by reading the paper you will know...
Bidirectional language model has been around for a long time. Bi-Directional RNN was published in 1997. Bi-Directional LSTM paper is published in 2005.
There's some other reason why OpenAI choose to go down GPT.
RLHF还是会更新模型参数的,这个是alignment的一部分
我也觉得会更新参数,否则如果只是激活,新的信息还是会被遗忘的吧。
19:59
會不會這樣分類更好呢?
訓練好的pre-trained大模型:
1. Fine-tune
1.1 傳統 ML模式
1.2 Fine-tune with RLHF
2. Prompt Engineering
2.1 Prompts manipulation(zero shots, one shots, few shots, role playing, chain of though)
2.2 Retrieval-augmented generation (RAG)
定義Fine-tune為"有更新模型權重的方法",相反的Prompt Engineering 就是只靠調整prompt讓LLM達到預期效果。(補充: 我認為 RAG也是prompt engineering, RAG = IR(Information retrieval) + LLM, since once your finish searching all relevant documents, you have to add it back to the context window as prompts)
In-context learning 是指原本training GPT的時候,targeting task 是Next token prediction, 但是使用時(inference),可以完成幾乎所有NLP任務 (sentiment analysis, name entity recognition, etc.)
用In-context learning來分類容易誤導。
一點小想法,提出來跟大家討論~
Feel free to correct me if you think I'm wrong, thanks.
其实还有一个叫prompt tuning. 它跟prompt engineering 不一样的地方是模型的weights是变化的。 个人觉得可以简要分两大类 ,一是weights 有变化,另一种是weights没变化。个人觉得RLHF是属于权重有变化的。可以去比较一下llama2 和llama2-chat. Llama2-chat is using RLHF and Llama2 is not. Also, in RL, the "policy" need to be trained to get optimal score. you could understand that for the same prompt, llms need to generate "better" response to get highest score. so weights need to be changed to be able to generate different response for the same prompt/input. so RLHF should change the LLM weights in order to get more aligned response for the similar prompt/input.
@@pengliu9813 你說的prompt tuning,其實也能算在Prompt Engineering底下。
我提到的
2.1 Prompts manipulation(zero shots, one shots, few shots, role playing, chain of though)
2.2 Retrieval-augmented generation (RAG)
要分類的話,會算是Hard Prompts,
你提到的算是soft prompt,但soft prompt也不是更新LLM的weight,其實是更新adapter 相關的weight。
所以要用weight 有沒變化來分類也不是不行,但可以再細分 更新的是LLM wieght,還是adapter weight
GPT-3 + RLHF = ChatGPT(Instruct GPT),使用RLHF, LLM weight是有更新的沒錯
RLHF/RLAIF is for multi-turn conversations/interactions for long term alignments between LLM and users for both guiding and guarding.
Zero shot in context leaning 不改变weight,RLHF和finetuning会改变。
fine tuning is not prompting engineering
感谢课代表,Monica和LY的高质量视频!🎉想请问怎么加入gpt的讨论群?想进群多学习一下
(我对机器学习了解的很浅,所以可能有一些判断是有事实性问题的,如果有这样的问题请指出)
关于课代表提到的 “GPT 如何能取代医生那个问题”,我可能有一些不一样的分析角度。我看到这个问题想到的是:“人的哪些更本质的特质是 GPT 无法取代的”。
就目前来讲,我发现的一个人很关键的能力(而且 GPT 无法取代)是:在巨量信息下剪枝获取自己更需要信息的能力。既要通过剪枝让信息量小到可以被人处理,也要避免漏掉关键信息。而 GPT 能理解的信息更多是文字或者图片这种总信息量很低的内容(相比于人体无时无刻感知到的信息来说)。换句话说,喂给 GPT 哪些数据更好这个判断,是 GPT 自己很难给出的。
我认为这一点也可以很好的解释流水线工人和所谓“手艺人”之间的区别。流水线在架构设计中,同样也是尽可能降低操作工每次操作所需要处理的信息量。在流水线中每个人处理的都是标品,不需要很多上文提到的对数据剪枝的能力,但是对于手艺人则不然。
回到医生的例子,我会感觉,一个优秀的医生,其最大的能力并不是记忆清楚所有课本上的知识(也即 GPT 可以学到的那些能力),而是能在诊断过程中发现那些其他医生被忽略的细节信号(也就是我上面提到的信息剪枝的能力)。如果看那些治疗疑难杂症病人的纪录片可能会对此有更深刻的体会:往往那些病人的指标都符合 XX 病的描述,但是对于 XX 病的通常治疗策略都不生效,直到医生发现了一些其他被人忽略的信号才解决了问题。虽然我承认有一部分这种转折是拍摄时的刻意处理,其是为了塑造作品张力的一种手段,但这依然能反应一些现象。
显然,这种信息剪枝的能力一定要人在生产工作中不断的实践与反思中成长。但是对于 GPT 而言,我们是做不到给它喂如同人一般每时每刻获取的巨量数据的,因而它也只能依赖那些人已经压缩好的数据来做分析。
并且,这里还存在的一个问题是,人其实是很难把自己信息剪枝的结果完整的输出成其他人可以感知到的信息的。谁能医生知道下某个判断,不是因为潜意识中看到了病人的哪个特质,从而给出的结论呢?如果 GPT 做不到把信息剪枝,只能向它提供由人类剪枝后的数据,那又怎么保证人类给它的输入会是全面可靠的呢?
其实对科技行业从业者来说,有一个可能会感触更深更好理解的例子,来说明人和 GPT 的关键区别:定位 bug。
在那些复杂的计算机系统中,总是冷不丁冒出几个难以复现、让人摸不着头脑的 bug。在最后定位的时候,如果你把那段有问题的代码片段给其他人看,可能实习生都能知道不对劲。但是就我观察,在最早出现 bug 的时候,能很高效的罗列出几个可能的原因,并且保证猜测较高准确率,往往是那些项目里面的专家。如果说程序员也是一门手艺的话,对我而言,可能最体现手艺功力的就是这种排查疑难杂症的能力。
好医生是这样的额,但是大多数医生不合格。
@@kedaibiao 所以我理解,课代表说的医生其实更多指一个随叫随到的家庭医生的概念。就和课代表在 chatGPT 文章里面说的数字学徒比较类似?另外想问下视频中提到的那个讨论群现在还收人吗,想去学习学习(或者现在有其他的社区?)。
给我发邮件吧
第一个section聊的内容我也思考了很久,在19年的时候前有Elmo和GPT-2(1.5B左右参数量),之后出来Bert,用非常小的参数量(100M量级)全方位吊打了GPT-2,凭什么Ilya有那么大的勇气敢继续沿着GPT的路线做到175B?后来我查阅了很多Ilya当年公开的言论和文章,逐渐发现了一些端倪。。
可以分享一下吗
SFT 应该= Supervised Fine-Tuning
WOW
会员频道里好多好东西
嘉宾脾气真好
Hi 课代表李正, Cornell alum here :) Thank you for the content you are putting out! I remember you mentioned previously that you had created a document to share your thoughts about ChatGPT. Could you tell me how to access that content? Thank you!
【腾讯文档】关于ChatGPT的五个最重要问题 docs.qq.com/doc/DQ0plY0JDbXFKUmtU
这一集讲的太好了
技术的方面了解的不多,看到关于chatGPT误解的那段就果断加入会员了:)
想请问下视频开头说的文章/公众号是在哪里找到呢?Monica小姐姐的频道是什么呢? 谢谢,很期待以后的学习。
文章:【腾讯文档】关于ChatGPT的五个最重要问题
docs.qq.com/doc/DQ0plY0JDbXFKUmtU
Monica的小宇宙是Onboard!
这个课代表让我想到了李一舟,不过好一些
赞~课代表怎么能加你的社群呀
看新视频~ 还没想好,欢迎提建议
@@kedaibiao discord / telegram?
怎么加入你们的大模型讨论群呀?
下次换张桌子更轻松。太挤了
Apple还是稳 其他两个真小白
为什么只用上文推测下文比双向更general呢?
因为双向的前提是要知道下文
课代表技术确实比较弱。。。RLHF不需要改变模型权重给我看傻了
RLHF需要改变“policy”的权重,我想表达的问题是:有两种做法,A是回去修改GPT,重新训练;B是不修改GPT的权重,不重新训练,而是在GPT的基础之上去进行修改(in context learning,或提炼后修改,或部分update后pk,等各种方法)。是A还是B?
从业者也表示一样,除了PEFT的变种,肯定改变权重。RL还是SFT只是方法不同,目标不同,都是用来update权重的。
基本就是搞Context还是搞模型。RAG的两部分,小公司只能搞R,大公司可以玩G。小公司玩模型,那最好PEFT。
具体的技术术语澄清与讨论发生在下一段视频(ruclips.net/video/QY5-3kl5tPY/видео.html ),尤其是5:28的那一段,可以看一下之后,在那段视频里一起讨论。
in-context-learning 和 reinforcement learning 没有啥关系吧..
可以看第二段
it's all because of Nvidia, the growth of computing
爱 Monica
As a lead researcher, I was shocked by how ignorant the guy is😂
If someone told me that SFT or RL will not update the model weight during my interview process, this will be the last question I ask....
可以看一下下一段视频(ruclips.net/video/QY5-3kl5tPY/видео.html ),尤其是5:28的那一段,之后一起讨论。
@@mrwhitecc yeh you should do that
大家坐的太近了,不是一个适合讨论的距离,感觉立正全程尴尬