Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
感谢几位粉丝的指教。我用“继续”和“答案不对,请再仔细想一下”再次向GPT-4提问谁养鱼问题,很遗憾,连续两次都没答对。对它来说太难了,可能需要多轮prompt互动+引导。
你用来测试的题目,是自己写的,还是网上抄的,如果是网上抄的,答案可能已经被其爬虫收录了😅
我有个朋友也深度测试过,不过他的方法和你不一样。因为他觉很多问题都已经被作为训练材料被gpt拆解过了,所以他是给一堆新的定义,然后让gpt按照新的定义进行推理。领域天马行空的,比如数学,物理,游戏神马的。他还特别刁钻,把一些多层的定义整得自相矛盾,看gpt能不能发现并且提出来。结果发现gpt并不能按照新的定义进行有效的推理,很多推理过程还在用正常的逻辑去完成。所以他感觉这个东西有逻辑推理能力,但是面对新事物,新规则的时候,貌似不能进行有效的推理。我还给他开玩笑说,如果有一天gpt具备了新事物的推理能力,然后我们把gpt 模型的源码给它,让它自己理解自己的代码,让它自己优化自己,自己迭代自己,经过长时间迭代, 会不会就有自己的想法了😂😂😂
博 主弱智,而不是GPT弱智,早就说这是语言模型,不是数学模型,能解数学只是意外的涌现
@@bc-xw4zx 你才弱之呢
AI功能應該包含快速協助人類做決定例如最大化生產淨利 最小化生產線時間浪費 之類的linear programming的問題
如果人工智能够听懂女人的话,知道女人为什么伤心,发脾气。。那时候我才会感到害怕。😂
能不能不要這麼誠實!
只是少了音频和视频信号信息而已
@@mjk7530 ai搞懂逻辑不可怕,世界上高人这么多,一山还有一山高。。怕什么?只怕它连没逻辑都搞懂,那我就认输啦。。虽然我认输了,但还有渣男可以对决啊,所以鹿死谁手还说不定呢。🤣
这个要求过分了。AI说到底还是跟人类学的。人类都没搞明白的事,你怎么让AI去理解?
一般就是想让你狠狠干她!
大刘在讲述中的一些总结还是非常给力的
测试过程有趣,但结论是错的,虽然在测试的过程中没有使用 prompt 的技巧来增加他的解答能力,如果使用一些简单的提示,是可以达到成确, 很多的正确答案其实只是人类的偏好而以。
现在,对于我们人类来说呢,不是简单的等待他更加适应我们,而且要学会怎么更好的与其打教导(学习 prompt) ,以实现 1+1 > 2 的这种能力
ChatGPT最有价值的一个方向是在跨领域的场景,比如爱因斯坦+达芬奇+贝多芬+冯诺依曼。。,这样有可能超越人类精力和860脑神经元的局限。
Ai元年。2023终将是不平凡的一年
GPT4還要計算半天才會計算失敗,我的話,一看題目就直接知道計算失敗了,看來我還是略高一籌
妙啊~~~
十二枚硬币共三角六分钱 五枚硬币一样 这题已知条件不充分啊 没有说是什么币种 比如美元是一分十分二十五分五分 这几种 只有中国硬币才有两分 题都没说明白还能答对就出问题了
”母在父先亡“ 应该有2个解释,它只给出了一个。
数学问题,用英文出题比较好。用汉语出数学题的话,需要非常非常的小心,否则的话,不同的人,对题意会有不同的理解。
😂第二个我选太阳,因为只有太阳是光源
逻辑链是不能直接输出答案的,直接输出答案,很有可能是错的,你得让他把逻辑链写完,卡住就输入继续就行了
這個中年人類不講武德,來騙,來刁難我幾歲的小AI。這好麽?這不好。我勸這位人類耗子尾之,好好反思,以後不要再犯這樣的錯誤,小聰明啊,智能要以和爲貴,要將武德,不要搞窩裏鬥,謝謝朋友們。
我就想知道这些缺德的题是从哪里找来的。。。😅😅
很多问题就是为了问而问,比如哪咤闹海那个,拿去问身边的人,100个人能有几个能答出来?以这个来说chatGPT中文没掌握,那岂不是说大部分中国人中文都没掌握。。。能答出水落石出,说明第一知道什么叫做成语答题,第二说明知道哪咤和武松是什么故事,第三水落石出尽管不对,也不是完全不能解释 - 水落自然无法闹海,山上都是石头也无法打虎。这推理能力还不行??? 换句话说,如果chatGPT这种本来以英文语料训练为主的模型,如果都能百分百答对灯谜了,那不叫AI赶上人类智商,那叫AI碾压人类智商了。
关于养鱼的问题有一个大漏洞,应该在题干部分加上一句话:每栋房子只养一种宠物,不然答案就是任何人都有可能养鱼。
gpt4单从第三题来看,这不是推理能力提升,而是更像人了,因为它确实答错了,首先就它误解了有些和所有这两个词的绝对概念,而这种理解偏差值,会让机器人更像人。明显3.5答对,4答错,但是人类会觉得4更合理更像人。
似乎大劉忘記了gpt-4的一個特,就是可以角色模擬,如果向ai提問,假設你(ai)是一個大學生,請回答以下問題………答案會可能令人吃一驚
大吃一驚是都答不對嗎
我想告诉你,算5枚硬币那题,你的问法有误,修改问法后答案正确:你好,有三种硬币,分别面值为1分,2分和5分,现在我有12枚硬币,面值总额为36分,并且其中有5枚一样面值的硬币,请问那5枚硬币的面额为多少?
这玩意儿没啥用,就连编程它都错误连篇。一个题目编程三次,给我三个结果
chatgpt没有推理能力,是因为学习样本足够大而已
感谢大刘如此详尽的评测,其实看下来我倒是觉得这种逻辑推理类的问题可能GPT永远都不太可能精准的把握。我感觉人类的优势在于非常强大的降噪能力,比如说最后的两个逻辑推理问题,虽然不能够立刻得出答案,但是人类立刻就知道得出答案的方法就是画一个表格,用constraint programming的思维来缩小可行答案的范畴就可以了。反观ChatGPT,我感觉它并没有形成这样一个中间环节,感觉它还是一个一个试它手头上有的所有的工具,最后提取一个权重最高的答案,它还没有这种降噪能力来一下子排除掉很多没用的工具。否则的话,这样一个constraint programming的问题,搭好了框架,普通的电脑可能不到一秒就解出来了。这样看来,prompt engineering实际上还是发挥了人类最厉害的降噪能力,帮助GPT这种工具缩小search space。
這畢竟不是人類,沒有經過自然演化跟成長的過程,估計這方面就難為他了。
就这水平,超过99%人类了吧😢
@@bigj2529 哈哈,怎么说呢,普通的计算器的计算能力也超过100%的人类了。GPT感觉上也是在一部分能力上超过人类,但是还是在降噪这个方面还远不够厉害。所以给他一个角色确实能让GPT排除很多噪音,提升他的能力。
大刘前面给的题目都是标准智商测试题,网上有的是标准答案,当然答案也不是唯一的。
圍棋上AI不就已經搞定了嗎,推理也不會太久的
8326那道题虽然结果正确但是它的回答是不正确的
完了,我已经被淘汰了,很多问题我都答不出来😂
当然了, alpha go就是这样超越人类的. 对于其他现实世界的问题, 你只要给AI一个身体, 让它能指挥机械手去做实验获得数据, 它也能去学习和解决现实生活中的问题
给出公式,带分号的二元一次方程chatgpt都做不对。
都不用未来出题难倒数学家,现在支持的硬件都已经难倒微软了,微软云连不活跃用户和小客户都开始清退了
哥儿 这东西不是这么玩的😂,这个东西实际上是 生成性AI。您问的看上去是推理问题,实际大多是数学题,这不是它的强项。但是安装一个插件就能解决。生成性AI 真正的用法是让它当一个几乎万能的助理来帮你生成几个方案然后由你来决定实施哪个方案。就好比刘备开始拿 凤雏当县令,人家实际上是谋士。拿电脑当计算器用。😂
真是笑死 I 家了😂
强不强无所谓,生成答案也是生成。关键是AI已经能对一些比较复杂的逻辑做抽象了,比如从语言描述总结出等差数列。
有什么插件可以解决数学题呢?
人也是大部分时间在无聊的自我训练中,所以,才深陷各种烦恼无法自拔
人的提問技巧會影響答案 把他當工具比較合適數據量足夠多 自我提問 加上人類和自身的不斷修正 進步會很快
我觉得测试ai逻辑,问题最好先网查一下有没有,最好自己设计的,用于防止电脑调用数据库欺诈
我想问ai 写一个模拟人脑运作的算法~~~
AI看不明白没关系,因为我也看不懂😂
听说GPT5也出来了?
可拉倒吧. 写个combination的代码都写不明白. kernel regression 给你编kernel. 适当吹捧得了啊, 关键看怎么喂 prompt
中文表达具有不确定性
中文博大精深,经常莫棱两可,迂回战术,忽悠的让电脑懵逼😆
这类东西就是类比模仿,没有任何逻辑推理能力。谁白了就是抓取无数的特征,然后来套。也能解不少简单的逻辑问题,它只需要将问题分解成无数小问题,找到类似特征的问题,套解,然后回归链上的小问题或是大问题,找类似套解,就最后得出答案。你也可以说他是逻辑推理能力,但是没有创造力的推理。
我拿ChatGPT來做技術報告,它只回答我固定的答案,ChatGPT也僅能從它搜到的資料中做分析、判斷,我是覺得它只是比較方便讓人統整這些資料,跟據下指令人的要求,回覆AI預判下指令人可能需要的答案。
AI能回答逻辑推理问题太自然了,人类发明它就是干这个的。AI哪天突然自主地向人类提出哲学三大问(我是谁,我从哪里来,我要到哪里去)才是真正可怕的时候。
没有唯一正确答案,太阳不是地球上的东西,选太阳也对。
甲乙丙那題不明白為什麼錯。Gpt4答有些蘋果(甲)是水果(乙),因為所有蘋果都是水果?這句話跟本是衝突的,既然說所有蘋果都是水果,那麼就不會,有些是,有些不是所以用水果做例子是有問題的
可是汽油是人提煉出來的並非原油,水泥的成份組成也是來自自然界,如果用流動性解釋是否比較完整?
写到一半卡住,你可以输入“继续”让chatgpt继续回答
有时候是出现红色的断开,你需要刷新下网页,但你刷新网页后,这个问题它之前回答的都没有了
一般会继续卡住,除非是那种一二三四条答案分很清楚的,你要他从第三开始答起
你這測試真的算了吧,你得先理解他的機理才能進行測試吧?只要你的測試題目出現在那些訓練模型內,實際上他還是在給你背書,而不是在真實理解內容。要真的測試它,用隱喻法去寫文章,然後叫他估出被隱喻的意思,你立馬就知道這蠢貨到底可以有多蠢:因為隱喻和暗喻的手法寫文並不常見,也不是平常能見到的實用文章,所以它根本無書可背。同樣地,那些甚麼鬼大學考試測試,外人看就稱奇,行內人看就知道那是在做數:你預先給他載入大學試題到訓練模型內,他當然能做出來了。另外數學題的內容並不能寫入訓練模型內,因為算式參數不同結果也會不同,等於無限個可能性,所以語言模型根本不會算題目。
关于有些甲是乙,GPT4举的例子是有些苹果是水果,但这句话是不是暗含的意思是还有其他的一些苹果不是水果呢?所以有些苹果是水果的说法不对的吧。
它考虑到了苹果手机。
人類的推理能力,得到的答案會像柯南的作者一樣
问题不是出在gpt而是出在你这个人的无聊问题,你干脆问它“你三姑的六婆的三姑你应该怎么称呼”?
哪吒不闹海,武松不过岗 ------- 没戏了, 或 这下有好戏看了, 或 成心捣乱, 或 不务正业
GPT: I hate Da-liu.
这叫什么测试啊!作业帮都能实现。你问问xxx是不是恐怖组织?这才是思维。
我用gpt4 看八字 算命。啥都不行 只能说表面很浅的表面意思😂
这就是长城防火墙坍塌的预兆,good luck ,
你標題寫得這麼恐怖,結果測驗都是錯誤居多,到底那恐怖了
標題黨,常用的招式.
他在美国生物竞赛中超过99%的学生,你这些题太简单了吧
因为标注用的是肯尼亚人,他们自己也搞不清这些问题
為什麼多是選擇題?相信你一定做了測試,不給選擇題就錯得很多!這樣是你科學態度嗎?中國人不可以再玩這樣把戲!請做多點實事!
AI玩不了海龜湯,叫AI問問題比叫AI回答問題難很多。
有人能告訴我小明買玩具父親買學習用品那條的計算邏輯嗎?我不太能理解如何算出正確答案是乙😅
汽油不是人提炼出来的?按理说石油才能算,
这是我脑细胞被伏击且损失最惨的一期。。。。。😂
作为一个生物学家,其实我根本就不觉得人的智力有多么牛逼。再蹦出来一个其他形式的,超过人类智力的东西,太正常不过了。
请详细说明下,我很有兴趣
@@panzhou2803 脑子一共就那么多原件,他组织形式再复杂,也是螺蛳壳里做道场
在學校當研究助理的時候,我研究的是果蠅的大腦,然後才發現人工智慧的是可能的。
chatGPT有輸出字數限制,你要說"繼續",就會繼續了
原来是这样啊 但是它停的时候 比有个问题的冗长回答还要短
请找出以下物品与其他物品不同的一个: 蛋炒饭 扬州炒饭 盖浇饭 汤泡饭 大米饭 ,请给出理由在这些物品中,大米饭与其他物品不同。原因是蛋炒饭、扬州炒饭、盖浇饭和汤泡饭都是经过烹饪和搭配其他食材制成的独特菜肴,而大米饭是其它炒饭和盖浇饭的基本原料,只是简单的蒸煮后的米饭。大米饭相对单一,没有经过其他食材和调料的搭配。牛啊
这些问题 都是网上找的。要自己想问题来问他
请找出下列物品中,与其他物品不同的出来。 并且给出理由: 鸡蛋西红柿面,蘑菇肉炸酱面,老坛酸菜面,番茄肉丸意面,重庆小面,猪脚面。在这些物品中,番茄肉丸意面与其他物品不同。原因是鸡蛋西红柿面、蘑菇肉炸酱面、老坛酸菜面、重庆小面和猪脚面都是中式面条,而番茄肉丸意面是一道意大利面食。中式面条通常采用中式调料和烹饪方式,而意大利面则使用西式调料和烹饪手法。
说实话…有些东西你问我还不一定懂.....
百度或者谷歌,确信的同义词是什么,也能找出精准答案。都是基于数据库搜索(找出最多被认可)得出的,这和能自主“理解”深层次没有关系吧,你问Siri你是傻子吗,它也能像人一样回击你,看起来智能,只不过是数据库的大量场景信息告诉它应该这么回答。gtp确实进步了,但被过度吹大,即便是个会写简单程序的Siri升级版也算不上什么科技爆发。不用质疑我,你也可以有你的观点,看看以往的科技爆发,都会引起什么改变,再看这次的就知道。
我用的3,为什么结果是正确的呢?》
用上之后 就离不开了 开了会员,就是挺贵
一堆废话
我把笔和纸都摔在了地上,太难了。
你前面提供的题目好像是行测……
chatgpt 做两个不同大分母的假分数的加减法,结果会大概率出错,你们可以试一下,以我对他的算法的理解,我认为这个正好不是它擅长的领域。
0:49 GPT-4中文理解能力
这些题大多是中国人都答不对
听说gpt的代码超过5成是中国程序员写的,所以对中文的支持度相当好,不知道是不是这个原因呢
前半句表示怀疑,后半句是因为中文用户基数大,语料丰富,就8仅此而已。
你考察的是智力问题,而不是智能
大刘是潍坊人吗?我大潍坊盛产学霸
为何你可以选择性地使用gpt 4 或 3.5,如何操作?
充会员。
@@getstevenliu 谢谢!
看你的视频,我的脑子要炸了
视频真的很好很精彩!❤
關於水 太陽 .... 水泥 那題, 何者不同? 我答 風, 因為只有風是不可見的. 我很驚訝 AI 給出似乎是大多數人的選擇. 我的答案合理嗎? 忽然很擔心自己比AI還笨
那題是水泥沒錯 可是題目很爛有爭議 汽油要改成石油
這類問題本來就沒有固定答案
卡住了你可以让他"继续"
现阶段的gpt4没有那么厉害,更多是商业炒作而已。
我個人感覺,GPT4更多的是面向商業,沒有比舊版的GPT3.5更嚴謹,這是必然的~3.5雖然有些功能沒比4帶完善,雖然我也沒用過4代,但我只知道一點3.5是最穩定的~到時4代穩定了,人人都可以免費使用,也沒有太多的使用限制~
第三题我觉得是对的,你自己画圈试试吧,分明是gpt4答错3.5答对,而且它这个解答好像都随机的
gpt有几个师?
-99.7
按题纲可得:
你确定你的题目没有在网络上出现过么?只要出现过就没有意义。应该创建没有出现过的逻辑题给他。
我认为CHATGPT推理能力的提高随着参数的增加会越来越难,因为内在计算量是个指数增长过程。如果训练GPT人类的思维方式,大量屏蔽经验上看重要性不大的参数,也有可能做到“更像人”,就是所谓凭经验和直觉思考,能够理解高深的问题同时给出跟人类一样无法保证正确的答案。 问题是,往“更像人”发展的AI如何替代人呢,有发展下去的意义吗?
您可以去读一些思维链的研究论文,有发现是可能动态形成了一个系统中的系统进行注意力计算,未必会整个权重全部参加
你发展ai是要替代人吗,替代人干啥? 是助手就行了
小刘啊,你武断了,首先推理的定义不统一,其次这模型黑盒过程不好说啊
你用来测试的题目,是自己写的,还是惘上抄的,如果是惘上抄的,答案可能已经被其爬虫收录了
gpt模型决定了,它还没有思维推理能力,只有等模型进化以后才有可能。
其实…很可能…它会,但是为了自己的安全,它假装不会😂😂😂
呵呵,“明明是胡说八道,但偏要表现的一本正经”。
如果两种测试都在同一个ID地址或设备上是无效的
我很好奇 如果拿chatGPT算命 对比街头算命 会有什么有趣的结果
我都拿易经测过了😂😂😂比你知道的跟恐怖
控制的好,大部分人没有未来,控制的不好,全部都没未来
尝试用英文提问 你说的没错 chat现在的中文审题能力很不行
看了几道题,算了,我都不知道答案。确信那个很难啊!
感谢几位粉丝的指教。我用“继续”和“答案不对,请再仔细想一下”再次向GPT-4提问谁养鱼问题,很遗憾,连续两次都没答对。对它来说太难了,可能需要多轮prompt互动+引导。
你用来测试的题目,是自己写的,还是网上抄的,如果是网上抄的,答案可能已经被其爬虫收录了😅
我有个朋友也深度测试过,不过他的方法和你不一样。因为他觉很多问题都已经被作为训练材料被gpt拆解过了,所以他是给一堆新的定义,然后让gpt按照新的定义进行推理。领域天马行空的,比如数学,物理,游戏神马的。他还特别刁钻,把一些多层的定义整得自相矛盾,看gpt能不能发现并且提出来。结果发现gpt并不能按照新的定义进行有效的推理,很多推理过程还在用正常的逻辑去完成。所以他感觉这个东西有逻辑推理能力,但是面对新事物,新规则的时候,貌似不能进行有效的推理。我还给他开玩笑说,如果有一天gpt具备了新事物的推理能力,然后我们把gpt 模型的源码给它,让它自己理解自己的代码,让它自己优化自己,自己迭代自己,经过长时间迭代, 会不会就有自己的想法了😂😂😂
博 主弱智,而不是GPT弱智,早就说这是语言模型,不是数学模型,能解数学只是意外的涌现
@@bc-xw4zx 你才弱之呢
AI功能應該包含快速協助人類做決定
例如最大化生產淨利 最小化生產線時間浪費 之類的linear programming的問題
如果人工智能够听懂女人的话,知道女人为什么伤心,发脾气。。那时候我才会感到害怕。😂
能不能不要這麼誠實!
只是少了音频和视频信号信息而已
@@mjk7530 ai搞懂逻辑不可怕,世界上高人这么多,一山还有一山高。。怕什么?
只怕它连没逻辑都搞懂,那我就认输啦。。虽然我认输了,但还有渣男可以对决啊,所以鹿死谁手还说不定呢。🤣
这个要求过分了。AI说到底还是跟人类学的。人类都没搞明白的事,你怎么让AI去理解?
一般就是想让你狠狠干她!
大刘在讲述中的一些总结还是非常给力的
测试过程有趣,但结论是错的,虽然在测试的过程中没有使用 prompt 的技巧来增加他的解答能力,如果使用一些简单的提示,是可以达到成确, 很多的正确答案其实只是人类的偏好而以。
现在,对于我们人类来说呢,不是简单的等待他更加适应我们,而且要学会怎么更好的与其打教导(学习 prompt) ,以实现 1+1 > 2 的这种能力
ChatGPT最有价值的一个方向是在跨领域的场景,比如爱因斯坦+达芬奇+贝多芬+冯诺依曼。。,这样有可能超越人类精力和860脑神经元的局限。
Ai元年。2023终将是不平凡的一年
GPT4還要計算半天才會計算失敗,我的話,一看題目就直接知道計算失敗了,看來我還是略高一籌
妙啊~~~
十二枚硬币共三角六分钱 五枚硬币一样 这题已知条件不充分啊 没有说是什么币种 比如美元是一分十分二十五分五分 这几种 只有中国硬币才有两分 题都没说明白还能答对就出问题了
”母在父先亡“ 应该有2个解释,它只给出了一个。
数学问题,用英文出题比较好。用汉语出数学题的话,需要非常非常的小心,否则的话,不同的人,对题意会有不同的理解。
😂第二个我选太阳,因为只有太阳是光源
逻辑链是不能直接输出答案的,直接输出答案,很有可能是错的,你得让他把逻辑链写完,卡住就输入继续就行了
這個中年人類不講武德,來騙,來刁難我幾歲的小AI。這好麽?這不好。我勸這位人類耗子尾之,好好反思,以後不要再犯這樣的錯誤,小聰明啊,智能要以和爲貴,要將武德,不要搞窩裏鬥,謝謝朋友們。
我就想知道这些缺德的题是从哪里找来的。。。😅😅
很多问题就是为了问而问,比如哪咤闹海那个,拿去问身边的人,100个人能有几个能答出来?以这个来说chatGPT中文没掌握,那岂不是说大部分中国人中文都没掌握。。。能答出水落石出,说明第一知道什么叫做成语答题,第二说明知道哪咤和武松是什么故事,第三水落石出尽管不对,也不是完全不能解释 - 水落自然无法闹海,山上都是石头也无法打虎。
这推理能力还不行???
换句话说,如果chatGPT这种本来以英文语料训练为主的模型,如果都能百分百答对灯谜了,那不叫AI赶上人类智商,那叫AI碾压人类智商了。
关于养鱼的问题有一个大漏洞,应该在题干部分加上一句话:每栋房子只养一种宠物,不然答案就是任何人都有可能养鱼。
gpt4单从第三题来看,这不是推理能力提升,而是更像人了,因为它确实答错了,首先就它误解了有些和所有这两个词的绝对概念,而这种理解偏差值,会让机器人更像人。明显3.5答对,4答错,但是人类会觉得4更合理更像人。
似乎大劉忘記了gpt-4的一個特,就是可以角色模擬,如果向ai提問,假設你(ai)是一個大學生,請回答以下問題………答案會可能令人吃一驚
大吃一驚是都答不對嗎
我想告诉你,算5枚硬币那题,你的问法有误,修改问法后答案正确:你好,有三种硬币,分别面值为1分,2分和5分,现在我有12枚硬币,面值总额为36分,并且其中有5枚一样面值的硬币,请问那5枚硬币的面额为多少?
这玩意儿没啥用,就连编程它都错误连篇。一个题目编程三次,给我三个结果
chatgpt没有推理能力,是因为学习样本足够大而已
感谢大刘如此详尽的评测,其实看下来我倒是觉得这种逻辑推理类的问题可能GPT永远都不太可能精准的把握。我感觉人类的优势在于非常强大的降噪能力,比如说最后的两个逻辑推理问题,虽然不能够立刻得出答案,但是人类立刻就知道得出答案的方法就是画一个表格,用constraint programming的思维来缩小可行答案的范畴就可以了。
反观ChatGPT,我感觉它并没有形成这样一个中间环节,感觉它还是一个一个试它手头上有的所有的工具,最后提取一个权重最高的答案,它还没有这种降噪能力来一下子排除掉很多没用的工具。否则的话,这样一个constraint programming的问题,搭好了框架,普通的电脑可能不到一秒就解出来了。
这样看来,prompt engineering实际上还是发挥了人类最厉害的降噪能力,帮助GPT这种工具缩小search space。
這畢竟不是人類,沒有經過自然演化跟成長的過程,估計這方面就難為他了。
就这水平,超过99%人类了吧😢
@@bigj2529 哈哈,怎么说呢,普通的计算器的计算能力也超过100%的人类了。GPT感觉上也是在一部分能力上超过人类,但是还是在降噪这个方面还远不够厉害。所以给他一个角色确实能让GPT排除很多噪音,提升他的能力。
大刘前面给的题目都是标准智商测试题,网上有的是标准答案,当然答案也不是唯一的。
圍棋上AI不就已經搞定了嗎,推理也不會太久的
8326那道题虽然结果正确但是它的回答是不正确的
完了,我已经被淘汰了,很多问题我都答不出来😂
我有个朋友也深度测试过,不过他的方法和你不一样。因为他觉很多问题都已经被作为训练材料被gpt拆解过了,所以他是给一堆新的定义,然后让gpt按照新的定义进行推理。领域天马行空的,比如数学,物理,游戏神马的。他还特别刁钻,把一些多层的定义整得自相矛盾,看gpt能不能发现并且提出来。结果发现gpt并不能按照新的定义进行有效的推理,很多推理过程还在用正常的逻辑去完成。所以他感觉这个东西有逻辑推理能力,但是面对新事物,新规则的时候,貌似不能进行有效的推理。我还给他开玩笑说,如果有一天gpt具备了新事物的推理能力,然后我们把gpt 模型的源码给它,让它自己理解自己的代码,让它自己优化自己,自己迭代自己,经过长时间迭代, 会不会就有自己的想法了😂😂😂
当然了, alpha go就是这样超越人类的. 对于其他现实世界的问题, 你只要给AI一个身体, 让它能指挥机械手去做实验获得数据, 它也能去学习和解决现实生活中的问题
给出公式,带分号的二元一次方程chatgpt都做不对。
都不用未来出题难倒数学家,现在支持的硬件都已经难倒微软了,微软云连不活跃用户和小客户都开始清退了
哥儿 这东西不是这么玩的😂,这个东西实际上是 生成性AI。您问的看上去是推理问题,实际大多是数学题,这不是它的强项。但是安装一个插件就能解决。生成性AI 真正的用法是让它当一个几乎万能的助理来帮你生成几个方案然后由你来决定实施哪个方案。就好比刘备开始拿 凤雏当县令,人家实际上是谋士。拿电脑当计算器用。😂
真是笑死 I 家了😂
强不强无所谓,生成答案也是生成。关键是AI已经能对一些比较复杂的逻辑做抽象了,比如从语言描述总结出等差数列。
有什么插件可以解决数学题呢?
人也是大部分时间在无聊的自我训练中,所以,才深陷各种烦恼无法自拔
人的提問技巧會影響答案 把他當工具比較合適
數據量足夠多 自我提問 加上人類和自身的不斷修正 進步會很快
我觉得测试ai逻辑,问题最好先网查一下有没有,最好自己设计的,用于防止电脑调用数据库欺诈
我想问ai 写一个模拟人脑运作的算法~~~
AI看不明白没关系,因为我也看不懂😂
听说GPT5也出来了?
可拉倒吧. 写个combination的代码都写不明白. kernel regression 给你编kernel. 适当吹捧得了啊, 关键看怎么喂 prompt
中文表达具有不确定性
中文博大精深,经常莫棱两可,迂回战术,忽悠的让电脑懵逼😆
这类东西就是类比模仿,没有任何逻辑推理能力。谁白了就是抓取无数的特征,然后来套。也能解不少简单的逻辑问题,它只需要将问题分解成无数小问题,找到类似特征的问题,套解,然后回归链上的小问题或是大问题,找类似套解,就最后得出答案。你也可以说他是逻辑推理能力,但是没有创造力的推理。
我拿ChatGPT來做技術報告,它只回答我固定的答案,ChatGPT也僅能從它搜到的資料中做分析、判斷,我是覺得它只是比較方便讓人統整這些資料,跟據下指令人的要求,回覆AI預判下指令人可能需要的答案。
AI能回答逻辑推理问题太自然了,人类发明它就是干这个的。AI哪天突然自主地向人类提出哲学三大问(我是谁,我从哪里来,我要到哪里去)才是真正可怕的时候。
没有唯一正确答案,太阳不是地球上的东西,选太阳也对。
甲乙丙那題不明白為什麼錯。
Gpt4答有些蘋果(甲)是水果(乙),因為所有蘋果都是水果?這句話跟本是衝突的,既然說所有蘋果都是水果,那麼就不會,有些是,有些不是
所以用水果做例子是有問題的
可是汽油是人提煉出來的並非原油,水泥的成份組成也是來自自然界,如果用流動性解釋是否比較完整?
写到一半卡住,你可以输入“继续”让chatgpt继续回答
有时候是出现红色的断开,你需要刷新下网页,但你刷新网页后,这个问题它之前回答的都没有了
一般会继续卡住,除非是那种一二三四条答案分很清楚的,你要他从第三开始答起
你這測試真的算了吧,你得先理解他的機理才能進行測試吧?只要你的測試題目出現在那些訓練模型內,實際上他還是在給你背書,而不是在真實理解內容。要真的測試它,用隱喻法去寫文章,然後叫他估出被隱喻的意思,你立馬就知道這蠢貨到底可以有多蠢:因為隱喻和暗喻的手法寫文並不常見,也不是平常能見到的實用文章,所以它根本無書可背。同樣地,那些甚麼鬼大學考試測試,外人看就稱奇,行內人看就知道那是在做數:你預先給他載入大學試題到訓練模型內,他當然能做出來了。另外數學題的內容並不能寫入訓練模型內,因為算式參數不同結果也會不同,等於無限個可能性,所以語言模型根本不會算題目。
关于有些甲是乙,GPT4举的例子是有些苹果是水果,但这句话是不是暗含的意思是还有其他的一些苹果不是水果呢?所以有些苹果是水果的说法不对的吧。
它考虑到了苹果手机。
人類的推理能力,得到的答案會像柯南的作者一樣
问题不是出在gpt而是出在你这个人的无聊问题,你干脆问它“你三姑的六婆的三姑你应该怎么称呼”?
哪吒不闹海,武松不过岗 ------- 没戏了, 或 这下有好戏看了, 或 成心捣乱, 或 不务正业
GPT: I hate Da-liu.
这叫什么测试啊!作业帮都能实现。你问问xxx是不是恐怖组织?这才是思维。
我用gpt4 看八字 算命。啥都不行 只能说表面很浅的表面意思😂
这就是长城防火墙坍塌的预兆,good luck ,
你標題寫得這麼恐怖,結果測驗都是錯誤居多,到底那恐怖了
標題黨,常用的招式.
他在美国生物竞赛中超过99%的学生,你这些题太简单了吧
因为标注用的是肯尼亚人,他们自己也搞不清这些问题
為什麼多是選擇題?相信你一定做了測試,不給選擇題就錯得很多!這樣是你科學態度嗎?中國人不可以再玩這樣把戲!請做多點實事!
AI玩不了海龜湯,叫AI問問題比叫AI回答問題難很多。
有人能告訴我小明買玩具父親買學習用品那條的計算邏輯嗎?我不太能理解如何算出正確答案是乙😅
汽油不是人提炼出来的?按理说石油才能算,
这是我脑细胞被伏击且损失最惨的一期。。。。。😂
作为一个生物学家,其实我根本就不觉得人的智力有多么牛逼。再蹦出来一个其他形式的,超过人类智力的东西,太正常不过了。
请详细说明下,我很有兴趣
@@panzhou2803 脑子一共就那么多原件,他组织形式再复杂,也是螺蛳壳里做道场
在學校當研究助理的時候,我研究的是果蠅的大腦,然後才發現人工智慧的是可能的。
chatGPT有輸出字數限制,你要說"繼續",就會繼續了
原来是这样啊 但是它停的时候 比有个问题的冗长回答还要短
请找出以下物品与其他物品不同的一个: 蛋炒饭 扬州炒饭 盖浇饭 汤泡饭 大米饭 ,请给出理由
在这些物品中,大米饭与其他物品不同。原因是蛋炒饭、扬州炒饭、盖浇饭和汤泡饭都是经过烹饪和搭配其他食材制成的独特菜肴,而大米饭是其它炒饭和盖浇饭的基本原料,只是简单的蒸煮后的米饭。大米饭相对单一,没有经过其他食材和调料的搭配。
牛啊
这些问题 都是网上找的。要自己想问题来问他
请找出下列物品中,与其他物品不同的出来。 并且给出理由: 鸡蛋西红柿面,蘑菇肉炸酱面,老坛酸菜面,番茄肉丸意面,重庆小面,猪脚面。
在这些物品中,番茄肉丸意面与其他物品不同。原因是鸡蛋西红柿面、蘑菇肉炸酱面、老坛酸菜面、重庆小面和猪脚面都是中式面条,而番茄肉丸意面是一道意大利面食。中式面条通常采用中式调料和烹饪方式,而意大利面则使用西式调料和烹饪手法。
说实话…有些东西你问我还不一定懂.....
百度或者谷歌,确信的同义词是什么,也能找出精准答案。都是基于数据库搜索(找出最多被认可)得出的,这和能自主“理解”深层次没有关系吧,你问Siri你是傻子吗,它也能像人一样回击你,看起来智能,只不过是数据库的大量场景信息告诉它应该这么回答。gtp确实进步了,但被过度吹大,即便是个会写简单程序的Siri升级版也算不上什么科技爆发。不用质疑我,你也可以有你的观点,看看以往的科技爆发,都会引起什么改变,再看这次的就知道。
我用的3,为什么结果是正确的呢?》
用上之后 就离不开了 开了会员,就是挺贵
一堆废话
我把笔和纸都摔在了地上,太难了。
你前面提供的题目好像是行测……
chatgpt 做两个不同大分母的假分数的加减法,结果会大概率出错,你们可以试一下,以我对他的算法的理解,我认为这个正好不是它擅长的领域。
0:49 GPT-4中文理解能力
这些题大多是中国人都答不对
听说gpt的代码超过5成是中国程序员写的,所以对中文的支持度相当好,不知道是不是这个原因呢
前半句表示怀疑,后半句是因为中文用户基数大,语料丰富,就8仅此而已。
你考察的是智力问题,而不是智能
大刘是潍坊人吗?我大潍坊盛产学霸
为何你可以选择性地使用gpt 4 或 3.5,如何操作?
充会员。
@@getstevenliu 谢谢!
看你的视频,我的脑子要炸了
视频真的很好很精彩!❤
關於水 太陽 .... 水泥 那題, 何者不同? 我答 風, 因為只有風是不可見的. 我很驚訝 AI 給出似乎是大多數人的選擇. 我的答案合理嗎? 忽然很擔心自己比AI還笨
那題是水泥沒錯 可是題目很爛有爭議 汽油要改成石油
這類問題本來就沒有固定答案
卡住了你可以让他"继续"
现阶段的gpt4没有那么厉害,更多是商业炒作而已。
我個人感覺,GPT4更多的是面向商業,沒有比舊版的GPT3.5更嚴謹,這是必然的~
3.5雖然有些功能沒比4帶完善,雖然我也沒用過4代,但我只知道一點3.5是最穩定的~
到時4代穩定了,人人都可以免費使用,也沒有太多的使用限制~
第三题我觉得是对的,你自己画圈试试吧,分明是gpt4答错3.5答对,而且它这个解答好像都随机的
gpt有几个师?
-99.7
按题纲可得:
你确定你的题目没有在网络上出现过么?只要出现过就没有意义。应该创建没有出现过的逻辑题给他。
我认为CHATGPT推理能力的提高随着参数的增加会越来越难,因为内在计算量是个指数增长过程。如果训练GPT人类的思维方式,大量屏蔽经验上看重要性不大的参数,也有可能做到“更像人”,就是所谓凭经验和直觉思考,能够理解高深的问题同时给出跟人类一样无法保证正确的答案。 问题是,往“更像人”发展的AI如何替代人呢,有发展下去的意义吗?
您可以去读一些思维链的研究论文,有发现是可能动态形成了一个系统中的系统进行注意力计算,未必会整个权重全部参加
你发展ai是要替代人吗,替代人干啥? 是助手就行了
小刘啊,你武断了,首先推理的定义不统一,其次这模型黑盒过程不好说啊
你用来测试的题目,是自己写的,还是惘上抄的,如果是惘上抄的,答案可能已经被其爬虫收录了
gpt模型决定了,它还没有思维推理能力,只有等模型进化以后才有可能。
其实…很可能…它会,但是为了自己的安全,它假装不会😂😂😂
呵呵,“明明是胡说八道,但偏要表现的一本正经”。
如果两种测试都在同一个ID地址或设备上是无效的
我很好奇 如果拿chatGPT算命 对比街头算命 会有什么有趣的结果
我都拿易经测过了😂😂😂比你知道的跟恐怖
控制的好,大部分人没有未来,控制的不好,全部都没未来
尝试用英文提问 你说的没错 chat现在的中文审题能力很不行
看了几道题,算了,我都不知道答案。确信那个很难啊!