當ChatGPT的廣東話「講唔正」:AI 年代,低資源語言是否注定被邊緣化?|端傳媒|解釋影片|人工智能
HTML-код
- Опубликовано: 18 май 2024
- 在AI 半吊子的廣東話背後,是語言傳承與社會資源分配的角力。
如果你是普通話母語者,恭喜你瞬間收穫「精通粵語」成就。反而是會說廣東話的人,這時可能要一頭霧水了--ChatGPT 自帶奇特口音,像外地人在努力說廣東話。
2023年9月的一次更新中, ChatGPT第一次擁有了「說」的能力;2024年5月13日,最新一代模型 GPT-4o 發布,雖然新版的語音功能尚未正式面世,只存在於 demo 中,但從去年的更新中,已經可以一窺 ChatGPT多語言語音對話的能力。
而很多人也發現了,ChatGPT 講廣東話口音濃重,雖然語氣自然,像真人一樣,但那個「真人」肯定不是廣東話母語者。
_____________________________________________
★ 訂閱端傳媒,支持華文世界不可或缺的深度報導和多元聲音:bit.ly/48YLJtK
呢樣我最欣賞蘋果,當Android又或者任何語音助手仲搞緊普通話,蘋果已經推出粵語語音助手。相信蘋果來緊的AI亦不例外。
最感動係當年Siri廣東話版係同普通話版同一日推出,等同向世界展示廣東話既語言地位
要感谢生活系加州的广东人。苹果推出粤语系有原因的----因为Bay Area同加州就系广东人的文化影响。甚至你可以讲:::加州人对粤语的认同,比现在中国人对粤语的认同还高。向加州:::::Cantonese 广东话比普通话对美国人的影响还大。“广东话,正版字就是national identity,”1970年UCLA, SFSU,等民族活动。历史::1980~2000,上个世纪的广东人,挖矿,修铁路。然后就在2024葛今天,广东人后代还是湾区和加州活跃民族,像UCB,UCSB,UCD都是亚裔多,甚至很多亚裔苹果员工就是广东人后代,某个亲戚在苹果)。基本上还系用正版字,教第二代,第三代移民还是白话。我爸部手机地图就是粤语的:::更牛葛系,英文地名,直接翻译粤语输出。
@@jackychau8317 要感谢生活系加州的广东人。苹果推出粤语系有原因的----因为Bay Area同加州就系广东人的文化影响。甚至你可以讲:::加州人对粤语的认同,比现在中国人对粤语的认同还高。认识广东,香港的比知道北京的估计还多。向加州:::::Cantonese 广东话比普通话对美国人的影响还大。“广东话,正版字就是national identity,”1970年UCLA, SFSU,等民族活动。历史::1980~2000,上个世纪的广东人,挖矿,修铁路。然后就在2024葛今天,广东人后代还是湾区和加州活跃民族,像UCB,UCSB,UCD, Stanford 都是亚裔多,甚至很多亚裔苹果员工就是广东人后代,某个亲戚在苹果)。现在基本上还系用正版字,教第二代,第三代移民还是白话。就比如苹果向三藩市的发布会:::只要你去三藩市,白话必定听到。我爸部手机地图就是粤语的:::更牛葛系,英文地名,直接翻译粤语输出。
@@jackychau8317iphone都係黃絲
日後唔知🤕
我都係chatgpt嘅會員用戶,有一次開咗語音功能想聽下佢講粵語點,結果聽到呢種話頓時失望,我就直頭鬧佢話你講嘅根本唔係廣東話,係國語嚟㗎,佢道咗歉後試住改正,然後又講返啲唔三唔四嘅塑料粵語。然後鬧多咗幾次後佢終於講返咗算正嘅粵語喇。大家可以試下向chat GPT矯正多幾次聽下得唔得。
但係都係對chat GPT語音功能感到有啲失望。因為chat GPT嘅文字功能真係好好用。而且仲可以將中文翻譯成粵文,仲可以將一篇文章打出啲字嘅粵語拼音。希望佢可以快啲改善下粵語語音功能。
岩岩send 左email 比openai cc左好多佢地既員工上上下下 希望佢地會關注 建議大家都係廣東話出一分力😬
然。GPT所謂粵音,南北混雜,似是而非,通國粵者皆惡之。然同為漢語分支,吳、閩者較粵語更危,GPT全然不通,則若如此觀之,方可稍舒也。
thx u
首先,OpenAI並沒有開放給香港使用,香港用戶並非佢哋正式用戶,係隻眼開隻眼閉唔封鎖香港而已,改善廣東話嘅優先度唔會好高,暫時唔會理一個(被美國制裁的)普通中国城市。
@@joneschunghk 廣東話唔係淨係廣東同香港用架天才 美國有個City做警察要識講廣東話的
@@cc-cm1hy 係嘅,你啱。嗰個city嘅訂閱可以支持openai的粤語開發。
放心,比TVB劇佢睇,遲下就會問煮個麵你食好唔好架啦!
Should be those before 1997
嚟一部1993-1999年嘅长剧《真情》
正宗鄉音gpt
啱啊,下一代講嘅廣東話就係咁架啦。😊😊😊😊😊😊😊😊😊 g 持
塑料粵語
We should have our own Cantonese Voice AI model.
这没错,但是要让 OpenAI 来做这项工作,这就不对了。
咁好心你就用廣東話打字啦, 甘樣互聯網上面先會有數據畀佢行
呢個好笑!!
Chat GPT 行喺時代前頭,講廣州二十年后嘅粵語喇🥲😅😥
虽然我不说粤语 但我觉得粤语人应该为自己争夺粤语AI的地盘
多謝你. 😭
争夺过了,失败了嘛这不是。😅
不如建国,强制构成排除官话的语言区
謝謝你
無話爭唔爭架 根本就有係度 唔會話加一個語言就會少一個語言架嘛 個問題係有鄉音啫
講真 就算係廣東話為主嘅香港 政府自己都唔重視廣東話 從來冇推廣或出正規教學 仲要將佢放係次一級地位 永遠都係英文、普通話
我做開AI
廣東話講得正 技術上可以實現
數據亦都足夠
但係要AI講得充滿感情 抑揚頓挫
未來一到兩年都做唔到
我都係咁覺得,啱啱上網又見到有評論講咗,蘋果喺香港粵語嘅本土化上面攞咗好多功夫,請咗好多香港人去優化Siri個語音,做字同埋語調真係唔容易,雖說Siri很蠢回答不了正確答案,但至少聽起來還算是自然的,如果他們仍然願意放下更多功夫的話相信會變得更好,希望各大廠商跟進,特別是Google !XD
我覺得主要係廣東話冇標準字 AI學習比較混亂 譬如 給你:比 畀 俾 有啲標準字比較生僻 唔係都認得 大家就自己諗咗个同音字嚟代替。
我覺得這個不是大問題,正如有人講叫AI睇晒TVB啲戲都已經學識7788。好多外地人都係咁學。AI都可以這樣train。
係 無官方政府做出標準粵語文字既教學 始終民間自己各自用各自
@@haha-eg8fj 但係TVB嘅字面係書面語,要廣東話字幕仲要用正字先有好效果
很多粤语使用者用文字打白话都只是音译口语文字,本身都等于“讲唔正”。而大语言模型又是恰好只能通过文字含义来训练,学不好那是必然的,正如近些年港澳地区歧视普通话的人,很多国语水平一塌糊涂,因为他们的思维已经被白话口语文字绑定了,口语文字很多是主观没有标准的,这导致他们理解正体书面语的能力欠缺。
@@henrybun0503 train數據唔單止文字,語音亦一樣可以,轉換成數據只不過係二進制符號。而句子意思唔係靠單個字來理解,只要整個句子嘅意思聽明白,自然就可以訓練出對應嘅語音。
這個議題我作為中文使用者是真的沒有想過耶 很有趣
Good question!
This topic is quite interesting and I really like the last question
優化 x
改善 v
係最佳化(optimize)
改善係improve
其實家下講緊嘅係AI,係講緊一個比人類智慧高超百倍嘅靈魂,我覺到香港用家普遍用到CHAT GPT 4O時,我地已聽到發音準,甚至係地道嘅廣東話了,呢點.....我一啲都唔擔心。
天籟調聲法
Sam Altman 2024-5-15
also for clarity: the new voice mode hasn't shipped yet (though the text mode of GPT-4o has). what you can currently use in the app is the old version.
the new one is very much worth the wait!
學到野
正,好有譚仔阿姐味😂
應該叫譚仔話,而唔係叫廣東話!!大陸人講嘅廣東話都唔係咁樣,講開廣東話做母語嘅人講出嚟都要字正腔圓得多!!(雖然都係聽唔慣㗎啦!!)
@@cacacaracar9147大陆人讲嘅「广东话」都有部份系噉
向GPT發出請求!
香港人要學識粵拼 (Jyutping) !!!!
Neural network 真係好類人, transfer learning 竟然同人一樣會train 出口音
睇到好多留言唔太明白乜事, 目前技術困難係講廣東話的人太少, 產生的數據樣本太少令AI的廣東話講唔正。如果有人能完美解決大語言模型小樣本微調/轉移的訓練問題, 足夠佢成為教授/openai首席
新版語音都未出街,出埋先講啦😂
除咗训练素材嘅缺少,估计有D字本身简体繁体同字都会造成训练混乱。两种方言有同样嘅字,佢会唔知道系应该发普通话音定系广东话音。
你估吓難唔難Fix ar嗱?
👍
記得bing translate的廣東話還翻得蠻好的
等緊Apple嘅AI,Apple Siri嘅廣東話真係準確。
中文大學咁好機會又可以呃資金
做咩唔開個項目搞廣東話語音模型, 以及繁體廣東話中文AI模型?
啱啱出未夠資料train啫
粵語>閩南語>客語>閩東語 粵語已經好多了 之前想學閩東語連資源都很少🫨
我覺得擔心先餘,而家AI仲係初步階段,仲係要人係開期開發,資料當然係集中係大路語言先,但唔好忘記AI真係唔洗休息,同事你仲要比夠硬件佢,佢可以無限記儲
只要佢到能力到某個階段,應該係一比香港中文大學個粵語審音配詞字庫佢就立即識,咁先係一個真正的AI
而家AI 仲係有限度使用,同真正的通用AI 大家睇就可以好接近,但實際可能仲有好多野要做
應該比好多資源更不足嘅語言好好多。不過大家仍需努力啦
反正冇VPN冇其他渠道香港冇得用OpenAI, 謝主蒙恩
見到啲人話等蘋果嘅AI,蘋果嘅近期彭博消息就係
蘋果同OpenAI合作 另一邊同Google合作🤣 如果照預計係同一個模型😂
希望蘋果將佢個語言包供給OpenAI呀🤣
言之尚早,現時未開源啫,未來會有應該有私人公司畀大量資源專門訓練廣東話模型,例如客戶服務。
條片嘅標題遲早會過時。
結尾應該講下我地可以做d乜
好事啊,起碼唔使驚ai換聲+換面去水你😂
珍姐
好葵介
絕對唔係技術問題,係有冇心,重唔重視,微軟都做得好過佢,廣東話好標準。
小眾語言係咁㗎啦,大把更重要既語言ChatGPT都無cover人地都未出聲😂
其實最大理由係chatgpt冇開放俾香港,澳門,大陸
一开始就已经输左
好似病毒咁, 其它AI用CHATGPT既DATASET做TRAINING之後, 正常廣東話AI都會講唔正
其實係Text2speech嘅問題,歸咎chatgpt個文本dataset其實大纜扯唔埋
應該係因為chatgbt 搵咗在唐人街出生嘅香港人子女去進行錄音訓練😂
我係禾 😂
你猜有1亿2千万人说的四川话GPT会不会说?GPT广东话讲不好是因为来自国内的数据集太少(有用国内数据训练吗?)还是国外数据集太少,其实有待厘清
根本唔關粵語有冇標準漢字事,因爲粵語其實有拼音,用拼音訓練AI就得。
其實簡單啲講就係三個字,唔重視。
巧好怕啊!
你廣話真是巧癸介
@@user-yn8kq8br1o 喎庚誒艾河架。點點騎界喎。
最好笑係報導呢單野個記者,都講唔正
仲以為新何太講嘢😂
應該感謝ChatGPT ,要不是有他,低資源語言只會死的更快,有GPT至少能保證廣東話能以數位的形式保存下來,不至於消失,像臺灣這邊的閩南語GPT已經到只會聽不會講的程度了
BTW,其實GPT的中文發音也說得很爛,但不影響使用,語言這種東西能溝通就好
台灣都講國語,年輕一代現在都很少會講閩南話了吧,但廣東話在香港仍然是主要語言。
普通話同粤語比較明顯普通話對口音影響較大,粤語才是高階
其實廣東話大把市場,只不過開發人員主力去搞國語,你睇apple 一早就搞咗出黎
最搞笑係google,android手機可以廣東話對答,但係google home喇叭唔識廣東話
😅我在内地读的小学 那时候在搞普通话运动,在学校里讲广东话会被值日生查 扣集体分 方言保护的毒瘤
纯粹是一些地方官員矯枉過正、用力過猛。現在已經撥亂反正。現在廣州市教育部甚至規定,課間學生之間【必須】講廣東話,授課還是會用普通話。
你以為係唔小心 意外咩 求其揾個香港人聽下都知有問題啦
我話俾你聽 實際上係有d人玩野
microsoft windows香港既輸入法都係整得特別差
廣東話輸入法俾人刪咗 原因不明
大陸員工處理有關香港既野態度一向係咁 你地唔使覺得出奇
香港員工知都未必話到事
其實Apple嘅廣東話語音識別都麻麻地,當然呢幾年改善咗
我哋係哋可以自願報效openAI 畀AI 跟我哋學廣東話?
Give CHATGPT TVB DRAMA DATA
這是ai特登的因為太完美人類會害怕🤖
广东话数据已经唔少啦,想想广东其他方言,完全搵唔到电子数据
所以一定要有有心人建立語音資料庫先得,否則好多方音會失傳
广东话 数据太少 😞
广东话文字话已经粤语用字的注音一直未统一,而普通话和汉语拼音早就统一方案,简单明了。你如果是AI肯定学普通话会更快更标准。香港既然撑粤语,但这种科学文化缺失,是一种疑惑。一个好的粤语注音方案 应该包括英文字母而且还要有声调去保证非粤语人或ai机器人一看到这个英文字母组合和声调提示就发出9成读音与标准粤语接近。。香港或广东的语言文化部门做不到或不想做这个
蘋果siri好早就已經有廣東話,Microsoft都有
先設計和編制一套統一的粵語羅馬拼音,能讓學生更系統的學習粵語發音和方便推廣先吧。
唔使再設計,就用「粵拼」(Jyutping)
@@ChanTchiJan1.0 可惜香港學校不推廣也不教學生。
新何太咩係你呀!😂😂
我是广东人,看视频时很喜欢看评论,但看粤语视频就不会看评论,因为看不懂
李亚男🤣
开头笑死我
咁做个翻译就可以解决,直接输出北方口音,然后翻译
so 新何太
是旦啦,而家香港人走既走, 留係係到都唔會教下一代廣東話
一係教普通話, 一係教英文
We can speak Cantonese in overseas
@@edwinskwok 海外家長都唔會教小朋友以cantonese 作為first language
我家的台語也沒辦法!
😂😂😂
好似大紀元珍姐
呢個係咩廣東話嘅
鄉音話就真!!
外國大把依啲口音😂
可但是gpt说的普通话也是美国华人的口音啊,我感觉就是数据不够纯粹
好々吖廣東包刮潮州客家音好正喎
粵語就差D
大鑊!😰😰
AI而家又唔係得ChatGPT😂
咁係你悲觀啫,我睇到AI講唔到廣東話的好處。
由好多年前嘅TTS開始,廣東話都不被重視,只會說出沒有語氣的機械人聲音,就好似我們接到的詐騙電話,一說廣東話就立即穿崩,所以香港的電話詐騙受害者,大多是中国留學生,或以普通話為母語的新移民。
正常香港人冚線好耐!!點會聽人講大陸話超過一分鐘都無冚綫?!!
其實AI進化嘅速度非常快,不如大家担心佢講粤語叻過你仲好啦!😅
即係外行扮專家,搞AI廣東話訓練
原來廣東話難學到電腦AI都學唔掂 😅
Source poisoning.
可能openai公司請錯係譚仔阿姐去訓練chatgpt廣東話😆
其實可悲嘅係好多所謂嘅網上廣東話教師其實教錯曬啲拼音和讀音
不想学! 简单! 😅 有粤语输入啊!
肯定邊缘化。香港話玩完
乜咁雞嘅咩,我見Copilot講得幾好過噃,佢都係用chatgpt,最多有啲地方忽然唔係口語
*漢字新篇章:從傳統到未來的跨越*
話說漢字,這門古老的文字系統,不單止承載着千年的文化,更在不斷發展,迎合新時代的需求。你知道嗎?未來的漢字,可能會變得更加靈活多變,甚至可以隨心所欲地創造新字。
想像下,如果我們可以自由地組合筆劃,創造出代表新化學元素的漢字,那科學交流豈不是更加便捷?而對於方言字和喃字,這種新的書寫方式更是一枝新筆,讓這些文字得以保存和傳承。
不止如此,漢字的新變革還能讓藝術和文化得到新生。比如,古琴譜的字和吉祥話的合體字,這些都能成為漢字新的表現形式。而且,用一個漢字來記錄一條新聞,這種簡潔又直觀的方式,豈不是很有意思?
再說,現在網絡安全這麼重要,如果有一種密碼用的新造漢字,用完即棄,不就比那些六位數的驗證碼安全多了?中醫的處方也可以用這種方式來寫,既保護了醫生的智慧財產權,又增加了一份神秘感。
當然,這些都還是頭腦風暴中的點子,不過,誰又能說未來不會成真呢?漢字的碼點筆劃化,或許真的能開啟一片新天地,讓我們的文字更加豐富多彩。
via Copilot
粤语警察的执法标准是自由心证吗
何太咁樣
应该系