從「兩個隱憂」剖析為什麼台灣需要自己的繁中語言模型?
HTML-код
- Опубликовано: 29 июн 2024
- 我們將深入探討台灣為什麼需要建立自己的繁中語言模型。台大副教授陳縕儂教授將透過分析「兩個隱憂」,解釋為何這對台灣的未來發展至關重要。
第一是隱憂是,台灣的人口基數、市場比較小,國外的語言模型缺乏足夠量能照顧台灣,「比如說有一些情況,我們很明顯知道只要把這個資料放進去訓練,可能就會變好了,但就變成我們國家可能需要跟他們(國外)談合作,我們把這些東西提供給你們,你們把它放進去,讓這個模型變好。只是這樣子就會變成有核心技術掌握在別人手上,你自己要動的時候,每次都還要找這個專家來幫你調,就會比較麻煩。」
第二個隱憂是,如果台灣不發展自己的繁體中文語言模型,很多企業可能就會開始採用中國的語言模型,而因為不知道中國語言模型訓練了什麼資料,或者是做了哪些調整,導致最後的結果可能不符合台灣的生活型態,「大部分中國想傳遞的理念和價值觀可能會轉換成比較單一的,但台灣其實是擁有非常多元價值觀的一個環境。」
由長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘聯合發起,與台大資工系、台大資管系及律果科技合作,在 NVIDIA 技術支持下訓練的「繁體中文專家模型開源專案 TAiwan Mixture of Experts(後簡稱 Project TAME )」,已正式對外發布,將以 Open Source 開放原始碼的形式,創造台灣的 AI 應用生態系。 - Наука
沒錯 台灣需要發展自己的語言模型
這這個問題蠻嚴重的,政府應該正視。
加油,也希望大家也一起支持 💪 保留多元文化
支持繁體中文語料訓練的模型!我是大陸人,但是是被打壓的粵語人士,還有每次用簡體中文使用 AI 時,
出來的都是用中共鋪天蓋地的簡體大内宣文案訓練出來的内容,還有中國内網的網民自行的言論審查導致都不能好好打字發留言,
導致ai被簡體中文語料污染得非常嚴重,這種情況下 AI 的正常使用都不能保證!
所以我一直以來都在學習繁體中文,因此我一直都對繁體中文更有認同感,而不是中共的簡體中文,
你也是被洗腦的另一個極端
@@z11y11f11 是説我被人洗腦繁體中文有多好多有文化,我才學習的嗎?這只是對一部份,然而重點並不是,而是我對中國的簡體中文環境的一種由心的厭惡,才推使我被迫學習繁體中文,這不是被誰洗腦的選擇,反而是中共逼使他們的人們 向着他們自稱崇尚驕傲文化 的反方向遠離,這才是可悲之處。
@@XboxB13 你很适合绿共啊
真香港人:支持
@@yukin1990 真香港人加油!條路一齊行落去!
老師講得很隱晦了 其實就是中國的model河蟹掉一些不能講的東西
微軟的 AI 中文語系的就是這樣了
河蟹(和諧)或消滅某些詞彙,就是某種程度在消滅某些思想。
台灣該發展的,其實是整理好訓練所需的資料庫,如果資料庫做得好,練出來的成品幻覺也會減小很多
訓練集做得好,各大模型也都能採用
現在很多繁中模型,都是使用對岸資料做訓練,效果不佳,而且政治觀念也是對岸的,很多用詞也不是台灣習慣的
重點在~說的人多,做的人....乏善可陳!!
有人說市場人口少!事實上~是環境支持的少。
如果環境的硬體(企業)支持度強~人口少從來不是問題。
@@aoki250gp 台灣有一群人在做,搜尋Taide AI
應該放棄繁體中文改國文為英文
AI可以彌補「部分」少子化帶來的人力不足的問題。目前中國的搜尋網路百度與Google所搜尋出來的結果大不相同,尤其在意識形態價值觀的歷史、文化、政治、外交上的結論南轅北轍,如果使用中國的大語言模型經常會看得吐血。
遠離中國,台灣更好。
這其實不只是字體、語彙的問題。更重要的是文化和文明態度。台灣有更多元的文化融合和包容力,而且更願意關心人權需求。AI 的語言模型已經成為未來最重要的文化與文明的載體,政府和民間真的需要認真看待這件事。
支持繁體中文語料訓練的模型,讓文組科系能有更好的出路
說的真好 完全同意
認同台灣要建立自己的語言模型!!
老師很有遠見,這是自由世界才會有的聲音
外國朋友每次聊天我都需要解釋那個是中國的慣用詞而不是台灣的,因為他們使用google 翻譯,但選繁體中文也不是使用台灣慣用語...他們也很煩惱這件事期。
看他們學台灣的中文讓我感受到需要支持台灣有自己的語言模型比較好~
不如勸他們放棄中文學台文如何?😂😂😂
台灣現在有硬體代工的現行優勢,但軟體演算法才是AI的靈魂,這是真的需要紮根的
光是在youtube的影片自動翻譯來說...
中文正體(繁體)就已經是乏善可陳了...
都是只能選擇簡體...
哀
Google技巧性地屏蔽繁體中文字幕。
我是用AI做英語教材的, 台灣無論口音或說繁體的語音模型比簡體少很多很多而且差,azure都如此其他更不用說了
微軟基本上把台灣歸類在中國,別說Azure,即使只是瀏覽器側邊欄,所提供相關聯的應用也幾乎都是中國境內常見軟體。台灣真的要多加強軟體面的發語權。
台灣很多人都說要語言模型, 但誰願意投入資金,投入時間去做呢?
單一是種封鎖禁錮,多元才具有創新及創造力...
獨裁與自由的本質天差地別,出來的成果與人適性感受更是不同。
簡中繁中都是中,當你已經把14億人的聲音給排除了,還驕傲個屁多元?就承認自己不能容納對立於你的聲音很難嗎?何必把自己吹得高大上?😂😂😂
@@Sun-ql8yb 是誰在排除其它聲音,也只有你們在做而已...自己如果真正多元會怕別人排除嗎!高大上是中國共產用語,也只有你們在分那369等...腦內常腦補別人沒說的話,是腦子缺營養嗎?
老師講的很保守 , 不自己幹, 以後 中文圈AI 只能吃 統一餐 統一麵 統一飲料 統一水餃 統一燴飯 統一小菜。
是 incentive
免驚,有台灣的「AI內閣」給你撑腰。
中國AI大部分充斥著習近平思想,比較無法多元表達,畢竟共產黨總是不希望人民懂得太多。
習 AI 將永遠統治中國
目前多數AI的中文訓練多採用簡體中文的資料來源,造成即使用繁體中文顯示,但用語和內容皆是符合中國的說法。因此台灣真的需要建立繁體中文的AI模型。或多主動與微軟等國際大廠合作。台灣在科技業的優勢不該只停留在硬體!
台灣真正的需要是一個屬於台灣的大型資料集,台灣一直燒錢用些過時的架構,訓練一堆沒人用的模型。
台灣有台積電 世界AI的核心 天下第一 百年無敵手
"符不符合我們希望傳遞的價值觀" ----> 我們認可的洗腦內容。
「建立屬於自己的中文語言模型」----> 建立台灣國語言學。
以後連各家AI都堅持一中原則那台灣如何是好☹
40,需要自己的模型
封面好甜美
❤❤❤
語言是用來傳遞訊息的方法。
如果本來中國那邊已有字詞可以好好傳達,卻要為了避開中國詞言模型而去找其他可能沒這麼貼切的,會不會有本末倒置的感覺….?
不要挡着提出这个建议的人赚钱,推是肯定推不下去的,但是理念提出来了,就可以立个项目圈钱了
@@changbeiwu73 智商費🤣
「課綱AI 化」、「去中2.0」,“估計”還要一大筆經費,加油。
愿景很好,但是事实很残酷。台湾的技术和市场,不足以支持一个语言大模型的发展。
語言AI是世界性的且多語架構也日趨完善(以前相對外語我們處理中文自然語言有獨家優勢),但現在台灣即使做的再好除非限制只能使用TW-AI,不然基於知識量、功能、多樣性選擇等因素實在難以勝出(偏偏AI的重點就是知識量及功能),意即陳老師說的固然沒錯,但就有點像搜尋引擎一樣...
真的要解決有個爛招就是加一層過濾器,凡是在國內使用境外語言AI就會被強制(轉址)審查?過濾?校正.....花小力氣解決隱憂,這技術也不難就是@#$%^&*!
「我」必須負責任的來打字,
哪裡有問題。
從 宏碁開發 第一代 個人電腦 開始。
的當時,就有人說了。
要組建 ...
中文的,語言模型。
這個模型要用來做什麼?🤔
用來做 OS。電腦的作業系統。
當時的中文電腦作業系統。
倚天 ( dos 時代 ) 系統。
第二次,又有人說,
要組建 ...
中文的,語言模型。
這個模型要用來做什麼?🤔
輸入法。
白話文 - -
其實只要你有在用中文輸入法,
可以自動選詞語的那種 ...
它裡面就有,中文語言模型。
第三次是這次的 Ai ... 嗎?🤔
不正確。
這次的 Ai 之前,真的叫做 ...
Bi 。商業(智慧)決策。
一樣強調,說,
從消費端開始,就迎來了,
一連串的商業決策。
英文的決策?🤔
怕很多傳統的店舖商家看不懂。
所以是要中文的。
又建一遍,中文,語言模型。
白話文。
我們不知道浪費了多少次。
組建,所謂的,中文語言模型,
的,人力、腦力、財力,
做同一件事。
Ai 需要再做一遍 ... 嗎?🤔
大概吧。
大概之前做過的,全部不能"直接"拿來用。
要整合『才』能用 ...
我們的資訊教育問題就出在這裡。
花了多次的力量。
中文語言模型,
不是開放、公有、可用、
( 軟體、格式、模式 ) 標準化的。
不是國有的。
為什麼這麼多次的組建,都沒有發現 ...
原來 ...
這樣是有問題的 ...
這樣的資訊教育。
如何令人安心。
但是新資料的來源很可能是簡翻繁而來。
0:27 insentive ~~incentive
台灣人不想被統一
所以我們要讚美簡體字的好!!!我們要支持中國人學習的簡體字,我們不能歧視簡體字,因為那是中國人的母語,我們不應該去歧視別人的國語,母語
因為我們不想被統一
這邏輯很多人不懂
我們必須先尊重他國的國語,及母語
才不會招致仇恨及戰爭。
你可以不想被統一,但你不能用歧視來達成,因為你越是如此,越容易被統。
歧視,仇恨,對立就越容易被迫學習別人的國語,只要戰爭就能達成。
因為你忘記了,簡體字對中國人也是充滿感情的母語及國語
別以為只有你對繁中有感情的權力。
發展什麼模型,學術研究和原典書籍不願意翻譯、發行,就已經讓許多作相關事務或研究的人必須買簡體書了,書店盡出一些財金、心靈雞湯跟暢銷小說。ai流行才又搭上語言程式的話題,台灣到底能不能正正經經的並且用心的發展長遠性的事情不要只是流行一窩蜂?
臺灣應該推行臺語,臺語的發源能更接軌其它國家同源的語言邏輯。
過去網路發展沒有注重社群媒體或搜尋引擎造成現在只能被動靠fb和google大公司內部管控,現在政府應該重視主權AI這塊以免以後又受制於人
這種論點把‘’中國的AI‘’換成‘’民進黨的AI"一點也不違和。
如果現在的資訊都已經充滿意識形態跟偏見,你會期望台灣發展出來的AI多多元?
更別提經歷上次的chatdpt的老實話事件,你又會期望AI不被特定人所把持利用?
是這樣沒錯,但大語言模型的品質跟網路上資源的多寡也相關,繁體中文先天資料就比較少,所以訓練效果應該還是會不如英語語系,還有台灣的電力始終是個大問題
不愧是教授,只想著開發面的問題。但花一堆錢開發繁中LLM是為了甚麼?不就是希望有人用?有多少人會去使用國產繁中LLM?直接拿ChatGPT改不是比較快?這就跟好好的google不用,硬要開發個自己的搜尋引擎一樣。再者,難道開發繁中LLM就不會被中國資訊影響嗎?反而還會擔心因為訓練規模太小,更容易被少數語料汙染,只找得到同溫層資訊,或是變成有心人士政治操作的工具
臺灣自己的繁中語言模型是由誰負責產生?
她就是做AI 訓練的啊⋯⋯
簡單講,簡中、中共會打壓特定議題的資料:如8964、反送中、港獨、藏獨、法輪功、武漢肺炎;
如果不做自己的模型,直接用中共的簡中模型,就會得到這些被審查後的言論。
不管簡繁
要是有人給AI餵飽所有中文影片 不知會如何
我比較想知道。
我們的資訊教育出現什麼問題。
就是要等到 ...
看到別人的語言模型做得比我們,又快又好,
『才』
警覺到,說,
啊,我們趕快來做我們的語言模型 ... ?🤔
資訊教育有很多問題 🙂
不論藍綠,哪個不是掩耳盜鈴之輩!?
@@jedi1112
「我」也不知道 ...
把 Ai Chat 語言模型 ...
訓練成 ...
會說謊比較正確、比較對,
還是不會說謊比較正確、比較對 ...
😅
你行你上,錢拿出來。
滑坡邏輯就不必了
搞錢搞錢搞錢
這個我有感受 確實有一次問問題,結果AI把台灣歸類給中國,我反駁了AI再問一次 AI就道歉 然後就講不一樣的答案,確實有被對岸洗訓練,這個不能輕視的。千萬不能忽略 當生活中被入侵的中國製軟硬體 溫水煮青蛙 ,久而久之沒警覺性的人越來越多,就會漸漸出現一些 被中國統也一樣的年輕人,這是很嚴重的。
溫水煮青蛙😊
哪個政黨把他放進不分區名單,我就投給那個政黨!
陳老師講的已經很隱諱很含蓄了......
我自己目前在本機上的notes/blocks embeding model用Jina,chatai除了openai和google gemini外,用qwen或xwin真的中文解析能力比較好,但具有左岸色彩😓
講著TSMC和Nvidia好像很光榮,除了硬體外,軟實力的資訊人才....國內真的不重視,對岸人口基數就比我們多,相對的碼農也多,上github就知道差距了
別妄想靠政府了,不管什麼黨上台都口水治國(比如之前新聞常講X鳳出手了,講的好像很秋,啊...然後呢....),有理想有辦法就只能在矽谷集資靠天使投資人,但台灣是小眾市場😑,應該沒多少人有興趣
喜歡單一的是台灣吧,之前 chatdpp出來有不一樣的意見直接就被下架了
繁體中文使用者香港澳門比台灣還早學繁體中文 .
把英文變成主要語言吧😂
台灣的環境已經有越來越像新加坡的趨勢。
台湾这么多人才居然没有人搞大模型训练吗?还有为啥要紧盯闭源的chatgpt呢?为啥要将数据源交给第三方训练?开源的大模型网络上一大堆,完全可以按照中国大陆科技公司的路线走啊。
這根本做不到吧,簡中資料在各語種中就已經不足,繁中更是遠遠遠少,頂多做一些模型特調。
這不是廢話,不是要建AI島
消滅方塊字才是正道
但凡中文無論簡中、繁中,都是屬於中國人的。別說的好像後者是屬於台灣人的好嗎?
蔣介石、蔣經國、胡適都使用繁中,請問他們是中國人還台灣人?
問題是現在放眼國際,認為「中國」就是中共統治的「中華人民共和國」的比例很高。
@@2005wenlu 那不是你們可以用台灣或所謂中華民國台灣來取代建國者們所建立一中憲法下中華民國的藉口。沒有不合時宜的憲法,只有不符叛國賊們需要的憲法。更何況台灣做為國家在世界上根本沒有人正式承認,用沒人承認的國家定義,去取代憲法和少部分國家承認的國家定義,邏輯和正當性在哪?
是中共創造出來的名詞 蔣介石、蔣經國、胡適根本不知道 什麼是繁中 直到蔣經國開放探親 台灣才知道對岸發生什麼事情 什麼是繁中
話說,台灣專長AI的博士級專家有幾個人?
這位陳教授是台灣最有名的AI專家,除她之外,還有誰呢?有超過20人嗎?
無論簡繁,中文是寫不出語言模型的。
你永遠無法教會AI辨認【白癡造句法】如【膽卻之不恭】及【英文的中譯】如【橋頓剛過橋】
有人懷疑我的話?能先請他教會AI正確唸出【昨天沈瓦把總統府給炸了!】?
這位陳教授肯定絕對不是【AI專家】連寫API都不是,相信我。
當然超過啊,廢話==
@@fork9453
我說的是博士論文主修AI。
主修CS 的博士不代表就是AI專家。
@@ilt4761 是啊,光學界就超過20個了,還不把業界的算進去
電力供應從哪來?
今天白天的備載容量有高達 16.8%
文不對題回去重修中文 笑死
love
@@lupojen 因为 AI 训练,电力是基础😅没有廉价的电力和海量的算力,很难在 AI 时代有所建树
放心的。台灣有一個超級黃仁勳隊友,安啦!
NVIDIA 主要在硬體,直接去開發 AI 軟體系統,未必符合他們的戰略,就像台積電不會去自己做 CPU 來賣,造成他的客戶產生戒心。
井里就是不一样,英伟达这是提供算力支持而已,模型长什么样是创办人决定的,跟英伟达有个鸡毛关系呀
笑了 台灣價值觀才單一 永遠都是自己在講台灣有多民主什麼什麼有多好
說的有理
測試過TAME 大眾免費版本, "智商"不足無實用價值
这个很简单,可以我们给你训一个大模型专门给繁体中文用的,语料你们自己准备,大模型网上一大堆,自己准备准备好数据就可以自己训练了,
大模型关键的要素:算力/电力/数据,台湾大概只有算力没有问题。
光台湾自产的语言内容数据太少了,建议台湾把英文也作为官方语言之一,这样有利于接轨世界,也有利于疏远中国,向新加坡学习!
估計這位陳縕儂副教授年輕時長得也不錯,有一點點黃瀞瑩 (學姐) 的 feel。
人家現在還是很漂亮啦!
台灣用的不是繁中 是「正楷」「楷書」
「正楷」「楷書」是指字體型態部是筆畫, 正(繁)體字可以寫成楷書草書隸書等型態
這是太看不起繁體中文,是標準的中華文化傳承。簡體中文是中共文化不是中華文化。
正妹?
雖然重要,但沒有票的事政府是不會做的
放棄中文才是正途 都什麼時代還在象形文字
台灣少子化真的是個大問題
快快推行,一堆遊戲只剩下簡體中文,五千年中華文化快滅啦....
這要國家執政者眼界廣,能長期執政,才能不間斷的推行,若國民黨上台,什麼都用中國模型,很快就文化、資訊統一,然後推行簡體字,最後就人民安全最重要,不要打仗,投入中國懷抱。
遠離中國,台灣更好。
@@Wish-Hope
寧為雞首,不為牛後,香港之鑑。
珍惜生命,遠離 藍共/白共/中共°
你在說什麼話 邏輯錯亂了嗎
你在說甚麼 對岸跟美國早在 過去10年就在準備各種資料集 才能有能力快速訓練各種模型
民退黨有協助過嗎 ? 你有沒有看到去年中科院用對岸模型被抓包的新聞
想撈研究金費在吹
👍
聽她講國語真痛苦
0.75倍
台灣就是有這種人,完全搞錯重點,對中國的文化滲透漠不關心
不是中國人就不要用中國文化!繁體字是中國人的,請不要偷了去,閩南話是我福建的,請別偷竊說是什麼台灣語。吥!
該做就立即做,台灣語言本就不同中國語言,文化村也早已經不同
只有共產黨才用「簡體中文」
新馬華人表示:....
不是啊~啊你講的也是中文啊~~要去中國話啦!!
自己發明語言啊
供三小,那美國人要不要也別講英文了
西班牙語盛行於以下地方:阿根廷,伯利茲,玻利維亞,智利,哥倫比亞,哥斯達黎加, 古巴,多米尼加共和國,厄瓜多爾,薩爾瓦多,赤道幾內亞,危地馬拉,洪都拉斯,墨西哥,尼加拉瓜,巴拿馬,巴拉圭,秘魯,西班牙,烏拉圭,委內瑞拉,美國等。
某一語言不一定等於單一國家,Ok?
@@fork9453美国人没有要“去英国化”啊😊
@@kaili6219 所以英國人有要侵略美國?
@@fork9453 侵不侵略美国和去不去英国化有什么关系?
一看就知道是民進黨的,油水撈多了,滿嘴唬爛。
为什么台湾有台积电有nvidia,还训练不出自己的大模型,反而大陆没有台积电没有nvidia,一堆大模型在降价互卷.
一方面严重缺乏电力,另一方面繁体资料少之又少。目前世界上简体中文的使用者远远多于繁体中文,这是客观现象,不是喊口号就能改变的😅
俩代工厂还能飞上天吗,他们做的不过是电脑硬件的一部分产品,ai是算力是数据也是软件生态的集合体,井里有这些吗,搞笑
😂讲的多,做的少。它们当地电视台比我们中央台还会吹。感觉世界中心在臺湾。😂
長期以來中文發音打字好像都以簡體字發音為準許多發音與繁體不同或音同意不同,造成有些字難直接呈現,打個“賊”字都要先打盜字後面才會出現“賊”字,莫非連“賊”字都是中共敏感辭,或他們的發音打結的。
台灣有優勢在於沒有敏感詞,而中國有敏感詞。
所以,台灣的大語言模型可以說只要教育部願意,基本上很多問題很好解決。
台灣有沒有大語言模型組成能力? 基本上是沒有的。
只能依靠OpenAI或Claude,因為我實測Gemini被簡體中文訓練的太過了。
而OpenAI其實算是好訓練的,就看國家怎麼處理了,如果硬體好,軟體跟不上也是白講。
既然要當AI中心,台灣的AI軟實力也要跟得上才能真正算是AI中心,不然都是空談。
😂大陆哪里有那么多敏感词。估计是你们发音不同吧。大陆拼音zei只有贼一个常用字。大陆论坛是为了方便管理,把容易被监管的内容和谐掉。但在百度搜寻大多还是能搜到的。毕竟大陆不是选票民主。选票民主需要❤各自粉丝极端化,互相斗争,才能团结基本盘保住选票。大陆讲究的是和谐,搁置争议,团结做实事,在实际事务中解决困难和分歧。
用拼音?打 zéi 就有贼啦😂
無論簡繁,中文是寫不出語言模型的。
你永遠無法教會AI辨認【白癡造句法】如【膽卻之不恭】及【英文的中譯】如【橋頓剛過橋】
有人懷疑我的話?能先請他教會AI正確唸出【昨天沈瓦把總統府給炸了!】?
我不知道這部片為啥要刪我的留言,正如我不了解這個胡說八道的陳某是如何升上副教授的,我知道台灣大學沉淪以久,但沒料到已由沉淪轉成沉腐到這種地步,台大幫就沒有任何還長著腦子的校友能出來說兩句?
可惜,台灣只會做電腦硬體製造代工,沒有軟體人才,要搞AI只能去抄中國囉。
加油!呆灣郎說日語不就好啦😂😂😂
分裂台灣.人民要花時間多學數種語言、在國際間無用、是國際.分化台灣團結的陰謀!
中文有很多缺點限制...沒有文法,辭彙不豐,單音節且發音域狹窄。台灣人要認真考慮盡快將英語成為主要語言。與世界緊密接軌。
繁體中文有文法,只是因為我們日常生活口語上不會這麼嚴謹,不止繁體中文有這個狀態
蛤 為什麼要放棄自己的語言 英文也很多缺點
支持英文和日文做為台灣官方語言。
赶紧❌吧,