編者按:這篇文章是香港科技大學校董會(hui) 主席、美國國家工程院外籍院士沈向洋(Harry Shum)在2024年9月5日開幕的2024年外灘大會(hui) 上的演講實錄。在題為(wei) 《大模型時代的機遇和挑戰——技術融合 產(chan) 業(ye) 躍遷》的演講中,沈向洋院士分享了他對算力、數據、大模型、以及AI Agent、AI 治理等話題的思考。
精彩觀點:
摩爾說我們(men) 18個(ge) 月漲一倍算力,現在GPU算力是一年漲四倍。如果18個(ge) 月隻是漲一倍,那麽(me) 十年下來大概上漲100倍。一年漲四倍,那麽(me) 十年下來就是100萬(wan) 倍。我再強調一遍,100萬(wan) 倍。
如果大家關(guan) 注大模型,都知道大模型整個(ge) 模型越來越大,參數量越來越大。所以算力要求,隨著參數的增長,實際上還不僅(jin) 僅(jin) 是線性增長,更加像是一個(ge) 平方向的增長。
真正做大模型的公司,如果你一萬(wan) 張卡都沒有,你就根本不要講自己是在幹大模型的公司了。
GPT-5出來的時候,到底會(hui) 用多少數據?我們(men) 現在隻能猜一猜,我猜大概會(hui) 是200個(ge) T的數據。
今天你要做通用大模型,那肯定至少是萬(wan) 張卡,而且再向前走,1萬(wan) 張A卡都不行了,要一萬(wan) 張H卡。行業(ye) 大模型需要千卡級別的資源。每家企業(ye) 要做企業(ye) 大模型,可能需要百卡訓練。
我覺得接下來,人工智能的發展很重要的一點,從(cong) 各個(ge) 國家、全球的角度來講,一定要做主權人工智能,所謂的Sovereign AI。主權人工智能背後一定需要有個(ge) 主權雲(yun) Sovereign cloud,來支持Sovereign AI的發展。
GPT-3出來了以後,大家講有個(ge) 東(dong) 西叫做智能,有個(ge) 東(dong) 西叫做智能湧現。但實際上,為(wei) 什麽(me) 湧現出來,什麽(me) 時候湧現出來,是什麽(me) 方式湧現出來,都是講不清楚的。
以下是“智能超參數”根據演講視頻整理而來的演講實錄,enjoy:
大家早上好,非常高興(xing) 又回到美麗(li) 的上海,跟大家一起分享一下最近在人工智能的科研方麵、產(chan) 業(ye) 方麵的一些心得和體(ti) 會(hui) 。今天我講的題目是《大模型時代的機遇和挑戰——技術融合 產(chan) 業(ye) 躍遷》。
我們(men) 今天大會(hui) 的主題是科技的發展和未來可持續發展。其實我們(men) 應該首先看一看人類曆史的發展。它實際上從(cong) 頭到尾就是一個(ge) 技術發展的曆史,推動了人類整體(ti) 發展。
如果我們(men) 聚焦到最近,就不要講以前發明的火、發明了輪子,那麽(me) 現在最近這些年的這樣的一個(ge) 發展,大家可以看得到整個(ge) 科研的發展,科技的發展的話,它實際上整體(ti) 是在加速的。剛才Kevin Kelly的三個(ge) 觀點裏麵也提到了一個(ge) 加速的發展。
現在這個(ge) 階段,今天我們(men) 在這裏,主要討論的實際上是人工智能的發展。人工智能的發展也非常有趣。就是剛才Michael講的,這樣一些跟人工智能有關(guan) 的字,Cybermetics、AI等。
最近這些年,對普羅大眾(zhong) 來講,大家對人工智能的理解,我覺得可能有三件事情是非常家喻戶曉的。第一個(ge) 事情當然就是ChatGPT,實際上是從(cong) 文生成文;第二個(ge) 實際上是 DALL-E,就是所謂的文生成圖;第三個(ge) 是 Sora,是文生成視頻。
很神奇的事情,這三件事情,首先都是由OpenAI這樣一個(ge) 初創公司首先推出來的。當然接下來很多公司在競爭(zheng) ,做非常類似的東(dong) 西。比如ChatGPT,我今天來外灘大會(hui) 來演講,沒有什麽(me) 思路,我就問問ChatGPT——我到外灘大會(hui) 來演講,到底應該講些什麽(me) 東(dong) 西?
今天早上我們(men) 香港科大謝源教授跟我講,今天晚上要不要一起看足球,中國對日本,我也問了問ChatGPT或者類似的一些產(chan) 品,說今天晚上中國對日本有沒有戲?現在這些人工智能可以回答得非常好,洋洋灑灑講了半天,大概率是沒啥希望,說不定還是可以爆冷的。
中間這個(ge) 例子,實際上我非常喜歡的。這是人類曆史上第一次一張人工智能生成的照片,成為(wei) 一張雜誌的封麵,有史以來第一次。也就兩(liang) 年前,有一個(ge) 數字藝術家Karen Cheng,用DALL-E係統,給了一段話提示符,說在浩瀚的星空中,一個(ge) 女宇航員在火星上昂首闊步走向一個(ge) 廣角鏡頭。那麽(me) 人工智能的這種生成能力,實際上已經相當驚人。更不要講今年早些時候出來的Sora文生視頻,可以生成 60秒鍾的高清視頻。
到了今天這個(ge) 時刻,我們(men) 應該怎麽(me) 樣去思考大模型,特別是對產(chan) 業(ye) 方麵,到底有什麽(me) 樣的一些深入影響?
前麵的演講者也都提到了,實際上整個(ge) 人工智能的發展,特別是過去這段時間深度學習(xi) 的發展,最重要的事情,實際上是三件事情——算法,算力、數據。我接下來跟大家分享一下最近這段時間自己的一些思考。
第一個(ge) 思考——算力是門檻。今天做大模型,做深度學習(xi) ,首先最重要的事情實際上你要有算力。這裏畫了一張圖。從(cong) 2010、2012年開始,包括Geoffrey Hinton的學生做AlexNet,從(cong) 那時候開始,所有這些大模型每年需要的算力是以一個(ge) 什麽(me) 樣的規模向前成長。
開始幾年的話,有六七倍的成長,最近這幾年穩定下來,大概每年有一個(ge) 四倍的成長。每年四倍的成長是什麽(me) 概念?大家平時不想這個(ge) 問題,我先留一個(ge) 題目給大家。你現在先想一想,待會(hui) 我再問你。每年漲四倍,十年漲幾倍?
算力這樣一個(ge) 增長,很重要的一件事情,就是今天大家要大模型。如果大家關(guan) 注大模型,都知道大模型整個(ge) 模型越來越大,參數量越來越大。所以算力要求,隨著參數的增長,實際上還不僅(jin) 僅(jin) 是線性增長,更加像是一個(ge) 平方向的增長。為(wei) 什麽(me) 呢?因為(wei) 模型大了以後,你還要有更多數據來去訓練大模型。所以整體(ti) 對算力的要求,過去這些年是非常非常的大。英偉(wei) 達股票之所以這樣高舉(ju) 不下,這是最重要的一個(ge) 原因。
這幾年我演講,講了一句話叫做——講卡傷(shang) 感情,沒卡沒感情。今天如果複旦的教授問校長,我是個(ge) 人才嗎?其實很簡單了,你就問校長給不給我100張卡。
你一定要去弄個(ge) 公司做大模型,不要說做大模型,(就是)做行業(ye) 模型,就要跟投資人講,你能保證給我錢買(mai) 1000張卡嗎。真正做大模型的公司,如果你一萬(wan) 張卡都沒有,你就根本不要講自己是在幹大模型的公司了。所以我就講——講卡傷(shang) 感情,沒卡沒感情。
但沒卡以後,沒錢以後最大的一個(ge) 問題是什麽(me) 呢?就是貧窮。以前講叫貧窮限製了我們(men) 的想象力,我覺得現在是貧窮扭曲了我們(men) 的想象力,就不敢去想這樣可以有突破性的一些問題。
講起卡,這個(ge) 必須要講一講整個(ge) 計算機芯片行業(ye) 的發展。從(cong) 原來的摩爾定律,已經變成了黃氏定律。以前CPU的增長,大家都知道英特爾非常了不起。摩爾說我們(men) 18個(ge) 月漲一倍算力,現在GPU算力是一年漲四倍。如果18個(ge) 月隻是漲一倍,那麽(me) 十年下來大概也就是上漲100倍。一年漲四倍,那麽(me) 十年下來那就是100萬(wan) 倍。我再強調一遍,100萬(wan) 倍。
剛才王院士也講了,1000倍就是一個(ge) 什麽(me) 樣的進展。那麽(me) 100萬(wan) 倍是什麽(me) 樣一個(ge) 情況?為(wei) 什麽(me) 會(hui) 這樣呢?
這是我的第二個(ge) 思考,就是這裏麵數據的重要性。給大家看一個(ge) 關(guan) 於(yu) 數據的數據。GPT-3出來的時候,兩(liang) 個(ge) T的token。GBT-4的時候,從(cong) 外麵看到的數據,當時大概是 12個(ge) T左右的數據。那麽(me) 它後來還在不斷加數據,我們(men) 猜的話,現在GPT-4大概是20T的數據。
今天大家望穿秋水,天天在等GPT-5什麽(me) 時候會(hui) 出來?那麽(me) GPT-5出來的時候,到底會(hui) 用多少數據?我們(men) 現在隻能猜一猜,我猜大概會(hui) 是 200個(ge) T的數據。實際上你在互聯網上挖來挖去,挖不出200T的數據了。這200T的數據怎麽(me) 出來的?實際上你還要再想其他辦法。
當GPT-3出來的時候,GPT-4出來的時候,這個(ge) 給我的非常大的震撼,實際上是好像我們(men) 互聯網40年,天天大家急急忙忙的,今天寫(xie) 個(ge) 網站,明天弄個(ge) 東(dong) 西搬到網上去,激動的不得了。首先是(數據)被Google利用了,弄來做搜索。然後今天再想想,可能最主要的是積累了這個(ge) 東(dong) 西,就是用來做ChatGPT,就是為(wei) 了這樣一個(ge) AI的時刻。
做到今天了,下一步到底要幹什麽(me) ?我講就是非常清晰的,就是這樣一條思路,特別是最近DALL-E、Sora實際上也給大家指明了一個(ge) 方向。就是從(cong) 原來的語言模型、文本,接下來要做多模態,我們(men) 仔細做computer vision的同學們(men) ,就有用武之地了。
未來再向前走,Sora模型雖然做的非常好了,大家也可以看得到,實際上這樣一個(ge) 多模態Sora模型,它還不是那麽(me) 強大。實際上這裏麵的物理性質是不能保證的,做不到世界模型。未來肯定是要往具身智能走,一定要往機器人走。機器人這件事情,當然這裏麵的一個(ge) 特別的形態,實際上就是自動駕駛。
技術上來講,肯定是要走一條生成和理解綜合起來的一條道路,這樣一個(ge) AGI。當然大家有不同的看法,比如(王)小川,一直覺得不需要視頻,不需要視覺,也是有希望走向AGI的。
這裏就介紹一下我幾個(ge) 學生做的一個(ge) 公司階躍星辰,這樣一個(ge) 多模態可能是今年大模型公司裏麵做的最好的一個(ge) 多模態的工作了。
今天不舉(ju) 其他例子,就講一個(ge) 最左邊這個(ge) 例子。比如,你把一張圖上傳(chuan) 到躍問這個(ge) APP上麵去,你問他為(wei) 什麽(me) 圖中這個(ge) 行為(wei) 被稱之為(wei) 無效技能?你看一下也搞不清楚為(wei) 什麽(me) 叫無效技能。這個(ge) APP會(hui) 告訴你,為(wei) 什麽(me) 叫無效技能呢?因為(wei) 小朋友躺在街上打滾,他媽媽無動於(yu) 衷,一直繼續看手機,所以小孩這個(ge) 技能叫做無效技能。當然視頻分析現在也可以做的很好,圖片分析都可以做的很好。
第四個(ge) 思考,毫無疑問大模型現在隻是對整個(ge) 行業(ye) 的影響,剛才王院士也講到了,AI+有很多很多機會(hui) 。
那麽(me) 我再回到對算力的需求。今天你要做通用大模型,那肯定至少是萬(wan) 張卡,而且再向前走,1萬(wan) 張A卡都不行了,要一萬(wan) 張H卡。行業(ye) 大模型需要千卡級別的資源。自己一家公司,每家企業(ye) 要做企業(ye) 大模型,可能需要百卡訓練。
但是我自己特別激動人心的事情,實際上是個(ge) 人大模型。現在像聯想、微軟在推的AIPC,蘋果所謂的apple intelligence,都是朝著personal intelligence這個(ge) 方向向前發展。
這裏我給大家分享一個(ge) 數據,到7月底,中國備案大模型一共是197個(ge) 。197個(ge) 備案的大模型裏麵,可以看得到,大概是30%是通用大模型,70%是行業(ye) 大模型,未來肯定是越來越多的行業(ye) 大模型。
這裏我簡單給大家看一個(ge) 例子。這個(ge) 是財躍公司做的一個(ge) “財躍”大模型,可以對整個(ge) 金融行業(ye) 進行一個(ge) 分析。比如說英偉(wei) 達的財報出來了,然後很快可以做出一些非常好的結果。
第五個(ge) 分享,大家都在講大模型出來,人工智能時代真正了不起的超級應用是什麽(me) ?實際上超級應用一直存在,就是大家幹不出來。實際上,超級應用就是AI Agent。
ChatGPT雖然很了不起,很強大,但是還遠遠沒有到agent的一個(ge) 地步。整個(ge) agent這件事情,實際上是把人的生產(chan) 力提高到了一個(ge) 非常大的高度。從(cong) 進來到出去,整個(ge) 一個(ge) 工作。
今天大家都知道,在公司裏麵,工作上整個(ge) 工作流是非常之複雜的。GPT到今天,基本上還是相對比較單點的突破。真正向前走的話,要把整個(ge) 工作流弄起來。今天時間關(guan) 係,我就不展開講了,就是你要把這個(ge) 行業(ye) 進行一個(ge) 分析,從(cong) 大模型應用框架,到平台,到知識技能、任務、對話全部要接起來,才可以做到這樣的結果。
這是非常簡單的一個(ge) 例子,比如說讓AI顧問為(wei) 您定製健康美麗(li) 方案。
演示視頻對話內(nei) 容:
“您好,我是您的健康美麗(li) 顧問,非常高興(xing) 為(wei) 您服務。請告訴我您的需求,我將為(wei) 您量身定製個(ge) 性化的方案,祝你煥發自信和活力。
給我推薦一個(ge) 好用的洗麵奶吧。
當然可以。在為(wei) 您推薦洗麵奶之前,我想了解一下您的年齡、性別和膚質,這樣我才能更準確的為(wei) 您推薦適合您的產(chan) 品。
我是混合幹皮。
小西馬上幫您進行查詢,了解了您的膚質,我可以為(wei) 您推薦一款適合混合幹皮膚的洗麵奶,佰草集淨透保濕潔麵乳。這款洗麵奶采用氨基酸型潔麵配方,溫和清潔肌膚。”
我想大家都看到了,剛才這個(ge) 視頻裏麵,真正做到這樣一個(ge) 虛擬員工,這樣一個(ge) 工作流,你要把整個(ge) 技能、數據庫跟你公司的所有數據打通,配以底層大模型,可以做出很了不起的事情。在應用方麵,我對很多中國公司接下來的發展是充滿信心的。
第六點,實際上就回到,WAIC世界人工智能大會(hui) 今年的主題,就是AI治理這件事情。這個(ge) 事情非常重要,而且每個(ge) 國家對這件事情看法也很不一樣。這件事情,AI對民眾(zhong) 的衝(chong) 擊,公司的衝(chong) 擊,政府監管的衝(chong) 擊,社會(hui) 發展的衝(chong) 擊,現在大家都在擔心。比如講美大選,人工智能對大選產(chan) 生一些影響,會(hui) 不會(hui) 有人用人工智能的一些技術去操縱大選的一些結果。它的確是非常的困難。
今年7月5號的時候,我有幸跟三個(ge) 圖靈將得主,包括我的導師羅傑·瑞迪(Raj Reddy),曼紐爾·布盧姆(Manuel Blum),還有姚期智先生一起討論這樣一個(ge) 問題。特別是今天,剛才王院士前麵講到阿裏雲(yun) ,就是基礎設施,我也非常讚同。
我覺得接下來,人工智能的發展很重要的一點,從(cong) 各個(ge) 國家、全球的角度來講,一定要做主權人工智能,所謂的Sovereign AI。主權人工智能背後一定需要有個(ge) 主權雲(yun) Sovereign cloud,來支持Sovereign AI的發展。
時間已經差不多了,所以我很快把最後兩(liang) 點跟大家分享一下。
大家很激動地講大模型這件事情,但我想問一個(ge) 問題,GPT給我們(men) 帶來的衝(chong) 擊,有多少是人機交互的震撼,還有多少到底是機器智能的發展?大家好像覺得是機器智能的發展。我想感謝Michael,剛才提到IA這個(ge) 詞,讓我不必再解釋了。
約翰·馬可夫(John Markoff),原來紐約時報的專(zhuan) 欄作家,寫(xie) 了一本非常好的書(shu) 叫《machines of loving Grace》(注:國內(nei) 叫做《與(yu) 機器人共舞》),梳理了過去50年計算機科學發展的兩(liang) 條主線。
一條主線就是AI,Artificial intelligence,是我導師的導師約翰·麥卡錫(John McCarthy)創造了這個(ge) 詞。第二個(ge) 就是IA這條線,就是這幫做UI的人講的,這個(ge) 世界最重要的事情是智能增強intelligence augmentation。
如果你沿著這條道路想,實際上我們(men) 過去這幾十年的進展,主要是人機交互裏麵的一個(ge) 突破。而且你要去想,人工智能這件事情,相當長的時間它還是一個(ge) 工具。那這樣想的話,你就可以看得到過去這四五十年的話,整個(ge) 行業(ye) 的進展。
原來圖形用戶界麵出來一個(ge) 了不起的東(dong) 西,叫做windows,產(chan) 生了一家偉(wei) 大的公司叫微軟。互聯網時代來了,出來一個(ge) 東(dong) 西叫搜索,出來一家公司叫穀歌,然後就到了移動互聯網,現在到了AI時代了,它的人機交互最本質的是什麽(me) ?最本質的是對話,就像ChatGPT這樣。那麽(me) ChatGPT加上微軟會(hui) 不會(hui) 成為(wei) AI時代最偉(wei) 大的公司?我想隻有時間才能夠驗證。
最後我也想鼓勵大家研究,雖然GPT已經弄得如火如荼了,大家都等著GPT-5出來,說不定哪天還有GPT-6。實際上,我們(men) 應該從(cong) 做學問的角度,回過頭來再想想,實際上今天對智能的理解還是非常非常有限,這個(ge) 跟物理學真的是非常不一樣。
我們(men) 念物理的話,上到浩瀚的星空,下到微小的量子,希望弄一個(ge) 大一統的理論能夠解釋。但是今天深度學習(xi) ,雖然係統做的好像很像模像樣,但是大多數東(dong) 西不可以解釋,也不是很魯棒。GPT-3出來了以後,大家就講有個(ge) 東(dong) 西叫做智能,有個(ge) 東(dong) 西叫做智能湧現。但實際上,為(wei) 什麽(me) 湧現出來,什麽(me) 時候湧現出來,是什麽(me) 方式湧現出來,都是講不清楚的。
去年,我在廈門科技大學聚集了一批海內(nei) 外的一些計算機科學家,特別是一些數學非常好的科研人員,大家一起討論,要深刻討論湧現智能背後的數據原理到底是什麽(me) 。
實際上今天人工智能的發展,還在一個(ge) 相對比較早期的階段,但是行業(ye) 上已經有很多應用,我們(men) 真的下定決(jue) 心去做了,特別是有王堅院士弄的基礎設施在後麵加持,我對未來發展充滿信心。
謝謝大家。