潘毅:大模型的優(yōu)勢和挑戰(zhàn)
專題:第25屆中國國際高新技術(shù)成果交易會_中國高新技術(shù)論壇
中國高新技術(shù)論壇于11月15日-17日舉行。深圳理工大學(xué)計算機科學(xué)與控制工程院創(chuàng)院院長、中科院深圳先進院首席科學(xué)家、美國醫(yī)學(xué)與生物工程院院士、俄羅斯工程院外籍院士、歐洲科學(xué)與藝術(shù)院院士潘毅出席并演講。?
以下為演講實錄:
謝謝王老師的介紹,各位老總,各位朋友們,大家好!
今天我介紹的就是AIGC,大家知道AIGC這個領(lǐng)域自從有了ChatGPT以后非?;穑覀兘榻B一下我在這里面做的工作。昨天李彥宏在西麗湖論壇講到一個問題,現(xiàn)在是模型太多,應(yīng)用太少,我也這么認為,所以我今天講的就是我們做的應(yīng)用,但是我們做的應(yīng)用是在ChatGPT以前就做,所以不是吹牛,是追趕潮流。我來介紹一下,當前ChatGPT是一個程序,是AIGC里面的一個東西,現(xiàn)在我們用AIGC來產(chǎn)生音樂、圖像都很好,當然我們也有很多大模型,特別是meta的模型都不錯,大家都在用。有些公司用LLAMA。我覺得這是操作模型,我們用模型沒關(guān)系,把自己的應(yīng)用做得好才是標準。
我講一下AIGC的問題,原來人工智能只能做1和0的區(qū)別,AIGC突然可以產(chǎn)生內(nèi)容了,老百姓用得更好,寫一個文本確實非常好,也可以搞電影,搞音樂,甚至產(chǎn)生話語,這是改革性的革命,非常好,所以我們現(xiàn)在的大模型很多,每個公司都在搞,包括清華的唐杰的模型也不錯,但是我沒有測試過他的模型,是否跟ChatGPT一樣,我不清楚。昨天李彥宏說要支持大模型,要去用文心一言,我覺得對,只是去用才能鑒別哪個好,哪個不好,我們現(xiàn)在用的是Open AI的ChatGPT為主的模型。
華為的云大模型也是這樣的情況,里面包括很多模塊,它也是底層邏輯加上上面的行業(yè)邏輯,再加上應(yīng)用邏輯,我今天要講的是有了底層邏輯與行業(yè)邏輯,比如農(nóng)業(yè)和醫(yī)療里面,醫(yī)療里面還有場景,我們要怎么樣去做。在一月份的時候,ChatGPT出來的時候,有一個對我的訪,我當初就說ChatGPT肯定是太消耗CPU了,今后的可能性一定是專有的GPT,比如寫個詩歌,你就把李白、杜甫的詩歌放進去產(chǎn)生的新詩歌。我和黃旭東在新加坡討論,他給我一個例子,他說專用GPT很好,但是有缺點,比如LawGPT是法律的,涉及到醫(yī)療還需要配合BioGPT。律師找相關(guān)資料需要用LawGPT和BioGPT。我平時用自己的LawGPT,需要的時候出去用ChatGPT調(diào)用一下資料,問題導(dǎo)回來以后再用lawGPT,可以省錢。他的意思就是一個臭皮匠合成諸葛亮的概念,這個概念很好,文心一言做不好的地方,可以到別的地方調(diào)用信息來做,這是一個方法。??? 最近美國有一個4歲的孩子,看了很多的醫(yī)生,17個醫(yī)生看不懂一個病,ChatGPT診斷以后出來了診斷。這個案例告訴我們,ChatGPT有一個功能,但是一定要有一個檢查功能,以后我們問題產(chǎn)生后,我們要有一個檢查功能,比如說最近美國有一個法律的律師的證據(jù)是的,我們要一個輔助工具幫助,我們醫(yī)生是ABCD六種疾病,ChatGPT判斷出第七種,醫(yī)生要去檢查是否是真的?,F(xiàn)在哈佛有一個實驗,ChatGPT給出的癌癥治療建議有62%還是比較不錯的,也就是說ChatGPT還是給出建議,哪怕有50%有錯誤,人工進行檢查之后還可以用,但是不能百分之百的信賴,它的東西還是有錯誤的。這里面是具體的數(shù)據(jù),60%是怎么得來的,很多東西還是比較準的,請看這個表。比如哪個時候吃藥、休息等等。
大模型有很多優(yōu)勢也有很多挑戰(zhàn),我最近提出一個問題,人工智能的挑戰(zhàn)在哪里呢?除了算法、算力、數(shù)據(jù)三駕馬車,我又加了三個,叫賦知識識、可解釋、低能耗,為什么叫賦知識?就是我在能源上用的AI和醫(yī)療不一樣,你不懂醫(yī)療就做不好,所以大模型只是一個框架,一定要在行業(yè)和領(lǐng)域用得好。我今天舉兩個例子,我們把我們做的工作給大家介紹一下。我們BIOTECH里面的生成式內(nèi)容有數(shù)據(jù)恢復(fù)、信息學(xué)、文獻摘要、創(chuàng)新藥設(shè)計等等。我現(xiàn)在用了兩個例子,比如說文獻摘要,你把這個文章灌進去以后,它給你產(chǎn)生的內(nèi)容給你記錄。創(chuàng)新藥我舉一個例子,我今天講的是這么一個故事,我們做了一個自閉癥的語言模型的向量庫的系統(tǒng),底下是LLM,模型是別人的,我們在應(yīng)用。比如一個自閉癥的家長問一個問題,醫(yī)生的知識是有限的,比如問他自閉癥是父母產(chǎn)生的嗎,自閉癥跟家族有關(guān)系嗎,是哪一年產(chǎn)生的?ChatGPT都可以回答。我們做了一個什么系統(tǒng)呢?因為ChatGPT有一些胡說八道的問題,我們用專業(yè)只是的文章,我們不看別的文本,我們輸入一百篇專業(yè)知識有關(guān)聯(lián)的自閉癥的文章,我們這個系統(tǒng)做出來以后,回答出來的東西就比較準確,也就是說它要么回答不出來,當然說不知道。還有可能就回答出來基本上準的,因為它是一百篇文章搜集出來的東西。當然也有缺點,缺點就是知識面局限,只有這一百篇文章。ChatGPT的文獻是幾十萬的文獻進去的,它都有各自的問題,我們下一步要做的就是看看我們的系統(tǒng)和ChatGPT究竟好還是不好,這個質(zhì)量很難判斷,比如我有一個系統(tǒng)產(chǎn)生一個答案,ChatGPT產(chǎn)生的好,還是我們好,這是人類很難回答的問題,因為我們不能用數(shù)量來回答,因為這個是文字的,所以今后也可能用五個專家來評分,如果五個專家有四個認為好,我們就可以確定。我們最終是一百篇自閉癥的綜述、文件輸入進去,我們來訓(xùn)練。我們這個系統(tǒng)的好處是模型是別人的,我們只有一百篇論文,數(shù)量比較少,時間比較短,還是有優(yōu)點的,大家可以從這個意義上學(xué)一下,從這方面看還是有很多好的好處,至少時間訓(xùn)練少。
下面我要講的是一個藥。大家知道制藥是很費錢的,今后AI制藥,你看這個曲線,今后是AI制藥來預(yù)測藥和制造藥方面,AI制藥也是時間長,錢花得多等等。今天我要講的故事是用AIGC,就是ChatGPT出來以前我們已經(jīng)做的工作,我們用藥物數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫、疾病數(shù)據(jù)庫、集成數(shù)據(jù)庫等等產(chǎn)生藥,這就是我們的先進性,ChatGPT還沒有產(chǎn)生,我們已經(jīng)做了。大家設(shè)想一下,這個故事就是這樣,ChatGPT再造就是一個模型再造,我們的輸入的李白的詩歌產(chǎn)生一個新的詩歌,無非就是把老的詩歌打亂產(chǎn)生一個新詩歌,這個藥也是一樣。我們看看這個藥怎么做呢?我們用了深度學(xué)習(xí)等等,什么叫藥?藥實際上就是有一個靶標,有一個匹配的分子給它吻合,就是非常融合得好,這就是藥。再舉一個例子就是咬合點,蛋白的一個靶標,這個靶標是生物學(xué)家告訴你,藥就是把它怎么咬合,就是這樣找到這個藥。
這里面我舉一個例子,這個藥就是一個鑰匙,靶標有了,藥有了,我怎么找到這個鑰匙開這個鎖,這個鑰匙就是用生物做實驗,要做幾萬次、幾億次,一個一個去做太花時間,計算機怎么做?我就一個一個試,很快試出來,很快做好了,鑰匙找到了,生物學(xué)家就做實驗了。這個故事就是這樣,我們現(xiàn)在蛋白質(zhì)已經(jīng)有預(yù)測的結(jié)構(gòu),AI設(shè)計的蛋白質(zhì)也已經(jīng)有很多的算法,怎么去設(shè)計AI算法。
我今天講三個故事,匹配的項目、作用、預(yù)測,也就是這個蛋白質(zhì)跟我的匹配,我們這篇文章就是我們的AI可以預(yù)測這個靶標和里面的關(guān)系預(yù)測,我們的文章牛,牛在哪兒?意思是我們質(zhì)量高,做好了以后,下面人家找不到的小分子,我們找到了,這個不具體講。接下來我講的是篩選藥,我們BIOTECH上面找到篩選的藥。還有是病毒的S蛋白和ACE2蛋白質(zhì),我們用8888個小分子庫,進入以后,經(jīng)過我們的篩選以后減成5個,最后一個一個層次,每個軟件層次減少,什么叫減少呢?有沒有緊密,緊密了,我們放進去。有沒有穩(wěn)定性?什么叫穩(wěn)定性?就是它的能量很低,穩(wěn)定很好,放進去,能量很高,穩(wěn)定性不好就拋棄,最后找到5個。5個以后就做生物試驗,兩個紅的是最后成功了,就是生物試驗告訴我們這兩個緊密合作,也就是說AI起的作用是原來8888個要做幾年,要花費幾億才能找到這兩個,現(xiàn)在AI馬上找到5個,做出兩個就成功,這個就是我們要做的工作。
下面我來講講小分子問題,我們知道如說這是一個ChatGPT,詩歌進去產(chǎn)生新的詩歌,同樣的內(nèi)容呢?想想別人的小分子已經(jīng)找到了,癌癥有關(guān)小分子,我把它打亂,把它小分子弄成一段一段小的,把它輸入進去以后產(chǎn)生新的小分子,新的小分子有可能是更好的藥,李白的詩歌進去產(chǎn)生詩歌,當然有可能是臭的詩歌,比他差,當然也是一個新型的詩歌,也不錯。我們的藥也是一樣,老的進去打亂產(chǎn)生新的藥,這就是小分子設(shè)計的概念。這個工作我們在2021年做了,在2022年發(fā)表了文章,是在ChatGPT以前恩。大家可以看到這個關(guān)鍵就是小分子進去產(chǎn)生新的小分子,新的小分子也有可能產(chǎn)生新的藥,所以我們用了三個概念,三篇文章,這三篇文章都是2022年發(fā)表的,意味著ChatGPT還沒火,我們用AIGC,人工智能產(chǎn)生內(nèi)容,我們已經(jīng)產(chǎn)生新藥,設(shè)計藥。設(shè)計藥什么意思呢?這個概念就是把老藥打進去以后,我們始終在那兒轉(zhuǎn),產(chǎn)生新的小分子,產(chǎn)生一萬個新的小分子,很可能都是舊的,但是這一萬個其中有兩個跟靶標契合,我們就成功了。也就是李白的詩歌進去了,產(chǎn)生一萬個詩歌,但是有一個詩歌王族喜歡,這個詩歌比李白更好,有一個詩歌李總認為更好,就夠了,我們的靶標無非就是有一個詩歌,有一個小分子跟靶標匹配就行了。我們最后發(fā)現(xiàn)有有的小分子產(chǎn)生確實生物試驗還是不錯,就是匹配得很好。當然一個藥匹配只是萬里長征的第一步,最后還要毒性等等,還要很多的系統(tǒng)做。
下面是多肽藥和小分子不一樣,它是比小分子大一點的藥,我們也可以把它一段一段放進去,就像詩歌把它弄成一個一個詞匯,詞匯弄進去打亂之后產(chǎn)生新的詞匯,就是新的詩歌。以后元宇宙可以讓我們所有的體外實驗、動物實驗、臨床實驗用數(shù)字來做,也許能更好。所以今天我講的人工智能生成內(nèi)容就是用在醫(yī)療上,第一個我產(chǎn)生的文本比ChatGPT有可能質(zhì)量高,但是計算量少得多,因為一百篇,當然今后有一千篇跟自閉癥有關(guān)的輸入。ChatGPT是輸入所有的東西,我是一百篇好的文章。第二是內(nèi)容生成,我進來是舊的小分子,我產(chǎn)生一個新的小分子,有可能產(chǎn)生新的藥,藥庫里面有四萬種藥,我產(chǎn)生一個新的小分子,有可能跟靶標匹配。
這就是我講的內(nèi)容,謝謝大家。
新浪聲明:所有會議實錄均為現(xiàn)場速記整理,未經(jīng)演講者審閱,新浪網(wǎng)登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。
作者:xinfeng335本文地址:http://leetv.com.cn/post/4716.html發(fā)布于 今天
文章轉(zhuǎn)載或復(fù)制請以超鏈接形式并注明出處義烏市挈宇網(wǎng)絡(luò)科技有限公司