潘毅：大模型的優(yōu)勢和挑戰(zhàn)

xinfeng335 今天 85

默認

摘要： 專題：第25屆中國國際高新技術(shù)成果交易會_中國高新技術(shù)論壇　　中國高新技術(shù)論壇于11月15日-17日舉行。深圳理工大學(xué)計算機科學(xué)與控制工程院創(chuàng)院院長、中科院深圳先進院首席科學(xué)家...

專題：第25屆中國國際高新技術(shù)成果交易會_中國高新技術(shù)論壇

（圖片來源網(wǎng)絡(luò)，侵刪）

　　中國高新技術(shù)論壇于11月15日-17日舉行。深圳理工大學(xué)計算機科學(xué)與控制工程院創(chuàng)院院長、中科院深圳先進院首席科學(xué)家、美國醫(yī)學(xué)與生物工程院院士、俄羅斯工程院外籍院士、歐洲科學(xué)與藝術(shù)院院士潘毅出席并演講。?

　　以下為演講實錄：

　　謝謝王老師的介紹，各位老總，各位朋友們，大家好！

　　今天我介紹的就是AIGC，大家知道AIGC這個領(lǐng)域自從有了ChatGPT以后非?；穑覀兘榻B一下我在這里面做的工作。昨天李彥宏在西麗湖論壇講到一個問題，現(xiàn)在是模型太多，應(yīng)用太少，我也這么認為，所以我今天講的就是我們做的應(yīng)用，但是我們做的應(yīng)用是在ChatGPT以前就做，所以不是吹牛，是追趕潮流。我來介紹一下，當前ChatGPT是一個程序，是AIGC里面的一個東西，現(xiàn)在我們用AIGC來產(chǎn)生音樂、圖像都很好，當然我們也有很多大模型，特別是meta的模型都不錯，大家都在用。有些公司用LLAMA。我覺得這是操作模型，我們用模型沒關(guān)系，把自己的應(yīng)用做得好才是標準。

　　我講一下AIGC的問題，原來人工智能只能做1和0的區(qū)別，AIGC突然可以產(chǎn)生內(nèi)容了，老百姓用得更好，寫一個文本確實非常好，也可以搞電影，搞音樂，甚至產(chǎn)生話語，這是改革性的革命，非常好，所以我們現(xiàn)在的大模型很多，每個公司都在搞，包括清華的唐杰的模型也不錯，但是我沒有測試過他的模型，是否跟ChatGPT一樣，我不清楚。昨天李彥宏說要支持大模型，要去用文心一言，我覺得對，只是去用才能鑒別哪個好，哪個不好，我們現(xiàn)在用的是Open AI的ChatGPT為主的模型。

　　華為的云大模型也是這樣的情況，里面包括很多模塊，它也是底層邏輯加上上面的行業(yè)邏輯，再加上應(yīng)用邏輯，我今天要講的是有了底層邏輯與行業(yè)邏輯，比如農(nóng)業(yè)和醫(yī)療里面，醫(yī)療里面還有場景，我們要怎么樣去做。在一月份的時候，ChatGPT出來的時候，有一個對我的訪，我當初就說ChatGPT肯定是太消耗CPU了，今后的可能性一定是專有的GPT，比如寫個詩歌，你就把李白、杜甫的詩歌放進去產(chǎn)生的新詩歌。我和黃旭東在新加坡討論，他給我一個例子，他說專用GPT很好，但是有缺點，比如LawGPT是法律的，涉及到醫(yī)療還需要配合BioGPT。律師找相關(guān)資料需要用LawGPT和BioGPT。我平時用自己的LawGPT，需要的時候出去用ChatGPT調(diào)用一下資料，問題導(dǎo)回來以后再用lawGPT，可以省錢。他的意思就是一個臭皮匠合成諸葛亮的概念，這個概念很好，文心一言做不好的地方，可以到別的地方調(diào)用信息來做，這是一個方法。??? 最近美國有一個4歲的孩子，看了很多的醫(yī)生，17個醫(yī)生看不懂一個病，ChatGPT診斷以后出來了診斷。這個案例告訴我們，ChatGPT有一個功能，但是一定要有一個檢查功能，以后我們問題產(chǎn)生后，我們要有一個檢查功能，比如說最近美國有一個法律的律師的證據(jù)是的，我們要一個輔助工具幫助，我們醫(yī)生是ABCD六種疾病，ChatGPT判斷出第七種，醫(yī)生要去檢查是否是真的?，F(xiàn)在哈佛有一個實驗，ChatGPT給出的癌癥治療建議有62%還是比較不錯的，也就是說ChatGPT還是給出建議，哪怕有50%有錯誤，人工進行檢查之后還可以用，但是不能百分之百的信賴，它的東西還是有錯誤的。這里面是具體的數(shù)據(jù)，60%是怎么得來的，很多東西還是比較準的，請看這個表。比如哪個時候吃藥、休息等等。

　　大模型有很多優(yōu)勢也有很多挑戰(zhàn)，我最近提出一個問題，人工智能的挑戰(zhàn)在哪里呢？除了算法、算力、數(shù)據(jù)三駕馬車，我又加了三個，叫賦知識識、可解釋、低能耗，為什么叫賦知識？就是我在能源上用的AI和醫(yī)療不一樣，你不懂醫(yī)療就做不好，所以大模型只是一個框架，一定要在行業(yè)和領(lǐng)域用得好。我今天舉兩個例子，我們把我們做的工作給大家介紹一下。我們BIOTECH里面的生成式內(nèi)容有數(shù)據(jù)恢復(fù)、信息學(xué)、文獻摘要、創(chuàng)新藥設(shè)計等等。我現(xiàn)在用了兩個例子，比如說文獻摘要，你把這個文章灌進去以后，它給你產(chǎn)生的內(nèi)容給你記錄。創(chuàng)新藥我舉一個例子，我今天講的是這么一個故事，我們做了一個自閉癥的語言模型的向量庫的系統(tǒng)，底下是LLM，模型是別人的，我們在應(yīng)用。比如一個自閉癥的家長問一個問題，醫(yī)生的知識是有限的，比如問他自閉癥是父母產(chǎn)生的嗎，自閉癥跟家族有關(guān)系嗎，是哪一年產(chǎn)生的？ChatGPT都可以回答。我們做了一個什么系統(tǒng)呢？因為ChatGPT有一些胡說八道的問題，我們用專業(yè)只是的文章，我們不看別的文本，我們輸入一百篇專業(yè)知識有關(guān)聯(lián)的自閉癥的文章，我們這個系統(tǒng)做出來以后，回答出來的東西就比較準確，也就是說它要么回答不出來，當然說不知道。還有可能就回答出來基本上準的，因為它是一百篇文章搜集出來的東西。當然也有缺點，缺點就是知識面局限，只有這一百篇文章。ChatGPT的文獻是幾十萬的文獻進去的，它都有各自的問題，我們下一步要做的就是看看我們的系統(tǒng)和ChatGPT究竟好還是不好，這個質(zhì)量很難判斷，比如我有一個系統(tǒng)產(chǎn)生一個答案，ChatGPT產(chǎn)生的好，還是我們好，這是人類很難回答的問題，因為我們不能用數(shù)量來回答，因為這個是文字的，所以今后也可能用五個專家來評分，如果五個專家有四個認為好，我們就可以確定。我們最終是一百篇自閉癥的綜述、文件輸入進去，我們來訓(xùn)練。我們這個系統(tǒng)的好處是模型是別人的，我們只有一百篇論文，數(shù)量比較少，時間比較短，還是有優(yōu)點的，大家可以從這個意義上學(xué)一下，從這方面看還是有很多好的好處，至少時間訓(xùn)練少。

　　下面我要講的是一個藥。大家知道制藥是很費錢的，今后AI制藥，你看這個曲線，今后是AI制藥來預(yù)測藥和制造藥方面，AI制藥也是時間長，錢花得多等等。今天我要講的故事是用AIGC，就是ChatGPT出來以前我們已經(jīng)做的工作，我們用藥物數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫、疾病數(shù)據(jù)庫、集成數(shù)據(jù)庫等等產(chǎn)生藥，這就是我們的先進性，ChatGPT還沒有產(chǎn)生，我們已經(jīng)做了。大家設(shè)想一下，這個故事就是這樣，ChatGPT再造就是一個模型再造，我們的輸入的李白的詩歌產(chǎn)生一個新的詩歌，無非就是把老的詩歌打亂產(chǎn)生一個新詩歌，這個藥也是一樣。我們看看這個藥怎么做呢？我們用了深度學(xué)習(xí)等等，什么叫藥？藥實際上就是有一個靶標，有一個匹配的分子給它吻合，就是非常融合得好，這就是藥。再舉一個例子就是咬合點，蛋白的一個靶標，這個靶標是生物學(xué)家告訴你，藥就是把它怎么咬合，就是這樣找到這個藥。

　　這里面我舉一個例子，這個藥就是一個鑰匙，靶標有了，藥有了，我怎么找到這個鑰匙開這個鎖，這個鑰匙就是用生物做實驗，要做幾萬次、幾億次，一個一個去做太花時間，計算機怎么做？我就一個一個試，很快試出來，很快做好了，鑰匙找到了，生物學(xué)家就做實驗了。這個故事就是這樣，我們現(xiàn)在蛋白質(zhì)已經(jīng)有預(yù)測的結(jié)構(gòu)，AI設(shè)計的蛋白質(zhì)也已經(jīng)有很多的算法，怎么去設(shè)計AI算法。

　　我今天講三個故事，匹配的項目、作用、預(yù)測，也就是這個蛋白質(zhì)跟我的匹配，我們這篇文章就是我們的AI可以預(yù)測這個靶標和里面的關(guān)系預(yù)測，我們的文章牛，牛在哪兒？意思是我們質(zhì)量高，做好了以后，下面人家找不到的小分子，我們找到了，這個不具體講。接下來我講的是篩選藥，我們BIOTECH上面找到篩選的藥。還有是病毒的S蛋白和ACE2蛋白質(zhì)，我們用8888個小分子庫，進入以后，經(jīng)過我們的篩選以后減成5個，最后一個一個層次，每個軟件層次減少，什么叫減少呢？有沒有緊密，緊密了，我們放進去。有沒有穩(wěn)定性？什么叫穩(wěn)定性？就是它的能量很低，穩(wěn)定很好，放進去，能量很高，穩(wěn)定性不好就拋棄，最后找到5個。5個以后就做生物試驗，兩個紅的是最后成功了，就是生物試驗告訴我們這兩個緊密合作，也就是說AI起的作用是原來8888個要做幾年，要花費幾億才能找到這兩個，現(xiàn)在AI馬上找到5個，做出兩個就成功，這個就是我們要做的工作。

　　下面我來講講小分子問題，我們知道如說這是一個ChatGPT，詩歌進去產(chǎn)生新的詩歌，同樣的內(nèi)容呢？想想別人的小分子已經(jīng)找到了，癌癥有關(guān)小分子，我把它打亂，把它小分子弄成一段一段小的，把它輸入進去以后產(chǎn)生新的小分子，新的小分子有可能是更好的藥，李白的詩歌進去產(chǎn)生詩歌，當然有可能是臭的詩歌，比他差，當然也是一個新型的詩歌，也不錯。我們的藥也是一樣，老的進去打亂產(chǎn)生新的藥，這就是小分子設(shè)計的概念。這個工作我們在2021年做了，在2022年發(fā)表了文章，是在ChatGPT以前恩。大家可以看到這個關(guān)鍵就是小分子進去產(chǎn)生新的小分子，新的小分子也有可能產(chǎn)生新的藥，所以我們用了三個概念，三篇文章，這三篇文章都是2022年發(fā)表的，意味著ChatGPT還沒火，我們用AIGC，人工智能產(chǎn)生內(nèi)容，我們已經(jīng)產(chǎn)生新藥，設(shè)計藥。設(shè)計藥什么意思呢？這個概念就是把老藥打進去以后，我們始終在那兒轉(zhuǎn)，產(chǎn)生新的小分子，產(chǎn)生一萬個新的小分子，很可能都是舊的，但是這一萬個其中有兩個跟靶標契合，我們就成功了。也就是李白的詩歌進去了，產(chǎn)生一萬個詩歌，但是有一個詩歌王族喜歡，這個詩歌比李白更好，有一個詩歌李總認為更好，就夠了，我們的靶標無非就是有一個詩歌，有一個小分子跟靶標匹配就行了。我們最后發(fā)現(xiàn)有有的小分子產(chǎn)生確實生物試驗還是不錯，就是匹配得很好。當然一個藥匹配只是萬里長征的第一步，最后還要毒性等等，還要很多的系統(tǒng)做。

　　下面是多肽藥和小分子不一樣，它是比小分子大一點的藥，我們也可以把它一段一段放進去，就像詩歌把它弄成一個一個詞匯，詞匯弄進去打亂之后產(chǎn)生新的詞匯，就是新的詩歌。以后元宇宙可以讓我們所有的體外實驗、動物實驗、臨床實驗用數(shù)字來做，也許能更好。所以今天我講的人工智能生成內(nèi)容就是用在醫(yī)療上，第一個我產(chǎn)生的文本比ChatGPT有可能質(zhì)量高，但是計算量少得多，因為一百篇，當然今后有一千篇跟自閉癥有關(guān)的輸入。ChatGPT是輸入所有的東西，我是一百篇好的文章。第二是內(nèi)容生成，我進來是舊的小分子，我產(chǎn)生一個新的小分子，有可能產(chǎn)生新的藥，藥庫里面有四萬種藥，我產(chǎn)生一個新的小分子，有可能跟靶標匹配。

　　這就是我講的內(nèi)容，謝謝大家。

　　新浪聲明：所有會議實錄均為現(xiàn)場速記整理，未經(jīng)演講者審閱，新浪網(wǎng)登載此文出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其描述。

文章版權(quán)及轉(zhuǎn)載聲明

作者:xinfeng335本文地址：http://leetv.com.cn/post/4716.html發(fā)布于今天
文章轉(zhuǎn)載或復(fù)制請以超鏈接形式并注明出處義烏市挈宇網(wǎng)絡(luò)科技有限公司

打賞