浪潮信息董事長彭震：加速智算系統(tǒng)創(chuàng)新解決大模型算力難題

xinfeng335 今天 84

默認(rèn)

摘要： 在生成式人工智能蓬勃發(fā)展的背后，算力尤其是AI算力已經(jīng)成為驅(qū)動(dòng)大模型進(jìn)化的核心引擎。計(jì)算力就是生產(chǎn)力，智算力就是創(chuàng)新力，已經(jīng)成為產(chǎn)業(yè)共識(shí)?！按竽Ｐ蜁r(shí)代的算力供給，與云計(jì)算時(shí)代的算...

在生成式人工智能蓬勃發(fā)展的背后，算力尤其是AI算力已經(jīng)成為驅(qū)動(dòng)大模型進(jìn)化的核心引擎。計(jì)算力就是生產(chǎn)力，智算力就是創(chuàng)新力，已經(jīng)成為產(chǎn)業(yè)共識(shí)?！按竽Ｐ蜁r(shí)代的算力供給，與云計(jì)算時(shí)代的算力供給，存在很大的差異性?！崩顺毙畔⒍麻L彭震說。

彭震認(rèn)為，目前大模型研發(fā)已經(jīng)進(jìn)入萬卡時(shí)代，從事大模型研發(fā)的公司和團(tuán)隊(duì)，普遍面臨“買不起、建不了、算不好”的困局。為解決這一困局，需要以算力基建化改善算力供給，促進(jìn)算力普惠，以算力工程化指導(dǎo)完善算力系統(tǒng)最佳實(shí)踐，提升算力效率。

大模型，特別是千億參數(shù)級(jí)別對(duì)海量算力的消耗，往往需要少則幾億，多則數(shù)十億的IT基礎(chǔ)設(shè)施投資，急劇抬高了技術(shù)和資金準(zhǔn)入門檻。彭震表示，為解決這一困境，應(yīng)大力發(fā)展普適普惠的智算中心，通過算力基建化使得智算力成為城市的公共基礎(chǔ)，供用戶按需使用，發(fā)揮公共基礎(chǔ)設(shè)施的普惠價(jià)值。用戶可以選擇自建算力集群，或者是用智算中心提供的算力服務(wù)來完成大模型的開發(fā)。

通過大力發(fā)展智算中心新基建，中國和美國大模型產(chǎn)業(yè)的發(fā)展已經(jīng)呈現(xiàn)出完全不同的發(fā)展路徑。在美國，算力的私有化決定了大模型產(chǎn)業(yè)技術(shù)只能掌握在少數(shù)企業(yè)手中，而中國大力推動(dòng)的算力供給基建化，為大模型創(chuàng)新發(fā)展提供了一片沃土，將使得整個(gè)產(chǎn)業(yè)呈現(xiàn)“百模爭秀”的全新格局。

“即使解決了算力供應(yīng)的問題，通用大模型開發(fā)仍然是一項(xiàng)極其復(fù)雜的系統(tǒng)工程，如同F(xiàn)1賽車的調(diào)校一樣。F1賽車的性能非常高，但如何調(diào)校好這部賽車，對(duì)整個(gè)車隊(duì)的能力要求是非常高的。”彭震說。

大模型訓(xùn)練需要依靠規(guī)模龐大的AI算力系統(tǒng)，在較長時(shí)間內(nèi)完成海量的計(jì)算任務(wù)，化解大模型“建不了”難題，根源在于提升算力效率。算力效率越高，大模型的訓(xùn)練耗時(shí)越少，就能贏得更多時(shí)間窗口，也能降低成本。目前，大模型的訓(xùn)練集群效率普遍較低，像GPT3的集群訓(xùn)練效率只有23%，相當(dāng)于有超過四分之三的算力被浪費(fèi)了。

彭震表示，大模型不應(yīng)是簡單粗暴的“暴力計(jì)算”，算力系統(tǒng)構(gòu)建也不是算力的簡單堆積，而是一項(xiàng)復(fù)雜的系統(tǒng)工程，需要從多個(gè)方面進(jìn)行系統(tǒng)化的設(shè)計(jì)架構(gòu)。

一是要解決如何實(shí)現(xiàn)算力的高效率，它涉及系統(tǒng)的底層驅(qū)動(dòng)、系統(tǒng)層優(yōu)化，與大模型相適配的優(yōu)化；

二是要解決算力系統(tǒng)如何保持線性可擴(kuò)展，在單機(jī)上獲得較高算力效率之后，還需要能讓幾百個(gè)服務(wù)器節(jié)點(diǎn)、幾千塊卡的大規(guī)模集群環(huán)境的算力系統(tǒng)運(yùn)行效率，保持相對(duì)線性的性能擴(kuò)展比;

三是算力系統(tǒng)長效穩(wěn)定訓(xùn)練問題，大模型的訓(xùn)練周期長達(dá)數(shù)周甚至數(shù)月，普遍存在硬件故障導(dǎo)致訓(xùn)練中斷、梯度爆炸等小規(guī)模訓(xùn)練不會(huì)遇到的問題，工程實(shí)踐方面的缺乏導(dǎo)致企業(yè)難以在模型質(zhì)量上實(shí)現(xiàn)快速提升。

彭震介紹，系統(tǒng)建成后，大模型在訓(xùn)練過程中，由于開發(fā)鏈條冗長，還面臨“算不好”的挑戰(zhàn)。大模型訓(xùn)練不僅依賴高質(zhì)量數(shù)據(jù)，同時(shí)也要解決算法收斂、斷點(diǎn)續(xù)訓(xùn)、參數(shù)優(yōu)化、模型微調(diào)等問題，數(shù)據(jù)質(zhì)量、代碼調(diào)優(yōu)、執(zhí)行效率等關(guān)乎訓(xùn)練質(zhì)量的因素至關(guān)重要。這些問題解決不好，很難產(chǎn)生一個(gè)可商用的、高質(zhì)量的大模型產(chǎn)品。

彭震認(rèn)為，解決“算不好”難題，根本上要保障大模型訓(xùn)練的長時(shí)、高效、穩(wěn)定訓(xùn)練的問題。例如大模型訓(xùn)練過程的失效故障，大模型訓(xùn)練會(huì)因此中斷，不得不從最新的檢查點(diǎn)重新載入以繼續(xù)訓(xùn)練，這個(gè)問題在當(dāng)前是不可避免的。提高算力系統(tǒng)的可持續(xù)性，不僅需要更多機(jī)制上的設(shè)計(jì)，更依賴于大量自動(dòng)化、智能化的模型工具支撐。例如智算軟件棧OGAI，提供完善的工程化、自動(dòng)化工具軟件堆棧，幫助更多企業(yè)順利跨越大模型研發(fā)應(yīng)用門檻，充分釋放大模型創(chuàng)新生產(chǎn)力。

只有依賴不斷的創(chuàng)新，通過政策驅(qū)動(dòng)、應(yīng)用導(dǎo)向、產(chǎn)業(yè)構(gòu)建等多重手段相結(jié)合，不斷夯實(shí)大模型基礎(chǔ)能力和原始創(chuàng)新能力，才能切實(shí)有效的解決好大模型算力“買不起、建不了、算不好”的難題。

（文章來源：中國經(jīng)濟(jì)網(wǎng)）

文章版權(quán)及轉(zhuǎn)載聲明

作者:xinfeng335本文地址：http://leetv.com.cn/post/3419.html發(fā)布于今天
文章轉(zhuǎn)載或復(fù)制請(qǐng)以超鏈接形式并注明出處義烏市挈宇網(wǎng)絡(luò)科技有限公司

打賞