大模型的出現(xiàn)催生了對大算力的需求,端到端開放解耦智算方案是產(chǎn)業(yè)良性發(fā)展的關(guān)鍵。中興通訊一直致力于成為端到端開放解耦智算方案提供商,加速AI技術(shù)的創(chuàng)新、研發(fā)、應(yīng)用的商業(yè)化進(jìn)程,努力與產(chǎn)業(yè)伙伴共同實(shí)現(xiàn)共贏的商業(yè)生態(tài)。近日,《通信產(chǎn)業(yè)報(bào)》全媒體采訪中興通訊副總裁陳新宇,探討了中興通訊如何應(yīng)對挑戰(zhàn),助力大模型發(fā)展與應(yīng)用的實(shí)踐和經(jīng)驗(yàn)。
《通信產(chǎn)業(yè)報(bào)》:中興通訊在端到端開放解耦智算方案方面,做了哪些工作和取得怎樣的成果。
陳新宇:中興通訊秉承開放解耦的理念,發(fā)揮中興軟件、硬件和工程能力優(yōu)勢,攜手合作伙伴構(gòu)建多渠道供應(yīng)鏈,通過硬件、軟件和能力平臺(tái)三個(gè)方面的創(chuàng)新,為用戶提供端到端的開放解耦智算方案。
中興通訊副總裁陳新宇表示,中興通訊認(rèn)為開放的技術(shù)生態(tài)才能構(gòu)建共贏的商業(yè)生態(tài),端到端開放解耦智算方案是產(chǎn)業(yè)良性發(fā)展的關(guān)鍵。
在硬件方面,中興通訊采用基座靈活、適配多種CPU平臺(tái)和GPU模組,實(shí)現(xiàn)了換芯、換卡、不換座。支持3種CPU平臺(tái),并與主流GPU完成了適配,為用戶提供了多樣化算力,用戶就可以根據(jù)成本、政策、供貨、功耗等不同的需求和情況來靈活選擇算力。
在軟件方面,通過異構(gòu)資源管理、訓(xùn)推作業(yè)調(diào)度和異構(gòu)集合通信,實(shí)現(xiàn)了軟硬解耦。向下屏蔽了不同廠家芯片的差異,向上適配了主流AI框架,為模型運(yùn)行提供了高性能、高可靠性、易遷移的環(huán)境。通過軟硬協(xié)同深度優(yōu)化,最大化了資源效率。此外,不斷研究算力卸載和在網(wǎng)計(jì)算技術(shù),以提升算力利用率。
在平臺(tái)方面,適配主流框架如PyTorch、TensorFlow,實(shí)現(xiàn)向后端平臺(tái)的自動(dòng)編譯和優(yōu)化,并提供從數(shù)據(jù)處理、模型開發(fā)、訓(xùn)練、優(yōu)化、評(píng)估、部署等端到端的工程工具集,支持全生命周期的保障和管理。同時(shí),提供遷移工具,支持應(yīng)用全域無感遷移,降低用戶遷移成本。
端到端開放解耦智算平臺(tái)。
“百花齊放春滿園”,中興通訊認(rèn)為開放的技術(shù)生態(tài)才能構(gòu)建共贏的商業(yè)生態(tài),端到端開放解耦智算方案是產(chǎn)業(yè)良性發(fā)展的關(guān)鍵。通過軟硬解耦、訓(xùn)推解耦、模型解耦,推動(dòng)各類能力組件化和共享賦能,加速AI技術(shù)的創(chuàng)新、研發(fā)、應(yīng)用的商業(yè)化進(jìn)程,構(gòu)建開放的技術(shù)生態(tài);通過產(chǎn)業(yè)內(nèi)的芯片廠商、硬件廠商、模型開發(fā)商、應(yīng)用開發(fā)商等形成優(yōu)勢互補(bǔ),共同做大做強(qiáng),共同實(shí)現(xiàn)智能計(jì)算生態(tài)的蓬勃發(fā)展。
《通信產(chǎn)業(yè)報(bào)》:大模型的出現(xiàn)催生了對大算力的需求,這給基礎(chǔ)設(shè)施帶來挑戰(zhàn),中興通訊采取了哪些舉措來應(yīng)對?
陳新宇:當(dāng)前,集群規(guī)模無法滿足萬億以上超大模型訓(xùn)練,突破國內(nèi)大規(guī)模集群組網(wǎng)上限勢在必行。從GPT3千億模型到GPT4萬億模型,每年模型參數(shù)增長10倍,加上訓(xùn)練token的增長,訓(xùn)練總算力需要提升幾十倍。但算力芯片的性能每代只能增長2~4倍,單個(gè)集群需要更多的GPU卡數(shù)才能滿足萬億大模型訓(xùn)練需求。
為了構(gòu)筑更大規(guī)模的算力集群,中興通訊從機(jī)內(nèi)和機(jī)間兩個(gè)維度,不斷研究優(yōu)化GPU卡間高速互聯(lián)技術(shù)方案,滿足萬億以上大模型訓(xùn)練需求。在機(jī)內(nèi),提出了開放的OLink互聯(lián)協(xié)議,突破機(jī)內(nèi)TP8限制,支持16張到128張GPU超級(jí)計(jì)算節(jié)點(diǎn)的大TP算力;在機(jī)間,通過集大容量交換芯片能力的不斷演進(jìn),提供基于標(biāo)準(zhǔn)RoVEv2協(xié)議的交換機(jī)框盒互聯(lián)方案,滿足從千卡到萬卡超大規(guī)模算力的靈活組網(wǎng)需求。
《通信產(chǎn)業(yè)報(bào)》:隨著智算基建的完成和大模型訓(xùn)練的成熟,行業(yè)應(yīng)用落地成為最大的挑戰(zhàn),中興通訊有什么解決方案?如何推動(dòng)AI應(yīng)用商業(yè)閉環(huán)?
陳新宇:企業(yè)在AI技術(shù)應(yīng)用方面存在短板,同時(shí)私有數(shù)據(jù)的保護(hù)限制了模型訓(xùn)練的有效性。此外,不同行業(yè)、不同企業(yè)的個(gè)性化需求也增加了應(yīng)用落地的復(fù)雜性。
為解決這些問題,中興通訊提出引入AiCube訓(xùn)推一體機(jī)的解決方案。在軟硬件方面,提供多品類高算力硬件底座和易用的訓(xùn)推平臺(tái),內(nèi)置主流大模型和AI應(yīng)用。在服務(wù)方面,提供定制化服務(wù)和代訓(xùn)服務(wù)。
為推動(dòng)行業(yè)應(yīng)用落地,中興通訊與行業(yè)伙伴緊密合作,推出多種一體化解決方案。例如,針對工業(yè)質(zhì)檢領(lǐng)域,提供機(jī)器視覺一體機(jī);針對醫(yī)療行業(yè),推出智能導(dǎo)診的智能問答一體機(jī)。用戶不需要專業(yè)技術(shù)積累,不需要大規(guī)模投資,不需要專業(yè)機(jī)房,不需要專業(yè)團(tuán)隊(duì),就可以構(gòu)建自己的專屬大模型,用AI提升生產(chǎn)力。智、算、用一體化部署可大幅降低AI推廣門檻,加速行業(yè)市場規(guī)模化商用。