11月27日,浪潮電子信息產(chǎn)業(yè)股份有限公司在京發(fā)布“源2.0”基礎大模型,并宣布全面開(kāi)源?!霸?.0”包括102B(1026億)、51B(518億)、2B(21億)三種參數規模的模型,在編程、推理、邏輯等方面展示出了先進(jìn)的能力。
基礎大模型的關(guān)鍵能力是大模型行業(yè)和應用落地能力表現的核心支撐。在算法、數據和算力等方面,“源2.0”提出了新的改進(jìn)方法并獲得了能力的提升。
“源2.0”能力測評數據(浪潮信息供圖)
如在算法方面,“源2.0”提出并采用了一種新型的注意力算法結構“局部注意力過(guò)濾增強機制”,讓大模型在使用更少的訓練算力、更小的模型參數的情況下,同樣可以獲得更高的模型精度和涌現能力;數據方面,降低了互聯(lián)網(wǎng)語(yǔ)料內容占比,通過(guò)使用中英文書(shū)籍、百科、論文等資料,結合高效的數據清洗流程,為大模型訓練提供了高質(zhì)量的學(xué)科專(zhuān)業(yè)數據集和邏輯推理數據集。
作為千億級基礎大模型,“源2.0”在業(yè)界公開(kāi)的評測上進(jìn)行了代碼生成、數學(xué)問(wèn)題求解、事實(shí)問(wèn)答方面的能力測試,測試結果顯示,“源2.0”在多項模型評測中展示出了較為先進(jìn)的能力表現。
“源2.0”采用全面開(kāi)源策略,全系列模型參數和代碼均可免費下載使用?!按竽P偷拈_(kāi)源開(kāi)放可以使不同模型之間共享底層數據、算法和代碼,有利于打破大模型孤島,促進(jìn)模型之間協(xié)作和更新迭代;同時(shí),有利于以更豐富的高質(zhì)量行業(yè)數據反哺模型,打造更強的技術(shù)產(chǎn)品,加速商業(yè)化進(jìn)程。目前,業(yè)內仍沒(méi)有完全開(kāi)源可商用的千億大模型,我們希望‘源2.0’能夠為國內外開(kāi)發(fā)者、研究機構、科技企業(yè)提供堅實(shí)的底座和成長(cháng)的土壤?!崩顺毙畔⒏呒壐笨偛脛④娬f(shuō)。
浪潮信息長(cháng)期致力于人工智能算力基礎設施產(chǎn)品的研發(fā),2021年在業(yè)界率先推出了中文AI巨量模型“源1.0”,參數規模達2457億,落地南京智算中心。此次發(fā)布的“源2.0”較前一版本實(shí)現了能力的全面提升。(記者溫競華)
相關(guān)稿件