輕量級的模型亦有其存在的市場(chǎng)空間。
文|《中國企業(yè)家》記者 趙東山
2022年11月底,基于GPT-3.5的ChatGPT剛出來(lái)的時(shí)候,小米集團AI實(shí)驗室主任、自然語(yǔ)言處理(NLP)首席科學(xué)家王斌給ChatGPT拋出一個(gè)問(wèn)題:證明一下勾股定理。
最終,ChatGPT給出了一個(gè)基于數學(xué)歸納法的證明過(guò)程。王斌發(fā)現,雖然這個(gè)證明過(guò)程是錯誤的,但是整個(gè)證明的邏輯看上去似乎非常合理。后來(lái)才意識到這是大模型的“幻覺(jué)”現象,但從某個(gè)角度上看ChatGPT的這個(gè)證明思路非常新奇。
不斷使用后,ChatGPT的強大能力和奇思妙想超乎王斌的想象。身為一名AI從業(yè)者,他感到一個(gè)新的智能時(shí)代即將來(lái)臨,而自己無(wú)法再置身事外。2023年4月,由王斌牽頭負責,小米技術(shù)委員會(huì )AI實(shí)驗室大模型團隊負責人欒劍帶隊,在小米內部正式成立了一支自研大模型團隊。而在這之前的數月,小米就開(kāi)始做自研的相關(guān)準備工作。
小米集團創(chuàng )始人、董事長(cháng)兼CEO雷軍親自推動(dòng)了自研大模型團隊的建立,并全程高度參與了小米大模型的自研,他會(huì )親自查看團隊的周報、月報甚至日報,關(guān)注大模型進(jìn)展。至于投入,雷軍也表示:“全力支持,投入不設上限?!?/p>
經(jīng)過(guò)半年多時(shí)間的努力,小米目前已訓練出13億和60億參數規模的語(yǔ)言大模型,并在集團內開(kāi)源賦能各業(yè)務(wù)。它們在小米澎湃OS系統和人工智能助手小愛(ài)同學(xué)的部分場(chǎng)景已經(jīng)得到應用,更大參數規模的大模型也在緊鑼密鼓地開(kāi)發(fā)中。
不同于百度的文心一言、科大訊飛星火等通用大模型,小米自研大模型更強調跟產(chǎn)品的結合和場(chǎng)景的驅動(dòng)。
“我們不會(huì )純從技術(shù)角度考慮,也不會(huì )以比賽為目標。我們不搞軍備競賽,我們做大模型的出發(fā)點(diǎn)并不是成為中國的OpenAI。我們一開(kāi)始就考慮大模型跟公司的場(chǎng)景怎么結合?!蓖醣蟾嬖V《中國企業(yè)家》。
小米內部認為,輕量級模型亦有其存在的市場(chǎng)空間,且在某些特定任務(wù)上相比千億大模型亦能具備一定的優(yōu)勢。這是端側大模型的特殊要求,也是一家智能設備廠(chǎng)商入局大模型的必經(jīng)之路。
與市面上大多數自研大模型的公司一樣,小米同樣選擇了從小參數到大參數的漸進(jìn)式開(kāi)發(fā)過(guò)程。通過(guò)小參數模型摸清底層的邏輯,蹚好路上要經(jīng)歷的坑,再加大投入追求更大參數模型的訓練。
小米為什么要自研大模型?小米如何自研大模型的?又如何將大模型放到智能手機等設備里?小米用大模型來(lái)做什么?大模型對小米全球6億多MIUI月活用戶(hù)來(lái)說(shuō)意味著(zhù)什么?跟未來(lái)的人車(chē)家全生態(tài)又有哪些關(guān)聯(lián)?近日,王斌接受了《中國企業(yè)家》的專(zhuān)訪(fǎng),對此進(jìn)行了一一解答。
以下為小米集團AI實(shí)驗室主任、自然語(yǔ)言處理(NLP)首席科學(xué)家王斌自述(在不改變原意下做了刪減):
態(tài)度:不搞軍備競賽
基于GPT-3.5的ChatGPT是2022年11月30日發(fā)布的,其實(shí)第二天小米內部就有好多人注冊了賬號在用,我們當時(shí)就覺(jué)得這肯定是一個(gè)跨時(shí)代的事件,做過(guò)多年AI的我們都深刻感受到,ChatGPT的很多結果超出了我們的預期。
在用的過(guò)程中我們也不斷總結。后來(lái)我們覺(jué)得這不只是做AI的人關(guān)注的事情,可能對所有的行業(yè)、部門(mén)都會(huì )產(chǎn)生影響。大模型一定是未來(lái)的趨勢,它會(huì )極大地改變我們的產(chǎn)品和業(yè)務(wù)。
當時(shí)我們就做了一些內部布道的工作,向全公司發(fā)起推廣,在總經(jīng)理例會(huì )上以及各種場(chǎng)合去宣傳,呼吁大家都要用大模型,甚至在公司內部也建立了大模型的機器人,把ChatGPT接過(guò)來(lái),我們在公司內部還整理了很多文檔,指導大家怎么使用。
我們內部還成立了一個(gè)討論組,共享一些使用經(jīng)驗,猜一猜這個(gè)技術(shù)可能在哪個(gè)地方帶來(lái)顛覆。但當時(shí)還僅限于一個(gè)技術(shù)層面的探討,剛開(kāi)始還沒(méi)有決定要做。等到春節左右,有人覺(jué)得至少要動(dòng)手去做了,這個(gè)風(fēng)暴來(lái)了,我們做技術(shù)的肯定不能置身事外,如果不入局就會(huì )在競爭當中處于不利的位置,于是我們也開(kāi)始做一些準備工作。
等當面跟雷總(雷軍)匯報時(shí),他馬上拍板說(shuō),“你們趕緊做?!彼?#xff0c;我們大模型團隊成立正式官宣是4月份,但實(shí)際上早就已經(jīng)開(kāi)始籌備了,隨后我們就全力擁抱深入其中去做相關(guān)的研發(fā)。
當真正決定自研的時(shí)候,我們是從這幾個(gè)方面考慮的。
第一,小米是一個(gè)應用場(chǎng)景非常多的公司,在這些場(chǎng)景里怎么通過(guò)大模型,提高產(chǎn)品體驗,提高公司內部的運營(yíng)效率,完善從感知到認知再到?jīng)Q策的智能體驗,是我們考慮的事情。小米跟做通用大模型的公司定位不太一樣,他們是做完給別人用,但我們更多要考慮小米的場(chǎng)景。從小愛(ài)同學(xué)到未來(lái)的汽車(chē)再到操作系統和機器人,都是能和大模型結合的重要場(chǎng)景。
第二,正是因為小米有場(chǎng)景的驅動(dòng),所以我們在做大模型的時(shí)候不會(huì )純技術(shù)考量,也不是要去比賽,或做個(gè)中國的OpenAI,我們不搞軍備競賽,這不是我們做大模型的出發(fā)點(diǎn),我們一開(kāi)始就得考慮大模型跟公司的場(chǎng)景怎么結合。
第三,小米是一家技術(shù)立業(yè)的公司,公司的技術(shù)研發(fā)投入很大,有很多自己的技術(shù)創(chuàng )新,同時(shí)也對業(yè)界出現的新技術(shù)保持高度敏感。對于有希望的新技術(shù),你至少要跟上,再想辦法和場(chǎng)景高度融合,做出自己的優(yōu)勢和特色。
雷總對大模型業(yè)務(wù)參與非常多,我們團隊有幾個(gè)專(zhuān)門(mén)討論大模型的群聊,雷總就在群里。有信息及時(shí)在群里共享,有問(wèn)題直接在群里解釋匯報。我們的周報、月報甚至日報他也會(huì )直接看。他對技術(shù)的敏感度非常高,也非??春么竽P?#xff0c;所以他時(shí)刻都在關(guān)注我們的進(jìn)展,這也使我們有些壓力。但關(guān)于投入,雷總大力支持,不設上限。
落地:從小到大逐步迭代
確定好自己的定位,我們的路線(xiàn)比較清楚:一邊研發(fā)探索,一邊結合小米的場(chǎng)景。我們確信,不是要用一個(gè)大模型覆蓋所有業(yè)務(wù)場(chǎng)景,所以跟業(yè)內很多公司一樣,我們采取了從小到大漸進(jìn)式開(kāi)發(fā)的過(guò)程。
我們的第一個(gè)模型是13億的小規模模型。一開(kāi)始選擇參數規模比較小的模型,是因為想避免大的犯錯,因為越大模型的訓練,其成本也越高。我們選擇先用小規模模型做一些蹚坑的工作,把其中經(jīng)歷的一些問(wèn)題都解決了,再做大參數規模的模型。其實(shí)訓練更大的模型通常都會(huì )遇到一些新的問(wèn)題,但是至少一些老的問(wèn)題能夠先解決,這是一個(gè)比較務(wù)實(shí)的做法。
自研大模型首要的挑戰,就是如何快速找到對的人,又組合成緊密的團隊,大家分工明確地共同為一個(gè)目標努力。
小米對人工智能的投入比較早,在2016年AlphaGo出來(lái)之后,雷總就開(kāi)始大力投入AI,最開(kāi)始是視覺(jué)團隊,后來(lái)逐漸拓展到AI的各個(gè)領(lǐng)域。整個(gè)公司我們有3000多人在做AI相關(guān)的研發(fā)工作,我們團隊也有非常豐富的AI工程化經(jīng)驗。
我們AI實(shí)驗室之前有一個(gè)人機對話(huà)團隊,做過(guò)28億的對話(huà)模型,雖然它是只用于對話(huà)的專(zhuān)用模型,但內部測試的效果非常不錯。另外,我們還有非常專(zhuān)業(yè)的數據處理團隊和AI訓練優(yōu)化團隊。我們就直接把這些有基礎的人,抽調過(guò)來(lái)直接組成了一支新的團隊,直接上手就開(kāi)始做自研大模型了。
小米AI實(shí)驗室在視覺(jué)、聲學(xué)語(yǔ)音、NLP、知識圖譜、機器學(xué)習等方向,都有技術(shù)積累,從算法預研到工程落地具備很強的閉環(huán)能力。比如,手機、汽車(chē)、音箱、可穿戴等很多智能硬件上的很多AI算法,我們從頭到尾都做過(guò),所以這支抽調而成的團隊同時(shí)具備算法、數據、工程、產(chǎn)品、測試等大模型建設需要的能力,冷啟動(dòng)時(shí)間非常短,很快就能進(jìn)入快車(chē)道。
具體地,我們在組建隊伍的時(shí)候,NLP團隊是最直接相關(guān)的,原來(lái)的對話(huà)大模型也出自該團隊。我們還把知識圖譜構建的團隊抽調一部分過(guò)來(lái)完成大模型的數據工作,他們對數據的敏感性,對數據的理解,對數據的工具和算法的掌握,都非常強;大模型的工程組,我們是從機器學(xué)習的架構團隊調過(guò)來(lái)的,此前他們專(zhuān)門(mén)做系統優(yōu)化的工作,比如怎么有效調用GPU,怎么去做分布式機器學(xué)習訓練,經(jīng)驗都非常豐富。
13億的模型訓練完了之后,我們會(huì )跟開(kāi)源開(kāi)放的模型做一些對比,雖然跟千億的模型相比還是有各方面的差距,但是經(jīng)過(guò)微調后在某些任務(wù)上還是有一些優(yōu)勢的。我也多次表達過(guò)13億的模型有它自己的生存的空間,我們更關(guān)注和場(chǎng)景的適配。目前這個(gè)模型已經(jīng)在小愛(ài)同學(xué)中上線(xiàn)了。實(shí)際的數據表明,在特定場(chǎng)景下,13億的模型不僅效率上優(yōu)于更大的模型,效果上也毫不遜色。
截至目前,小米已經(jīng)有13億、60億兩個(gè)參數規模的大模型在集團內開(kāi)源。這幾個(gè)模型隨著(zhù)輸入數據的不斷更新,也都在不斷迭代。我們還有更大的模型正在緊鑼密鼓地開(kāi)發(fā)中,希望能給用戶(hù)帶來(lái)更好的體驗。
挑戰:如何把大模型放到設備里?
小米的設備非常多,我們希望把很多功能能做到汽車(chē)、手機、智能音箱或其他設備上??偠灾?#xff0c;我們一直以來(lái)都有強烈的端側需求,大模型來(lái)了也不例外。當然,把大模型做到端側挑戰還是非常大的。
第一,這里似乎有個(gè)悖論。模型太大了端側根本就放不進(jìn)去跑不起來(lái),但是模型太小了可能效果又不行。這就很考驗團隊對模型的理解,包括怎么對大模型做量化、蒸餾、壓縮,還要保證模型的效果,還要滿(mǎn)足硬件的各種約束,甚至包括硬件產(chǎn)品的理解,都要求有很強的認知能力。
第二,對于硬件端包括芯片端,也提出新的要求和挑戰。一方面,現有的硬件框架下可能對大模型的支持并不完善。另一方面,需求的驅動(dòng)要求我們在現有條件下就要將大模型在端側跑通。這里面的挑戰非常大,需要一個(gè)綜合的解決方案。
端側大模型確實(shí)有不少好處。一個(gè)最顯而易見(jiàn)的好處是可以充分保護用戶(hù)的隱私,用戶(hù)和大模型的交互數據不會(huì )上傳。再比如說(shuō),一種最極端的情況就是在沒(méi)有網(wǎng)絡(luò )的情況下,端側大模型帶來(lái)的用戶(hù)體驗差異會(huì )非常明顯,云上的大模型沒(méi)網(wǎng)是無(wú)法工作的,但端側就可以。與此同時(shí),一部分應用如果通過(guò)云側要傳輸的數據量比較大,在實(shí)時(shí)性上可能就不如在端側強,端側響應可能會(huì )更及時(shí)。此外,如果云側的需求量特別大之后,要維持成本肯定需要用戶(hù)付費,這也是很常見(jiàn)的商業(yè)模式。但是如果集成到端上,用戶(hù)的成本可能就沒(méi)有那么高,用戶(hù)也就更愿意用。
雖然大模型端側落地的挑戰很大,但是好在我們在端側落地方面有長(cháng)時(shí)間的積累。比如我們視覺(jué)團隊做過(guò)很多手機拍照的算法,都是要求在端側實(shí)現的。手機拍照現在分辨率越來(lái)越高,要對圖像進(jìn)行處理,處理效率要高,用戶(hù)感覺(jué)不到卡頓,而且還不能發(fā)熱,這些都是一系列的嚴格條件,我們有長(cháng)期的技術(shù)落地經(jīng)驗。
此外,在語(yǔ)音和語(yǔ)言處理上,小米也有一些端側的經(jīng)驗,比如原來(lái)在比較小的設備上實(shí)現了全離線(xiàn)的機器翻譯,參數也達到億級了,后來(lái)離線(xiàn)的機器翻譯模型也被放到小米旗艦機上。
目前,小米和芯片公司也在合作,共同推動(dòng)端側大模型的落地。
未來(lái):多模態(tài)
經(jīng)歷過(guò)語(yǔ)言大模型的開(kāi)發(fā),我們其實(shí)已經(jīng)把底層的坑都蹚過(guò)了,我們有能力去做更大參數的模型,但具體要不要做千億或者萬(wàn)億的大模型,更多還是從投入產(chǎn)出比的角度去考慮,也看跟場(chǎng)景的結合還有沒(méi)有需求,如果我們已經(jīng)把很多場(chǎng)景處理得非常好,我們就不需要投更大的成本去做,我們不以軍備競賽為目標,這個(gè)不是我們的目標。
人車(chē)家全生態(tài)是小米全新升級的未來(lái)戰略,未來(lái)的智能生活中包含很多的場(chǎng)景,大模型可能越來(lái)越會(huì )成為一個(gè)基礎設施的東西,來(lái)支撐上面的智能服務(wù)。大模型對上下文的理解,對情景的理解都更深了,不管它在手機上還是其他設備上,都能夠隨時(shí)隨地了解你所在的場(chǎng)景,給用戶(hù)提供下一步的可能性。
小米的優(yōu)勢是多設備場(chǎng)景的綜合感知,因此小米大模型輸入的不只是文字,而是它感知到的環(huán)境和場(chǎng)景。我相信未來(lái)的多模態(tài)大模型肯定不只是視覺(jué)的,聲音的,還會(huì )有其他模態(tài),這也正好符合小米人車(chē)家萬(wàn)物互聯(lián)的場(chǎng)景,我們輸入了更多的信息,也會(huì )幫用戶(hù)更好地理解這個(gè)環(huán)境,做后面的事情,比如對機器人的控制,對車(chē)的控制,甚至是分布式聯(lián)動(dòng),去滿(mǎn)足用戶(hù)的想象。
大模型也成為一個(gè)數據接收中心,它接收的信息遠比現有的學(xué)術(shù)界的研究還要多,當然這個(gè)信息融合還有難度,但是小米可以在各種設備去輸出,它們之間都是相通的。小米澎湃OS已經(jīng)把互聯(lián)互通做好了,我們能夠借用多種設備的聯(lián)動(dòng),協(xié)同感知,協(xié)同決策,做一些更有意思的事情,幫用戶(hù)生活體驗更好,更方便。
大模型火了,安全隱私問(wèn)題也成為大家關(guān)注的話(huà)題。小米剛成立不久,就成立了安全隱私委員會(huì ),因為小米是一個(gè)手機設備廠(chǎng)商,對安全隱私非常關(guān)注,小米所有的項目都要經(jīng)過(guò)隱私委員會(huì )的審批才能夠立項,在訓練和應用大模型的過(guò)程中,我們會(huì )嚴格按照安全隱私保護的相關(guān)法律法規來(lái)進(jìn)行處理。
關(guān)于未來(lái),小米內部相信大模型肯定會(huì )不斷向前發(fā)展,在多模態(tài)模型還沒(méi)有出來(lái)之前,我們就立項了多模態(tài)大模型,在今年年初還通過(guò)北京市自然科學(xué)基金-小米創(chuàng )新聯(lián)合基金設立了《面向圖文理解和生成的多模態(tài)大模型構建與評價(jià)》的課題,我們相信這一定是未來(lái)重要的發(fā)展方向。
當然,基于大模型,目前還沒(méi)有出現殺手級的應用,這需要一個(gè)嘗試、探索的過(guò)程,接下來(lái)一定會(huì )出現一系列的應用讓大模型落地。此外,端云結合的框架也一定是未來(lái)的趨勢。小米愿意置身其中,并積極探索。
相關(guān)稿件