你在網(wǎng)上搜過(guò)“我哪哪疼是不是得了啥啥病”嗎?答案可能不盡如人意。但隨著(zhù)ChatGPT等大型自然語(yǔ)言模型(LLM)風(fēng)生水起,人們開(kāi)始嘗試用它來(lái)回答醫學(xué)問(wèn)題或醫學(xué)知識。
不過(guò),靠譜嗎?
就其本身而言,人工智能(AI)給出的答案是準確的。但英國巴斯大學(xué)教授詹姆斯·達文波特指出了醫學(xué)問(wèn)題和實(shí)際行醫之間的區別,他認為“行醫并不只是回答醫學(xué)問(wèn)題,如果純粹是回答醫學(xué)問(wèn)題,我們就不需要教學(xué)醫院,醫生也不需要在學(xué)術(shù)課程之后接受多年的培訓了?!?/p>
鑒于種種疑惑,在《自然》雜志新近發(fā)表的一篇論文中,全球頂尖的人工智能專(zhuān)家們展示了一個(gè)基準,用于評估大型自然語(yǔ)言模型能多好地解決人們的醫學(xué)問(wèn)題。
現有的模型尚不完善
最新的這項評估,來(lái)自谷歌研究院和深度思維公司。專(zhuān)家們認為,人工智能模型在醫學(xué)領(lǐng)域有許多潛力,包括知識檢索和支持臨床決策。但現有的模型尚不完善,例如可能會(huì )編造令人信服的醫療錯誤信息,或納入偏見(jiàn)加劇健康不平等。因此才需要對其臨床知識進(jìn)行評估。
相關(guān)的評估此前并非沒(méi)有。然而,過(guò)去通常依賴(lài)有限基準的自動(dòng)化評估,例如個(gè)別醫療測試得分。這轉化到真實(shí)世界中,可靠性和價(jià)值都有欠缺。
而且,當人們轉向互聯(lián)網(wǎng)獲取醫療信息時(shí),他們會(huì )遭遇“信息超載”,然后從10種可能的診斷中選擇出最壞的一種,從而承受很多不必要的壓力。
研究團隊希望語(yǔ)言模型能提供簡(jiǎn)短的專(zhuān)家意見(jiàn),不帶偏見(jiàn)、表明其引用來(lái)源,并合理表達出不確定性。
5400億參數的LLM表現如何
為評估LLM編碼臨床知識的能力,谷歌研究院的專(zhuān)家謝庫菲·阿齊茲及其同事探討了它們回答醫學(xué)問(wèn)題的能力。團隊提出了一個(gè)基準,稱(chēng)為“MultiMedQA”:它結合了6個(gè)涵蓋專(zhuān)業(yè)醫療、研究和消費者查詢(xún)的現有問(wèn)題回答數據集以及“HealthSearchQA”——這是一個(gè)新的數據集,包含3173個(gè)在線(xiàn)搜索的醫學(xué)問(wèn)題。
團隊隨后評估了PaLM(一個(gè)5400億參數的LLM)及其變體Flan-PaLM。他們發(fā)現,在一些數據集中Flan-PaLM達到了最先進(jìn)水平。在整合美國醫師執照考試類(lèi)問(wèn)題的MedQA數據集中,Flan-PaLM超過(guò)此前最先進(jìn)的LLM達17%。
不過(guò),雖然Flan-PaLM的多選題成績(jì)優(yōu)良,進(jìn)一步評估顯示,它在回答消費者的醫療問(wèn)題方面存在差距。
專(zhuān)精醫學(xué)的LLM令人鼓舞
為解決這一問(wèn)題,人工智能專(zhuān)家們使用一種稱(chēng)為設計指令微調的方式,進(jìn)一步調試Flan-PaLM適應醫學(xué)領(lǐng)域。同時(shí),研究人員介紹了一個(gè)專(zhuān)精醫學(xué)領(lǐng)域的LLM——Med-PaLM。
設計指令微調是讓通用LLM適用新的專(zhuān)業(yè)領(lǐng)域的一種有效方法。產(chǎn)生的模型Med-PaLM在試行評估中表現令人鼓舞。例如,Flan-PaLM被一組醫師評分與科學(xué)共識一致程度僅61.9%的長(cháng)回答,Med-PaLM的回答評分為92.6%,相當于醫師作出的回答(92.9%)。同樣,Flan-PaLM有29.7%的回答被評為可能導致有害結果,Med-PaLM僅5.8%,相當于醫師所作的回答(6.5%)。
研究團隊提到,結果雖然很有前景,但有必要作進(jìn)一步評估,特別是在涉及安全性、公平性和偏見(jiàn)方面。
換句話(huà)說(shuō),在LLM的臨床應用可行之前,還有許多限制要克服。
◎本報記者 張夢(mèng)然
相關(guān)稿件