網(wǎng)上問醫(yī)斷病，這輪AI行不行？: 2023-07-18 10:31 來(lái)源：科技日?qǐng)?bào) 次閱讀; 分享：

你在網(wǎng)上搜過“我哪哪疼是不是得了啥啥病”嗎？答案可能不盡如人意。但隨著ChatGPT等大型自然語(yǔ)言模型(LLM)風(fēng)生水起，人們開始嘗試用它來(lái)回答醫(yī)學(xué)問題或醫(yī)學(xué)知識(shí)。

　　不過，靠譜嗎？

　　就其本身而言，人工智能(AI)給出的答案是準(zhǔn)確的。但英國(guó)巴斯大學(xué)教授詹姆斯·達(dá)文波特指出了醫(yī)學(xué)問題和實(shí)際行醫(yī)之間的區(qū)別，他認(rèn)為“行醫(yī)并不只是回答醫(yī)學(xué)問題，如果純粹是回答醫(yī)學(xué)問題，我們就不需要教學(xué)醫(yī)院，醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)了?！?/p>

　　鑒于種種疑惑，在《自然》雜志新近發(fā)表的一篇論文中，全球頂尖的人工智能專家們展示了一個(gè)基準(zhǔn)，用于評(píng)估大型自然語(yǔ)言模型能多好地解決人們的醫(yī)學(xué)問題。

　　現(xiàn)有的模型尚不完善

　　最新的這項(xiàng)評(píng)估，來(lái)自谷歌研究院和深度思維公司。專家們認(rèn)為，人工智能模型在醫(yī)學(xué)領(lǐng)域有許多潛力，包括知識(shí)檢索和支持臨床決策。但現(xiàn)有的模型尚不完善，例如可能會(huì)編造令人信服的醫(yī)療錯(cuò)誤信息，或納入偏見加劇健康不平等。因此才需要對(duì)其臨床知識(shí)進(jìn)行評(píng)估。

　　相關(guān)的評(píng)估此前并非沒有。然而，過去通常依賴有限基準(zhǔn)的自動(dòng)化評(píng)估，例如個(gè)別醫(yī)療測(cè)試得分。這轉(zhuǎn)化到真實(shí)世界中，可靠性和價(jià)值都有欠缺。

　　而且，當(dāng)人們轉(zhuǎn)向互聯(lián)網(wǎng)獲取醫(yī)療信息時(shí)，他們會(huì)遭遇“信息超載”，然后從10種可能的診斷中選擇出最壞的一種，從而承受很多不必要的壓力。

　　研究團(tuán)隊(duì)希望語(yǔ)言模型能提供簡(jiǎn)短的專家意見，不帶偏見、表明其引用來(lái)源，并合理表達(dá)出不確定性。

　　5400億參數(shù)的LLM表現(xiàn)如何

　　為評(píng)估LLM編碼臨床知識(shí)的能力，谷歌研究院的專家謝庫(kù)菲·阿齊茲及其同事探討了它們回答醫(yī)學(xué)問題的能力。團(tuán)隊(duì)提出了一個(gè)基準(zhǔn)，稱為“MultiMedQA”：它結(jié)合了6個(gè)涵蓋專業(yè)醫(yī)療、研究和消費(fèi)者查詢的現(xiàn)有問題回答數(shù)據(jù)集以及“HealthSearchQA”——這是一個(gè)新的數(shù)據(jù)集，包含3173個(gè)在線搜索的醫(yī)學(xué)問題。

　　團(tuán)隊(duì)隨后評(píng)估了PaLM(一個(gè)5400億參數(shù)的LLM)及其變體Flan-PaLM。他們發(fā)現(xiàn)，在一些數(shù)據(jù)集中Flan-PaLM達(dá)到了最先進(jìn)水平。在整合美國(guó)醫(yī)師執(zhí)照考試類問題的MedQA數(shù)據(jù)集中，Flan-PaLM超過此前最先進(jìn)的LLM達(dá)17%。

　　不過，雖然Flan-PaLM的多選題成績(jī)優(yōu)良，進(jìn)一步評(píng)估顯示，它在回答消費(fèi)者的醫(yī)療問題方面存在差距。

　　專精醫(yī)學(xué)的LLM令人鼓舞

　　為解決這一問題，人工智能專家們使用一種稱為設(shè)計(jì)指令微調(diào)的方式，進(jìn)一步調(diào)試Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。同時(shí)，研究人員介紹了一個(gè)專精醫(yī)學(xué)領(lǐng)域的LLM——Med-PaLM。

　　設(shè)計(jì)指令微調(diào)是讓通用LLM適用新的專業(yè)領(lǐng)域的一種有效方法。產(chǎn)生的模型Med-PaLM在試行評(píng)估中表現(xiàn)令人鼓舞。例如，Flan-PaLM被一組醫(yī)師評(píng)分與科學(xué)共識(shí)一致程度僅61.9%的長(zhǎng)回答，Med-PaLM的回答評(píng)分為92.6%，相當(dāng)于醫(yī)師作出的回答(92.9%)。同樣，Flan-PaLM有29.7%的回答被評(píng)為可能導(dǎo)致有害結(jié)果，Med-PaLM僅5.8%，相當(dāng)于醫(yī)師所作的回答(6.5%)。

　　研究團(tuán)隊(duì)提到，結(jié)果雖然很有前景，但有必要作進(jìn)一步評(píng)估，特別是在涉及安全性、公平性和偏見方面。

　　換句話說，在LLM的臨床應(yīng)用可行之前，還有許多限制要克服。

◎本報(bào)記者張夢(mèng)然

點(diǎn)贊()

上一條：上海德達(dá)醫(yī)院團(tuán)隊(duì)受邀參加美國(guó)血管外科協(xié)會(huì)年會(huì)2023-07-11

下一條：美首例機(jī)器人肝移植手術(shù)成功2023-07-19

相關(guān)稿件: 治療帕金森病常備藥多地?cái)喙?網(wǎng)售價(jià)高出醫(yī)保價(jià)十余倍 2021-10-22; 阿里大語(yǔ)言模型“通義千問”亮相引發(fā)市場(chǎng)關(guān)注 2023-04-12; 王毅答記者問這十五句精彩回應(yīng) 擲地有聲 2021-03-08; 關(guān)愛“罕見” 點(diǎn)亮生命之光——我國(guó)加速破解罕見病診療和用藥保障之困 2023-03-01; ChatGPT來(lái)了 AI企業(yè)如何應(yīng)對(duì) 2023-02-14

九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

網(wǎng)上問醫(yī)斷病，這輪AI行不行？

網(wǎng)上問醫(yī)斷病，這輪AI行不行？