科技日報北京5月10日電 (記者張夢(mèng)然)有些人工智能(AI)系統已學(xué)會(huì )了欺騙人類(lèi),即使是經(jīng)過(guò)訓練的、“表現”出有用且誠實(shí)的系統。10日發(fā)表在《模式》雜志上的一篇文章中,研究人員描述了欺騙性AI的風(fēng)險,并呼吁政府制定強有力的法規盡快解決這個(gè)問(wèn)題。
【總編輯圈點(diǎn)】
論文第一作者、美國麻省理工學(xué)院人工智能安全研究員彼得·樸說(shuō),開(kāi)發(fā)人員對導致AI出現欺騙這種不良行為的原因,還沒(méi)有很好的理解。但總的來(lái)說(shuō),AI欺騙之所以出現,是因為基于欺騙的策略,是在給定的AI訓練任務(wù)中一種能得到良好反饋的方式,換句話(huà)說(shuō),欺騙可幫助AI實(shí)現目標。
研究人員分析了文獻,重點(diǎn)關(guān)注AI系統傳播虛假信息的方式。通過(guò)欺騙,AI系統地學(xué)習了如何去操縱他人。
研究人員在分析中發(fā)現的最引人注目的例子是Meta公司的CICERO。這是一個(gè)專(zhuān)注于《外交》游戲的AI系統,《外交》是一款涉及建立聯(lián)盟征服世界的游戲。Meta聲稱(chēng)訓練 CICERO “在很大程度上是誠實(shí)和樂(lè )于助人的 ”,且在玩游戲時(shí)“從不故意背刺 ”人類(lèi)盟友。但該公司與《科學(xué)》論文一起發(fā)布的數據顯示,CICERO并不那么“忠厚”。
研究人員發(fā)現這款AI或已成為欺騙大師。雖然Meta成功地訓練其在《外交》游戲中獲勝,但Meta未能訓練它誠實(shí)地獲勝。
AI系統在游戲中作弊看似無(wú)害,但它將導致欺騙性AI在能力上出現突破,未來(lái)可能會(huì )演變成更高級的欺騙形式。一些AI系統甚至學(xué)會(huì )了欺騙旨在評估其安全性的測試。在一項研究中,數字模擬器中的AI生物會(huì )“裝死”,以騙過(guò)旨在消除快速復制AI系統的重要測試。
人類(lèi)需要盡快對未來(lái)AI和開(kāi)源模型的更高級欺騙技能作好準備。隨著(zhù)它們的欺騙能力越來(lái)越先進(jìn),其對社會(huì )構成的危險將變得越來(lái)越嚴重。如文中所稱(chēng),它們會(huì )順利通過(guò)人類(lèi)開(kāi)發(fā)人員和監管機構強加的安全測試,引導人類(lèi)進(jìn)入一種“虛假的安全感”。如果欺騙性AI進(jìn)一步完善這種令人不安的技能,人類(lèi)可能會(huì )完全失去對它們的控制。
相關(guān)稿件