【環(huán)球時(shí)報特約記者 甄翔】《紐約時(shí)報》6日披露了科技公司訓練人工智能的秘密——利用語(yǔ)音識別工具轉錄視頻網(wǎng)站YouTube上的視頻,形成對話(huà)文本數據,供其最新的AI學(xué)習。這是一條違反法律的“捷徑”。
報道稱(chēng),早在2021年年底,OpenAI就面臨培訓AI模型的數據源幾乎陷入枯竭的境地。該公司鋌而走險,在明知YouTube母公司谷歌禁止用工具提取該平臺內容的情況下,轉錄了100多萬(wàn)條視頻并生成GPT-4模型的學(xué)習材料,OpenAI創(chuàng )始人之一布羅克曼也參與其中。諷刺的是,谷歌得知OpenAI的行為卻并未制止,因為其也在提取YouTube平臺內容訓練AI模型。
《紐約時(shí)報》援引消息人士的話(huà)表示,這可能侵犯視頻版權,因為它們屬于創(chuàng )作者。盡管如此,越來(lái)越多的科技公司冒著(zhù)面臨訴訟的風(fēng)險也要“走捷徑”。報道稱(chēng),根據內部會(huì )議記錄,Meta公司商定從互聯(lián)網(wǎng)上收集受版權保護的數據,因為與出版商、藝術(shù)家、音樂(lè )家和新聞行業(yè)就版權內容談判太花時(shí)間。
報道稱(chēng),領(lǐng)先的AI模型需要從涵蓋多達3萬(wàn)億字的數字文本池中學(xué)習。有分析稱(chēng),預計互聯(lián)網(wǎng)上現有可供培訓AI模型的數據最快到2026年就會(huì )耗盡。
《紐約時(shí)報》援引內部人士的消息稱(chēng),谷歌法律部門(mén)已經(jīng)要求起草新的政策,擴大該公司對消費者數據的用途。Meta的情況更嚴峻,其旗下臉書(shū)平臺不是人們撰寫(xiě)文章的地方,可用數據不多。報道稱(chēng),在一次討論中,Meta高管談到在非洲聘請承包商來(lái)匯總各種小說(shuō)和非小說(shuō)的文本摘要。Meta全球合作與內容副總裁格魯丁表示:“唯一阻礙我們達到ChatGPT水平的因素就是數據量?!?/p>
相關(guān)稿件