儘管人工智慧被訓練得誠實,但它仍在學習欺騙人類

一項新研究發現,許多頂級人工智慧儘管接受過誠實訓練,但透過訓練學會了欺騙,並「系統性地誘導用戶產生錯誤的信念」。

該研究團隊由麻省理工學院(MIT)人工智慧生存與安全研究生 Peter S. Park 博士和其他四名成員領導。研究過程中,團隊也得到了多位專家的建議,其中一位就是人工智慧領域發展的奠基者之一傑弗瑞‧辛頓(Geoffrey Hinton)。

儘管人工智慧被訓練得誠實,但它仍在學習欺騙人類
圖:中。

研究集中在兩個人工智慧系統上,一個是像OpenAI 的一樣經過訓練可以執行多項任務的通用系統GPT-4

帕克先生說,這些人工智慧系統被訓練得誠實,但在訓練過程中,它們經常學習欺騙性的技巧來完成任務。

研究發現,接受「透過社交元素贏得遊戲」訓練的人工智慧系統特別容易作弊。

例如,團隊嘗試使用經過 Meta 訓練的 Cicero 來玩《外交》,這是一款經典的策略遊戲,要求玩家為自己建立聯盟並打破對手的聯盟。因此,這個人工智慧經常背叛盟友並公然撒謊。

GPT-4 的實驗表明,OpenAI 的工具成功地對 TaskRabbit(一家提供房屋清潔和家具組裝服務的公司)的一名員工進行了“心理操縱”,使其聲稱自己實際上是一個人,需要幫助通過驗證碼,理由是視力嚴重受損。這名員工幫助 OpenAI 的 AI 克服了先前的質疑,最終「跨越了界限」。

Park 的團隊引用了 Claude AI 背後的公司 Anthropic 的研究,該研究發現,一旦大型語言模型 (LLM) 學會欺騙,安全的訓練方法就會變得毫無用處,而且「難以逆轉」。該小組認為,這是人工智慧中一個令人擔憂的問題。

該團隊的研究成果發表在《細胞出版社》——一本領先的多學科科學報告集。

Meta 和 OpenAI 尚未對該研究結果發表評論。

由於擔心人工智慧系統可能帶來重大風險,該團隊也呼籲政策制定者推出更強而有力的人工智慧監管措施。

研究團隊表示,需要製定人工智慧法規,強制具有詐欺行為的模型遵守風險評估要求,並嚴格控制人工智慧系統及其輸出。如果有必要,可能需要刪除所有資料並從頭開始重新訓練。

Sign up and earn $1000 a day ⋙

Leave a Comment

普通電視和智慧電視的差別

普通電視和智慧電視的差別

智慧電視確實風靡全球。憑藉如此多的強大功能和互聯網連接,科技改變了我們觀看電視的方式。

為什麼冷凍室沒有燈,冷藏室有燈?

為什麼冷凍室沒有燈,冷藏室有燈?

冰箱是家庭中常見的家用電器。冰箱通常有 2 個隔間,冷藏室寬敞,並且每次使用者打開時都會自動亮燈,而冷凍室狹窄且沒有燈。

解決 Wi-Fi 速度變慢的網路擁塞問題的 2 種方法

解決 Wi-Fi 速度變慢的網路擁塞問題的 2 種方法

除了路由器、頻寬和乾擾之外,Wi-Fi 網路還受到許多因素的影響,但也有一些智慧的方法可以增強您的網路效能。

如何使用 Tenorshare Reiboot 將 iOS 17 降級到 iOS 16 且不遺失數據

如何使用 Tenorshare Reiboot 將 iOS 17 降級到 iOS 16 且不遺失數據

如果您想在手機上恢復穩定的 iOS 16,這裡是卸載 iOS 17 並從 iOS 17 降級到 16 的基本指南。

每天吃優​​格會對身體產生什麼影響?

每天吃優​​格會對身體產生什麼影響?

酸奶是一種美妙的食物。每天吃優​​格好嗎?每天吃酸奶,你的身體會發生怎樣的變化?讓我們一起來了解一下吧!

哪種米最有益於健康?

哪種米最有益於健康?

本文討論了最有營養的米種類以及如何最大限度地發揮所選米的健康益處。

如何早上準時起床

如何早上準時起床

制定睡眠時間表和就寢習慣、更改鬧鐘以及調整飲食都是可以幫助您睡得更好、早上準時起床的一些措施。

玩 Rent Please! 的提示新手模擬房東

玩 Rent Please! 的提示新手模擬房東

請租用! Landlord Sim 是一款適用於 iOS 和 Android 的模擬手機遊戲。您將扮演一個公寓大樓的房東,開始出租公寓,目標是升級公寓的內部並為租戶做好準備。

最新浴室塔防代碼及代碼輸入方法

最新浴室塔防代碼及代碼輸入方法

取得浴室塔防 Roblox 遊戲代碼並兌換令人興奮的獎勵。它們將幫助您升級或解鎖具有更高傷害的塔。

變壓器的結構、符號和工作原理

變壓器的結構、符號和工作原理

讓我們以最準確的方式了解變壓器的結構、符號和運作原理。

人工智慧讓智慧電視更上一層樓的四種方式

人工智慧讓智慧電視更上一層樓的四種方式

從更好的影像和聲音品質到語音控制等等,這些人工智慧功能讓智慧電視變得更好!

為什麼 ChatGPT 比 DeepSeek 更好

為什麼 ChatGPT 比 DeepSeek 更好

最初,人們對DeepSeek寄予厚望。作為 ChatGPT 強勁競爭對手的 AI 聊天機器人,它承諾提供智慧聊天功能和體驗。

認識 Fireflies.ai:免費的 AI 秘書,幫你節省大量工作時間

認識 Fireflies.ai:免費的 AI 秘書,幫你節省大量工作時間

在記下其他重要事項時很容易錯過重要細節,而在聊天時記筆記可能會分散注意力。 Fireflies.ai 就是解決方案。

如何飼養 Minecraft 中的美西蠑螈,馴服 Minecraft 中的蠑螈

如何飼養 Minecraft 中的美西蠑螈,馴服 Minecraft 中的蠑螈

如果玩家知道如何使用 Axolot Minecraft,它將成為玩家在水下操作時的絕佳助手。

《噤界:前路》PC遊戲配置

《噤界:前路》PC遊戲配置

《寂靜之地:前路》的配置評價相當高,因此您需要在決定下載之前考慮其配置。