OpenAI 發布 GPT-4.1——處理複雜任務的最聰明模型

OpenAI官方推出了GPT-4.1、GPT-4.1 mini、GPT-4.1 nano三款新型號。這些模型具有高達 100 萬個標記的海量上下文處理能力,並且知識限制將更新至 2024 年 6 月。

該公司表示,這些型號的性能優於去年 7 月推出的最新更新的 GPT-4o 和 GPT-4o mini。目前 GPT-4.1 僅透過 API 提供,因此您還無法在 ChatGPT 中直接使用它。

OpenAI 指出,GPT-4.1 將僅透過 API 提供。在ChatGPT中,指令遵從性、程式設計和智慧方面的許多改進已逐漸融入到最新版本的GPT-4o中,該公司也將在未來的版本中繼續添加更多內容。

OpenAI 發布 GPT-4.1——處理複雜任務的最聰明模型

基準測試顯示了 GPT-4.1 帶來的顯著改善。該模型在 SWE-bench Verified 上的得分為 54.6%,比 GPT-4o 提高了 21.4 分。該模型在 MultiChallenge(衡量指南遵守情況的基準)上的得分為 38.3%,並在 Video-MME 基准上以 72.0% 的得分創下了長篇視頻理解的新紀錄,在該基准上,模型可以分析長達一小時的無字幕視頻。

OpenAI 也與 alpha 合作夥伴合作,在實際用例中測試 GPT-4.1 的效能。

  • 湯森路透利用其法律 AI 助理 CoCounsel 測試了 GPT-4.1。與 GPT-4o 相比,GPT-4.1 在多重文件評估中的準確率提高了 17%。這類工作在很大程度上依賴於跨多個來源追蹤上下文並識別複雜關係(例如衝突的術語或隱藏的依賴關係)的能力,而 GPT-4.1 一直表現出強大的表現。
  • 凱雷使用 GPT-4.1 從長而複雜的文件(包括 Excel 和 PDF 文件)中提取財務數據。根據公司內部基準測試,該模型在文件檢索方面的表現比以前的模型提高了 50%。它是第一個能夠可靠地處理諸如大海撈針、在文件中間丟失資訊以及需要跨多個文件連接資訊的論點等問題的模型。

效能是一回事,但速度也同樣重要。 OpenAI 表示,GPT-4.1 在處理 128,000 個令牌時大約需要 15 秒才能返回第一個令牌,而在處理一百萬個令牌時最多需要 30 秒。 GPT-4.1 mini 和 nano 速度更快。

GPT-4.1 nano 通常在 5 秒內對包含 128,000 個輸入標記的提示做出回應。及時快取可以進一步減少延遲,同時節省成本。

圖像理解也取得了重大進展。具體來說,GPT-4.1 mini 在各種視覺基準測試中均優於 GPT-4o。

  • MMMU(包括圖形、圖表和地圖)上,GPT-4.1 mini 得分為 73%。這高於 GPT-4.5,遠超過 GPT-4o mini 的 56%。
  • MathVista(測試解決影像問題的能力)上,GPT-4.1 和 GPT-4.1 mini 的得分均為 57%,遠超過 GPT-4o mini 的 37%。
  • CharXiv-Reasoning上,模型根據科學圖表回答問題,GPT-4.1 繼續保持領先。
  • Video-MME(無字幕的長影片)上,GPT-4.1 達到了 72%,比 GPT-4o 的 65% 有了顯著的提升。

關於價格:

  • GPT-4.1 每輸入 100 萬個代幣的成本為 2 美元,輸出的成本為 8 美元。
  • GPT-4.1 mini 的輸入價格為 0.40 美元,輸出價格為 1.60 美元。
  • GPT-4.1 nano 的輸入成本為 0.10 美元,輸出成本為 0.40 美元。

使用即時快取或批次 API 可以進一步降低這些成本,這對於大型應用程式非常有用。 OpenAI 也準備在 2025 年 7 月 14 日停止對 GPT-4.5 Preview 的支持,理由是 GPT-4.1 效能更佳、延遲更低、成本更低。

Sign up and earn $1000 a day ⋙

Leave a Comment

OpenAI 宣布推出 Operator,一款可自動代表使用者執行任務的 AI 代理

OpenAI 宣布推出 Operator,一款可自動代表使用者執行任務的 AI 代理

ChatGPT 背後的公司正在揭示一種使用人工智慧的新方法。 OpenAI 剛剛宣布了 Operator,這是一種可以自動為您執行任務的 AI 代理。

OpenAI推出新工具幫助開發人員建構AI代理

OpenAI推出新工具幫助開發人員建構AI代理

OpenAI 將 AI 代理視為人工智慧產業的未來,並承認使用現有工具建立強大的「工業級」代理非常困難。

阿里巴巴推出 QwQ-32b,DeepSeek 的有力競爭對手

阿里巴巴推出 QwQ-32b,DeepSeek 的有力競爭對手

阿里巴巴的言論是否會成真還有待觀察,但看起來 ChatGPT 和 DeepSeek 現在有了一位強大的新競爭對手。

OpenAI 推出新瀏覽器挑戰 Google Chrome

OpenAI 推出新瀏覽器挑戰 Google Chrome

據報道,OpenAI 正在開發一個網頁瀏覽器項目,有可能與 Google Chrome 直接競爭。

三星與 OpenAI 合作開發 AI 電視,承諾提供許多有趣的功能

三星與 OpenAI 合作開發 AI 電視,承諾提供許多有趣的功能

據報道,三星電子正與 OpenAI 合作開展一項雄心勃勃的聯合項目,開發融合了業界領先人工智慧技術的 AI 電視。

微軟將繼續大力投資OpenAI,估值超過1,000億美元

微軟將繼續大力投資OpenAI,估值超過1,000億美元

自 2019 年以來,微軟已向 OpenAI 投資了數十億美元,儘管這家總部位於雷德蒙德的軟體巨頭絕不是這家創新人工智慧新創公司的主要投資者。

OpenAI 即將收購全球最強大的 AI 程式碼編輯器之一 Windsurf

OpenAI 即將收購全球最強大的 AI 程式碼編輯器之一 Windsurf

OpenAI 正在洽談收購業界領先的人工智慧程式碼編輯器 Windsurf。

O1-pro 是 OpenAI 迄今為止最昂貴的 AI 模型

O1-pro 是 OpenAI 迄今為止最昂貴的 AI 模型

OpenAI 在其開發人員 API 中發布了其 o1 推理 AI 模型 o1-pro 的更強大版本。

OpenAI 宣布推出 ChatGPT Pro 計劃,每月收費高達 200 美元

OpenAI 宣布推出 ChatGPT Pro 計劃,每月收費高達 200 美元

OpenAI目前提供四種ChatGPT訂閱級別,以滿足不同客戶群的需求。

OpenAI 推出 ChatGPT 專案:組織更智慧對話的新功能

OpenAI 推出 ChatGPT 專案:組織更智慧對話的新功能

透過建立項目,使用者可以將對話、文件和自訂說明保存在一個地方。這使得他們可以輕鬆地回到先前的操作。

OpenAI宣布啟動產業人工智慧標準制定計劃

OpenAI宣布啟動產業人工智慧標準制定計劃

OpenAI 剛剛宣布了先鋒計畫——旨在推動人工智慧在現實世界中的應用。

軟銀計劃超越微軟成為 OpenAI 最大投資者

軟銀計劃超越微軟成為 OpenAI 最大投資者

日本投資巨頭軟銀計畫向 OpenAI 投資 150 億至 250 億美元。如果交易成功,軟銀將成為 OpenAI 的最大投資者,取代目前的微軟。

用戶可以使用 ChatGPT 的語音模式與聖誕老人聊天

用戶可以使用 ChatGPT 的語音模式與聖誕老人聊天

ChatGPT 將幫助您更好地做事,讓您有機會直接與聖誕老人聊天。

OpenAI 將於 12 月發布其下一個大型 AI 模型 Orion

OpenAI 將於 12 月發布其下一個大型 AI 模型 Orion

根據 The Verge 報導,OpenAI 計劃於 12 月推出下一個主要 AI 型號 Orion。

普通電視和智慧電視的差別

普通電視和智慧電視的差別

智慧電視確實風靡全球。憑藉如此多的強大功能和互聯網連接,科技改變了我們觀看電視的方式。

為什麼冷凍室沒有燈,冷藏室有燈?

為什麼冷凍室沒有燈,冷藏室有燈?

冰箱是家庭中常見的家用電器。冰箱通常有 2 個隔間,冷藏室寬敞,並且每次使用者打開時都會自動亮燈,而冷凍室狹窄且沒有燈。

解決 Wi-Fi 速度變慢的網路擁塞問題的 2 種方法

解決 Wi-Fi 速度變慢的網路擁塞問題的 2 種方法

除了路由器、頻寬和乾擾之外,Wi-Fi 網路還受到許多因素的影響,但也有一些智慧的方法可以增強您的網路效能。

如何使用 Tenorshare Reiboot 將 iOS 17 降級到 iOS 16 且不遺失數據

如何使用 Tenorshare Reiboot 將 iOS 17 降級到 iOS 16 且不遺失數據

如果您想在手機上恢復穩定的 iOS 16,這裡是卸載 iOS 17 並從 iOS 17 降級到 16 的基本指南。

每天吃優​​格會對身體產生什麼影響?

每天吃優​​格會對身體產生什麼影響?

酸奶是一種美妙的食物。每天吃優​​格好嗎?每天吃酸奶,你的身體會發生怎樣的變化?讓我們一起來了解一下吧!

哪種米最有益於健康?

哪種米最有益於健康?

本文討論了最有營養的米種類以及如何最大限度地發揮所選米的健康益處。

如何早上準時起床

如何早上準時起床

制定睡眠時間表和就寢習慣、更改鬧鐘以及調整飲食都是可以幫助您睡得更好、早上準時起床的一些措施。

玩 Rent Please! 的提示新手模擬房東

玩 Rent Please! 的提示新手模擬房東

請租用! Landlord Sim 是一款適用於 iOS 和 Android 的模擬手機遊戲。您將扮演一個公寓大樓的房東,開始出租公寓,目標是升級公寓的內部並為租戶做好準備。

最新浴室塔防代碼及代碼輸入方法

最新浴室塔防代碼及代碼輸入方法

取得浴室塔防 Roblox 遊戲代碼並兌換令人興奮的獎勵。它們將幫助您升級或解鎖具有更高傷害的塔。

變壓器的結構、符號和工作原理

變壓器的結構、符號和工作原理

讓我們以最準確的方式了解變壓器的結構、符號和運作原理。

人工智慧讓智慧電視更上一層樓的四種方式

人工智慧讓智慧電視更上一層樓的四種方式

從更好的影像和聲音品質到語音控制等等,這些人工智慧功能讓智慧電視變得更好!

為什麼 ChatGPT 比 DeepSeek 更好

為什麼 ChatGPT 比 DeepSeek 更好

最初,人們對DeepSeek寄予厚望。作為 ChatGPT 強勁競爭對手的 AI 聊天機器人,它承諾提供智慧聊天功能和體驗。

認識 Fireflies.ai:免費的 AI 秘書,幫你節省大量工作時間

認識 Fireflies.ai:免費的 AI 秘書,幫你節省大量工作時間

在記下其他重要事項時很容易錯過重要細節,而在聊天時記筆記可能會分散注意力。 Fireflies.ai 就是解決方案。

如何飼養 Minecraft 中的美西蠑螈,馴服 Minecraft 中的蠑螈

如何飼養 Minecraft 中的美西蠑螈,馴服 Minecraft 中的蠑螈

如果玩家知道如何使用 Axolot Minecraft,它將成為玩家在水下操作時的絕佳助手。

《噤界:前路》PC遊戲配置

《噤界:前路》PC遊戲配置

《寂靜之地:前路》的配置評價相當高,因此您需要在決定下載之前考慮其配置。