OpenAI 發布 GPT-4.1——處理複雜任務的最聰明模型

OpenAI官方推出了GPT-4.1、GPT-4.1 mini、GPT-4.1 nano三款新型號。這些模型具有高達 100 萬個標記的海量上下文處理能力,並且知識限制將更新至 2024 年 6 月。

該公司表示,這些型號的性能優於去年 7 月推出的最新更新的 GPT-4o 和 GPT-4o mini。目前 GPT-4.1 僅透過 API 提供,因此您還無法在 ChatGPT 中直接使用它。

OpenAI 指出,GPT-4.1 將僅透過 API 提供。在ChatGPT中,指令遵從性、程式設計和智慧方面的許多改進已逐漸融入到最新版本的GPT-4o中,該公司也將在未來的版本中繼續添加更多內容。

OpenAI 發布 GPT-4.1——處理複雜任務的最聰明模型

基準測試顯示了 GPT-4.1 帶來的顯著改善。該模型在 SWE-bench Verified 上的得分為 54.6%,比 GPT-4o 提高了 21.4 分。該模型在 MultiChallenge(衡量指南遵守情況的基準)上的得分為 38.3%,並在 Video-MME 基准上以 72.0% 的得分創下了長篇視頻理解的新紀錄,在該基准上,模型可以分析長達一小時的無字幕視頻。

OpenAI 也與 alpha 合作夥伴合作,在實際用例中測試 GPT-4.1 的效能。

  • 湯森路透利用其法律 AI 助理 CoCounsel 測試了 GPT-4.1。與 GPT-4o 相比,GPT-4.1 在多重文件評估中的準確率提高了 17%。這類工作在很大程度上依賴於跨多個來源追蹤上下文並識別複雜關係(例如衝突的術語或隱藏的依賴關係)的能力,而 GPT-4.1 一直表現出強大的表現。
  • 凱雷使用 GPT-4.1 從長而複雜的文件(包括 Excel 和 PDF 文件)中提取財務數據。根據公司內部基準測試,該模型在文件檢索方面的表現比以前的模型提高了 50%。它是第一個能夠可靠地處理諸如大海撈針、在文件中間丟失資訊以及需要跨多個文件連接資訊的論點等問題的模型。

效能是一回事,但速度也同樣重要。 OpenAI 表示,GPT-4.1 在處理 128,000 個令牌時大約需要 15 秒才能返回第一個令牌,而在處理一百萬個令牌時最多需要 30 秒。 GPT-4.1 mini 和 nano 速度更快。

GPT-4.1 nano 通常在 5 秒內對包含 128,000 個輸入標記的提示做出回應。及時快取可以進一步減少延遲,同時節省成本。

圖像理解也取得了重大進展。具體來說,GPT-4.1 mini 在各種視覺基準測試中均優於 GPT-4o。

  • MMMU(包括圖形、圖表和地圖)上,GPT-4.1 mini 得分為 73%。這高於 GPT-4.5,遠超過 GPT-4o mini 的 56%。
  • MathVista(測試解決影像問題的能力)上,GPT-4.1 和 GPT-4.1 mini 的得分均為 57%,遠超過 GPT-4o mini 的 37%。
  • CharXiv-Reasoning上,模型根據科學圖表回答問題,GPT-4.1 繼續保持領先。
  • Video-MME(無字幕的長影片)上,GPT-4.1 達到了 72%,比 GPT-4o 的 65% 有了顯著的提升。

關於價格:

  • GPT-4.1 每輸入 100 萬個代幣的成本為 2 美元,輸出的成本為 8 美元。
  • GPT-4.1 mini 的輸入價格為 0.40 美元,輸出價格為 1.60 美元。
  • GPT-4.1 nano 的輸入成本為 0.10 美元,輸出成本為 0.40 美元。

使用即時快取或批次 API 可以進一步降低這些成本,這對於大型應用程式非常有用。 OpenAI 也準備在 2025 年 7 月 14 日停止對 GPT-4.5 Preview 的支持,理由是 GPT-4.1 效能更佳、延遲更低、成本更低。

Sign up and earn $1000 a day ⋙

Leave a Comment

微軟將繼續大力投資OpenAI,估值超過1,000億美元

微軟將繼續大力投資OpenAI,估值超過1,000億美元

自 2019 年以來,微軟已向 OpenAI 投資了數十億美元,儘管這家總部位於雷德蒙德的軟體巨頭絕不是這家創新人工智慧新創公司的主要投資者。

OpenAI 即將收購全球最強大的 AI 程式碼編輯器之一 Windsurf

OpenAI 即將收購全球最強大的 AI 程式碼編輯器之一 Windsurf

OpenAI 正在洽談收購業界領先的人工智慧程式碼編輯器 Windsurf。

O1-pro 是 OpenAI 迄今為止最昂貴的 AI 模型

O1-pro 是 OpenAI 迄今為止最昂貴的 AI 模型

OpenAI 在其開發人員 API 中發布了其 o1 推理 AI 模型 o1-pro 的更強大版本。

OpenAI 宣布推出 ChatGPT Pro 計劃,每月收費高達 200 美元

OpenAI 宣布推出 ChatGPT Pro 計劃,每月收費高達 200 美元

OpenAI目前提供四種ChatGPT訂閱級別,以滿足不同客戶群的需求。

OpenAI 推出 ChatGPT 專案:組織更智慧對話的新功能

OpenAI 推出 ChatGPT 專案:組織更智慧對話的新功能

透過建立項目,使用者可以將對話、文件和自訂說明保存在一個地方。這使得他們可以輕鬆地回到先前的操作。

OpenAI宣布啟動產業人工智慧標準制定計劃

OpenAI宣布啟動產業人工智慧標準制定計劃

OpenAI 剛剛宣布了先鋒計畫——旨在推動人工智慧在現實世界中的應用。

軟銀計劃超越微軟成為 OpenAI 最大投資者

軟銀計劃超越微軟成為 OpenAI 最大投資者

日本投資巨頭軟銀計畫向 OpenAI 投資 150 億至 250 億美元。如果交易成功,軟銀將成為 OpenAI 的最大投資者,取代目前的微軟。

用戶可以使用 ChatGPT 的語音模式與聖誕老人聊天

用戶可以使用 ChatGPT 的語音模式與聖誕老人聊天

ChatGPT 將幫助您更好地做事,讓您有機會直接與聖誕老人聊天。

OpenAI 將於 12 月發布其下一個大型 AI 模型 Orion

OpenAI 將於 12 月發布其下一個大型 AI 模型 Orion

根據 The Verge 報導,OpenAI 計劃於 12 月推出下一個主要 AI 型號 Orion。

阿里巴巴推出可解讀人類情感的人工智慧模型

阿里巴巴推出可解讀人類情感的人工智慧模型

中國電子商務巨頭阿里巴巴繼續成為頭條新聞,因為它推出了新的人工智慧模型,聲稱該模型能夠解讀人類的情感。

亞馬遜發布 Nova Sonic 聲音模型,聲稱性能超越 OpenAI 和谷歌

亞馬遜發布 Nova Sonic 聲音模型,聲稱性能超越 OpenAI 和谷歌

亞馬遜今天推出了 Nova Sonic,這是一種先進的語音到語音模型,使開發人員能夠建立能夠即時與類似人類的聲音交談的應用程式。

OpenAI 悄悄淘汰「英雄」 GPT-4

OpenAI 悄悄淘汰「英雄」 GPT-4

OpenAI 正式停止 GPT-4,這是該公司兩年前走紅的最著名的人工智慧模型之一。

OpenAI 即將與三星達成協議,在 Galaxy 手機中使用其 AI 功能

OpenAI 即將與三星達成協議,在 Galaxy 手機中使用其 AI 功能

根據韓國先驅報報道,人工智慧巨頭 OpenAI 希望將自己定位為Google的潛在競爭對手。

OpenAI 解除 ChatGPT 搜尋的捆綁,所有使用者均可使用,無需帳戶

OpenAI 解除 ChatGPT 搜尋的捆綁,所有使用者均可使用,無需帳戶

OpenAI剛剛宣布,ChatGPT用戶不再需要登入即可使用該AI模型的搜尋引擎功能。

6 款比 Photoshop 更好的 AI 照片編輯工具

6 款比 Photoshop 更好的 AI 照片編輯工具

有許多 AI 照片編輯器使 Photoshop 成為第二選擇,而 AI 功能是編輯照片的有用工具,無需學習複雜的 Photoshop。

阻止網站存取 Edge 上的攝影機的說明

阻止網站存取 Edge 上的攝影機的說明

透過 Microsoft Edge 上調整相機權限的選項,使用者可以輕鬆更改網站的選項,從而確保更多的隱私。

比爾吉沃特 DTCL:團隊組成、建設

比爾吉沃特 DTCL:團隊組成、建設

比爾吉沃特顯然為《雲頂之戰》第 9.5 季添加了一些有趣的英雄。

外接顯示器可能會對筆記型電腦電池產生負面影響。

外接顯示器可能會對筆記型電腦電池產生負面影響。

使用具有外接顯示器的筆記型電腦可以很好地提高工作效率並幫助您完成工作。但隨著時間的推移,你會發現你的筆記型電腦突然很快沒電了,電池壽命開始減少。

你意想不到的折疊螢幕手機8大缺點

你意想不到的折疊螢幕手機8大缺點

無可否認,可折疊手機非常酷。但使用一段時間後,發現該設備有不少問題。折疊螢幕手機5大你意想不到的缺點!

Adobe 將 AI 影片創作技術引入 Premiere Pro

Adobe 將 AI 影片創作技術引入 Premiere Pro

Adobe 以新的方式將 AI 影片創作技術帶給了大眾,儘管目前尚未使用該技術製作完整的電影。

2025年4月最新原神代碼

2025年4月最新原神代碼

原神 5.5 代碼可幫助您兌換原始石、魔法礦物、經驗和許多其他獎勵。

如何將 iPad 變成額外的 Mac 顯示器

如何將 iPad 變成額外的 Mac 顯示器

macOS Catalina 和 iPadOS 支援一項名為 Sidecar 的新功能,旨在讓您將 iPad 用作 Mac 的輔助顯示器。

桌布1280,漂亮的諾基亞1280手機桌布

桌布1280,漂亮的諾基亞1280手機桌布

這是一組諾基亞 1280 壁紙,如果您曾經發短信獲取 1280 壁紙、磚塊手機壁紙,那麼請嘗試看看這些壁紙。

高超音速太空飛機速度達11115公里/小時

高超音速太空飛機速度達11115公里/小時

維納斯航空航太公司公佈了其新型高超音速飛機 Stargazer 的首批影像,該機最高時速可達 11,115 公里/小時,相當於 9 馬赫。

早餐吃香蕉有助於減少腹脹

早餐吃香蕉有助於減少腹脹

任何人都可能出現腹脹。好消息是,早餐是為您的餐點添加一些有助於減少腹脹的食材的最佳時機。那個成分是香蕉。

OpenAI 宣布對 ChatGPT 中的 AI 影像生成進行重大更新

OpenAI 宣布對 ChatGPT 中的 AI 影像生成進行重大更新

OpenAI 剛剛正式介紹了 ChatGPT 中 AI 影像生成能力的顯著升級,這是一個重要的進步,而不是像之前的 DALL-E 那樣使用單獨的影像生成模型。

Deepseek 發布免費語言模型 v3,可在常見硬體配置上運作良好

Deepseek 發布免費語言模型 v3,可在常見硬體配置上運作良好

中國人工智慧新創公司 DeepSeek 剛正式發布其最新的大型語言模型 (LLM) DeepSeek-V3-0324。

放棄 Gboard 並改用三星鍵盤的理由

放棄 Gboard 並改用三星鍵盤的理由

Gboard 長期以來一直是 Android 手機上的首選鍵盤。然而,最近許多人已經轉而使用三星鍵盤並且不再後悔。

給情侶們甜蜜浪漫的週末祝福

給情侶們甜蜜浪漫的週末祝福

向您的愛人送去甜蜜浪漫的週末祝福。雖然它們只是文字或訊息,但它們將是有意義的精神禮物,有助於加強你們的關係。