谷歌稱 Gemini 2.5 的表現優於 OpenAI、DeepSeek 和其他 AI 科技巨頭的最佳模型

谷歌剛剛推出了 Gemini 2.5,該公司稱其為「迄今為止最聰明的人工智慧模型」。該型號的第一個版本是 Gemini 2.5 Pro,在許多測試中取得了令人印象深刻的基準分數。

谷歌聲稱 Gemini 2.5 的表現優於 OpenAI、DeepSeek 和其他人工智慧科技巨頭的最佳模型

如果您是Gemini Advanced用戶,現在可以透過 Google AI Studio 和 Gemini 應用程式使用 Gemini 2.5 Pro 。 Gemini 2.5 Pro 也將在不久的將來透過 Vertex AI 上市。

目前,Google尚未公佈 Gemini 2.5 Pro 或其他 Gemini 2.5 型號的定價。

所有使用 Gemini 2.5 的模型都是“思維模型”,這意味著它們可以在產生反應之前處理思考過程。這些「推理」模型是人工智慧領域的下一個重大進步,因為它們可以產生更複雜、通常更準確的回應。

Google表示:“現在,透過 Gemini 2.5,我們透過結合顯著改進的基礎模型和改進的後訓練,實現了新的性能水平。”

“未來,我們將把這些思考能力直接融入到我們所有的模型中,以便它們能夠處理更複雜的問題,並為代理提供更好的情境感知能力。 ”

Gemini 2.5 與 OpenAI 模式相比如何?

谷歌稱 Gemini 2.5 的表現優於 OpenAI、DeepSeek 和其他 AI 科技巨頭的最佳模型
Google Gemini 2.5 基準測試

Google 的 Gemini 2.5 Pro 模型的表現優於 OpenAI 和 DeepSeek 之前的頂級模型。

Google分享的 Gemini 2.5 基準測試成績相當令人印象深刻。 Gemini 2.5 Pro Experimental 在人類的最後考試中獲得了 18.5% 的成績。

這個分數意味著,至少目前,Gemini 2.5 Pro Experimental 是按照該指標測量的最佳型號。其得分超過了OpenAI 03-mini(14%)和DeepSeek R1(8.6%)。

儘管該特定測試不是衡量人工智慧模型性能的唯一方法,但它被認為很難。

谷歌也強調了 Gemini 2.5 Pro 的程式設計能力以及該模型在數學和科學方面的基準。根據 GPQA 和 AIME 2025 的測量,Gemini 2.5 Pro 目前在數學和科學基準測試中處於領先地位。

可以在 Gemini 2.5 中編程嗎?

程式設計是 Gemini 2.5 的主要重點。谷歌聲稱“從 2.0 開始有了巨大的飛躍”,並透露更多改進即將推出。

谷歌的新模型可以創建網路應用程式和代理程式碼應用程式。谷歌的示範展示如何使用 Gemini 2.5 Pro 透過單行提示創建遊戲。

Google Gemini 2.5 Pro 對企業 AI 至關重要的 4 個原因

以下是企業團隊在評估 Gemini 2.5 Pro 時需要牢記的四個關鍵點。

1. 結構化、透明的推理-思維清晰度的新標準

Gemini 2.5 Pro 的與眾不同之處不僅在於它的智能,還在於這種智能如何清楚地展示其工作。谷歌的循序漸進的訓練方法創造了一種結構化的思維(CoT),它並不像我們在DeepSeek等模型中看到的那樣是漫無目的或猜測。這些 CoT 不會像 OpenAI 的模型那樣被截斷為膚淺的摘要。新的 Gemini 模型以編號步驟的形式呈現想法,並帶有子項目符號和極其清晰透明的內部邏輯。

從實際角度來看,這是可靠性和可導航性的突破。評估關鍵任務輸出(例如審查政策含義、編碼邏輯或總結複雜研究)的業務用戶現在可以看到模型是如何得出答案的。這意味著他們可以更有自信地驗證、修正或重新定向答案。這與許多大型語言模型 (LLM)輸出中仍然存在的「黑盒子」感覺相比有了很大的進步。

若要了解此型號性能的更深入指南,請查看 Gemini 2.5 Pro 現場測試的視訊細分。討論的一個例子是:當被問及大型語言模型的限制時,Gemini 2.5 Pro 表現出了非凡的意識。它概述了常見的弱點,並將其分為「物理直覺」、「新概念綜合」、「長期規劃」和「道德細微差別」等領域,提供了一個框架,幫助使用者了解模型的知識以及如何解決問題。

企業工程團隊可以利用此功能:

  • 調試關鍵任務應用程式中的複雜邏輯鏈
  • 更好地理解特定領域的模型局限性
  • 為利害關係人提供更透明的人工智慧決策
  • 透過研究模型的方法來提升自己的批判性思維

一個值得注意的限制是,雖然這種結構化推理在 Gemini 應用程式和 Google AI Studio 中可用,但目前無法透過 API 存取——這對於希望將此功能整合到企業應用程式中的開發人員來說是一個缺點。

2. 尖端科技的真正競爭者-不只是理論上的

該車型目前在 Chatbot Arena 排行榜上遙遙領先,比排名第二的車型高出 35 個 Elo 積分以上,尤其是在 Gemini 2.5 Pro 發布後第二天推出的 OpenAI 4o 更新。雖然基準測試的主導地位往往是短暫的(因為每週都會推出新車型),但 Gemini 2.5 Pro 確實給人一種不同的感覺。

谷歌稱 Gemini 2.5 的表現優於 OpenAI、DeepSeek 和其他 AI 科技巨頭的最佳模型

它擅長於獎勵深度推理的任務:編碼、細緻的問題解決、跨文件總結,甚至是抽象規劃。在內部測試中,它在先前很難的基準測試中表現得特別出色,例如“人類的最後考試”,這是用於檢測 LLM 在抽象和細微領域的弱點的流行基準。

商業團體可能並不關心哪種模式贏得哪種學術排名。但他們會關心這個模型是否能夠思考——並向你展示它是如何思考的。振動測試非常重要。

正如受人尊敬的人工智慧工程師 Nathan Lambert 所說:「Google再次擁有了最好的模型,因為他們本應引領整個人工智慧熱潮。這個大錯誤已經被糾正了。」Google 再次擁有了最好的模型,因為他們本應引領整個人工智慧熱潮。這個大錯誤已經被糾正了。」商業用戶應該看到,這不僅是谷歌在追趕競爭對手,而且有可能在對商業應用至關重要的功能上超越他們。

3. 最後,Google的加密技術非常強大

傳統上,Google在以開發人員為中心的編碼支援方面落後於 OpenAI 和 Anthropic。 Gemini 2.5 Pro 改變了這一點。

在實際測試中,它展示了強大的一次性編碼挑戰能力,包括構建一個可運行的俄羅斯方塊遊戲,該遊戲在導出到 Replit 時第一次嘗試即可運行 - 無需調試。更值得注意的是,它清楚地解釋了程式碼結構,周到地標記了變數和步驟,並在編寫一行程式碼之前提出了它的方法。

該模型與 Anthropic 的 Claude 3.7 Sonnet 競爭,後者被認為是程式碼生成領域的領導者,也是 Anthropic 在企業中取得成功的主要原因。但 Gemini 2.5 有一個重要的優勢:高達 100 萬的龐大令牌上下文視窗。 Claude 3.7 Sonnet 目前僅提供 50 萬個代幣。

這個大型上下文視窗為整個程式碼庫的推理、閱讀線上文件以及處理多個相互依賴的文件開闢了新的可能性。軟體工程師西蒙威利森 (Simon Willison) 的經歷證明了這一優勢。

當使用 Gemini 2.5 Pro 在我們的程式碼庫中實現新功能時,該模型識別了 18 個不同檔案中必要的更改,並在大約 45 分鐘內完成了整個項目,平均每個修改檔案不到 3 分鐘。對於嘗試代理框架或人工智慧開發環境的企業來說,這是一個重要的工具。

4. 具有類別代理行為的多方法集成

雖然像 OpenAI 最新的 4o 這樣的一些模型可能會透過引人注目的圖像生成展現出更多的閃光點,但 Gemini 2.5 Pro 感覺它正在悄悄地重新定義基於多模態推理的樣子。

在一個例子中,Ben Dickson 為 VentureBeat 進行的親身實驗展示了該模型從有關搜尋演算法的技術論文中提取關鍵資訊並產生相應的 SVG 流程圖的能力,然後在顯示具有視覺錯誤的渲染版本時改進該流程圖。這種程度的多模式推理使得創建以前僅使用文字模型無法實現的新工作流程成為可能。

在另一個例子中,開發人員 Sam Witteveen 上傳了一張拉斯維加斯地圖的簡單截圖,並詢問 4 月 9 日附近有哪些 Google 活動。該模型識別了位置,推斷了用戶的意圖,進行了在線搜索,並返回了有關 Google Cloud Next 的準確詳細信息,包括日期、地點和引文。所有這些都不需要自訂代理框架,只需要核心模型和內建搜尋。

事實上,這種多模態輸入推理模型不只是看起來那麼簡單。它顯示了 6 個月後業務工作流程可能會是什麼樣子:上傳文件、圖表和儀表板,並讓模型根據內容進行綜合、規劃或採取有意義的行動。

Leave a Comment

Chromecast 正式停產

Chromecast 正式停產

如果您想更換智慧電視體驗或將任何電視變成智慧電視,Google的 Chromecast 系列一直是受歡迎的選擇。

谷歌宣布推出 Android XR,一個用於 AR 和 VR 眼鏡的全新作業系統平台

谷歌宣布推出 Android XR,一個用於 AR 和 VR 眼鏡的全新作業系統平台

經過多年的忽視,Google終於決定將投資重點重新放在耳機和眼鏡等擴展現實 (XR) 設備上。

試試 Google Gemini 的 5 個理由

試試 Google Gemini 的 5 個理由

雖然不像一些競爭對手那樣受到廣泛討論,但Google的 Gemini AI 仍有很多優勢——以下是 Gemini 值得你關注的五個理由。

谷歌從 iPhone 版谷歌應用程式中移除 Gemini 訪問

谷歌從 iPhone 版谷歌應用程式中移除 Gemini 訪問

由於谷歌最近從該應用程式中刪除了對 Gemini AI 的存取權限,iPhone 版谷歌應用程式的實用性即將下降。

Google確認第二代 Chromecast 和 Chromecast Audio 有問題

Google確認第二代 Chromecast 和 Chromecast Audio 有問題

經過幾天的混亂之後,Google正式確認了第二代 Chromecast 和 Chromecast Audio 都存在這個問題。

如何在 Chrome Android 上啟用和使用 Google Assistant

如何在 Chrome Android 上啟用和使用 Google Assistant

谷歌正在逐步淘汰其舊的語音辨識技術,並用其虛擬助理 Assistant 取而代之。

Google宣布 Android 手機將推出 6 項新功能

Google宣布 Android 手機將推出 6 項新功能

谷歌今天宣布了 Android 智慧型手機即將推出的六項新功能。

Android 12 上的隱私儀表板是什麼?為什麼說這是隱私的突破?

Android 12 上的隱私儀表板是什麼?為什麼說這是隱私的突破?

安全和隱私日益成為智慧型手機用戶普遍關注的主要議題。

ChatGPT 搜尋還是 Google 比較好?

ChatGPT 搜尋還是 Google 比較好?

許多人一直在嘗試,看看是否真的可以用 ChatGPT Search Chrome 擴充功能取代Google。

Google 正式移除 Chrome 中的 Manifest V2 擴充程序

Google 正式移除 Chrome 中的 Manifest V2 擴充程序

等待已久,這一天終於到來了。人們報告說他們的舊 Manifest v2 擴充功能已從 Chrome 中刪除。那現在怎麼辦?

Google 推出 12 月 Pixel 更新,大部分與 Gemini 相關

Google 推出 12 月 Pixel 更新,大部分與 Gemini 相關

此次最新更新引入了與相機、音訊和視覺工具相關的改進,最重要的是Google的人工智慧助理 Gemini。

Google與高通分道揚鑣,Pixel 10 系列選擇聯發科 5G 數據機

Google與高通分道揚鑣,Pixel 10 系列選擇聯發科 5G 數據機

Google決定終止與高通的長期合作關係,轉而在 Pixel 10 系列中使用聯發科的 T900 調變解調器。

Perplexity 的社群搜尋需要這 3 個功能才能與 Google 競爭

Perplexity 的社群搜尋需要這 3 個功能才能與 Google 競爭

Perplexity 的常規搜尋引擎很棒,但其社交搜尋功能卻有很多不足之處。在 Perplexity 考慮與 Google 在該領域競爭之前,它需要這些新功能。

Gemini 的免費版本剛剛消除了一個主要限制

Gemini 的免費版本剛剛消除了一個主要限制

作為最強大的文字轉圖像 AI 模型之一,Google的 Imagen 3 已經在 Gemini 應用程式上可用,但僅限於一定範圍內。

來自…Google的新 Gmail 詐騙?

來自…Google的新 Gmail 詐騙?

您收到的帳戶安全電子郵件並非全部都是有效的。如果您在 Gmail 收件匣中看到來自 Google 的電子郵件,請三思。一種新的 Gmail 詐騙正在流行 — — 而且它看起來直接來自 Google。

如何修復 Microsoft Teams 錯誤代碼 2603 (2026)

如何修復 Microsoft Teams 錯誤代碼 2603 (2026)

遇到 Microsoft Teams 錯誤代碼 2603 而煩惱?我們的逐步指南可協助您快速解決問題,修復最新 2026 更新中的安裝失敗、當機等問題。適用於所有用戶!

如何修復 Microsoft Teams 錯誤 K 安全

如何修復 Microsoft Teams 錯誤 K 安全

遇到 Microsoft Teams 安全錯誤 K 時遇到問題?按照我們的逐步指南即可快速解決—無需任何技術知識。立即恢復流暢協作!

解決 Microsoft Teams 錯誤 N 網路

解決 Microsoft Teams 錯誤 N 網路

還在為 Microsoft Teams 的「錯誤 N」網路問題苦惱嗎?取得解決 Microsoft Teams「錯誤 N」網路問題的逐步指南,從快速重新啟動到進階故障排除,應有盡有。立即恢復流暢的通話和會議體驗!

一步一步教你如何在會議開始前建立分組討論室

一步一步教你如何在會議開始前建立分組討論室

透過這份詳盡的逐步指南,即可在 Zoom 會議開始前輕鬆建立分組討論室,實現無縫協作。預先分配與會者,最大程度提升參與。本指南是教育工作者、團隊和領導者的理想選擇。

解決 Microsoft Teams 中「Teams 資料夾在哪裡」的錯誤

解決 Microsoft Teams 中「Teams 資料夾在哪裡」的錯誤

還在為 Microsoft Teams 中令人抓狂的「Teams 資料夾在哪裡」錯誤而煩惱嗎?我們提供經過驗證的逐步故障排除方法,協助您快速解決問題,恢復流暢的團隊合作。包含最新方法!

解決 Microsoft Teams Mac 版錯誤鑰匙圈問題

解決 Microsoft Teams Mac 版錯誤鑰匙圈問題

還在為 Microsoft Teams Mac 版鑰匙圈錯誤而煩惱嗎?我們提供經過驗證的 macOS 逐步故障排除方案,協助您恢復流暢協作。快速解決方案就在眼前!

如何解決 Microsoft Teams 麥克風聲音模糊或無聲音的問題

如何解決 Microsoft Teams 麥克風聲音模糊或無聲音的問題

還在為 Microsoft Teams 麥克風聲音模糊或無聲而煩惱嗎?了解如何透過快速有效的步驟解決 Microsoft Teams 麥克風問題。清晰的音訊體驗,等你來體驗!

解決公共 Wi-Fi 上的 Microsoft Teams 網路錯誤

解決公共 Wi-Fi 上的 Microsoft Teams 網路錯誤

在公共 Wi-Fi 環境下遇到 Microsoft Teams 網路錯誤?立即取得 VPN 調整、連接埠檢查和快取清除等快速修復方法,恢復通話和會議的流暢運作。逐步指南助您快速解決問題。

透過直接連結解決 Microsoft Teams 加入會議錯誤

透過直接連結解決 Microsoft Teams 加入會議錯誤

遇到 Microsoft Teams 加入會議錯誤?點擊連結查看已驗證的解決方法。快速修復,輕鬆加入會議—無需任何技術技能!

如何運用 Microsoft Teams Copilot 實現 AI 賦能的生產力

如何運用 Microsoft Teams Copilot 實現 AI 賦能的生產力

了解如何使用 Microsoft Teams Copilot 提升 AI 賦能的生產力。逐步指南、關鍵功能和技巧,幫助您輕鬆革新會議、聊天和任務。立即開啟更聰明的協作!

Outlook 中的 Microsoft Teams 在哪裡?如何找到遺失的圖標

Outlook 中的 Microsoft Teams 在哪裡?如何找到遺失的圖標

Outlook 找不到 Microsoft Teams 圖示?想知道它到底在哪裡、為什麼會消失,以及如何恢復它才能輕鬆召開會議?本文已更新至最新版本!

今日 Microsoft Teams 錯誤排查:首先要檢查什麼

今日 Microsoft Teams 錯誤排查:首先要檢查什麼

今天遇到 Microsoft Teams 錯誤?這份 Microsoft Teams 逐步故障排除指南將揭示快速解決問題的首要步驟。快速修復連線、快取和更新問題,讓您恢復流暢的聊天體驗。

為什麼我的 Outlook 中缺少 Microsoft Teams 加載項?

為什麼我的 Outlook 中缺少 Microsoft Teams 加載項?

找不到 Outlook 中的 Microsoft Teams 加載項,是不是很困擾?本文將為您揭示主要原因,並提供簡單的逐步修復方案,幫助您輕鬆恢復 Teams 與 Outlook 的無縫整合。適用於最新版本!

解決 Microsoft Teams 歡迎畫面啟動循環問題

解決 Microsoft Teams 歡迎畫面啟動循環問題

還在為 Microsoft Teams 歡迎介面啟動循環而煩惱嗎?請依照我們經過驗證的 Microsoft Teams 歡迎介面啟動循環故障排除步驟操作:清除快取、重設應用程式、重新安裝。幾分鐘內即可恢復流暢協作!

為什麼我的 Microsoft Teams 狀態一直顯示為「離開」?

為什麼我的 Microsoft Teams 狀態一直顯示為「離開」?

您的 Microsoft Teams 狀態一直顯示為「離開」而感到沮喪嗎?了解主要原因,例如空閒超時和電源設置,以及快速恢復“在線”狀態的逐步修復方法。已更新至最新的 Teams 功能。