谷歌宣布推出 Android XR,一個用於 AR 和 VR 眼鏡的全新作業系統平台
經過多年的忽視,Google終於決定將投資重點重新放在耳機和眼鏡等擴展現實 (XR) 設備上。
谷歌剛剛推出了 Gemini 2.5,該公司稱其為「迄今為止最聰明的人工智慧模型」。該型號的第一個版本是 Gemini 2.5 Pro,在許多測試中取得了令人印象深刻的基準分數。
谷歌聲稱 Gemini 2.5 的表現優於 OpenAI、DeepSeek 和其他人工智慧科技巨頭的最佳模型
如果您是Gemini Advanced用戶,現在可以透過 Google AI Studio 和 Gemini 應用程式使用 Gemini 2.5 Pro 。 Gemini 2.5 Pro 也將在不久的將來透過 Vertex AI 上市。
目前,Google尚未公佈 Gemini 2.5 Pro 或其他 Gemini 2.5 型號的定價。
所有使用 Gemini 2.5 的模型都是“思維模型”,這意味著它們可以在產生反應之前處理思考過程。這些「推理」模型是人工智慧領域的下一個重大進步,因為它們可以產生更複雜、通常更準確的回應。
Google表示:“現在,透過 Gemini 2.5,我們透過結合顯著改進的基礎模型和改進的後訓練,實現了新的性能水平。”
“未來,我們將把這些思考能力直接融入到我們所有的模型中,以便它們能夠處理更複雜的問題,並為代理提供更好的情境感知能力。 ”
Gemini 2.5 與 OpenAI 模式相比如何?
Google 的 Gemini 2.5 Pro 模型的表現優於 OpenAI 和 DeepSeek 之前的頂級模型。
Google分享的 Gemini 2.5 基準測試成績相當令人印象深刻。 Gemini 2.5 Pro Experimental 在人類的最後考試中獲得了 18.5% 的成績。
這個分數意味著,至少目前,Gemini 2.5 Pro Experimental 是按照該指標測量的最佳型號。其得分超過了OpenAI 03-mini(14%)和DeepSeek R1(8.6%)。
儘管該特定測試不是衡量人工智慧模型性能的唯一方法,但它被認為很難。
谷歌也強調了 Gemini 2.5 Pro 的程式設計能力以及該模型在數學和科學方面的基準。根據 GPQA 和 AIME 2025 的測量,Gemini 2.5 Pro 目前在數學和科學基準測試中處於領先地位。
可以在 Gemini 2.5 中編程嗎?
程式設計是 Gemini 2.5 的主要重點。谷歌聲稱“從 2.0 開始有了巨大的飛躍”,並透露更多改進即將推出。
谷歌的新模型可以創建網路應用程式和代理程式碼應用程式。谷歌的示範展示如何使用 Gemini 2.5 Pro 透過單行提示創建遊戲。
Google Gemini 2.5 Pro 對企業 AI 至關重要的 4 個原因
以下是企業團隊在評估 Gemini 2.5 Pro 時需要牢記的四個關鍵點。
1. 結構化、透明的推理-思維清晰度的新標準
Gemini 2.5 Pro 的與眾不同之處不僅在於它的智能,還在於這種智能如何清楚地展示其工作。谷歌的循序漸進的訓練方法創造了一種結構化的思維(CoT),它並不像我們在DeepSeek等模型中看到的那樣是漫無目的或猜測。這些 CoT 不會像 OpenAI 的模型那樣被截斷為膚淺的摘要。新的 Gemini 模型以編號步驟的形式呈現想法,並帶有子項目符號和極其清晰透明的內部邏輯。
從實際角度來看,這是可靠性和可導航性的突破。評估關鍵任務輸出(例如審查政策含義、編碼邏輯或總結複雜研究)的業務用戶現在可以看到模型是如何得出答案的。這意味著他們可以更有自信地驗證、修正或重新定向答案。這與許多大型語言模型 (LLM)輸出中仍然存在的「黑盒子」感覺相比有了很大的進步。
若要了解此型號性能的更深入指南,請查看 Gemini 2.5 Pro 現場測試的視訊細分。討論的一個例子是:當被問及大型語言模型的限制時,Gemini 2.5 Pro 表現出了非凡的意識。它概述了常見的弱點,並將其分為「物理直覺」、「新概念綜合」、「長期規劃」和「道德細微差別」等領域,提供了一個框架,幫助使用者了解模型的知識以及如何解決問題。
企業工程團隊可以利用此功能:
一個值得注意的限制是,雖然這種結構化推理在 Gemini 應用程式和 Google AI Studio 中可用,但目前無法透過 API 存取——這對於希望將此功能整合到企業應用程式中的開發人員來說是一個缺點。
2. 尖端科技的真正競爭者-不只是理論上的
該車型目前在 Chatbot Arena 排行榜上遙遙領先,比排名第二的車型高出 35 個 Elo 積分以上,尤其是在 Gemini 2.5 Pro 發布後第二天推出的 OpenAI 4o 更新。雖然基準測試的主導地位往往是短暫的(因為每週都會推出新車型),但 Gemini 2.5 Pro 確實給人一種不同的感覺。
它擅長於獎勵深度推理的任務:編碼、細緻的問題解決、跨文件總結,甚至是抽象規劃。在內部測試中,它在先前很難的基準測試中表現得特別出色,例如“人類的最後考試”,這是用於檢測 LLM 在抽象和細微領域的弱點的流行基準。
商業團體可能並不關心哪種模式贏得哪種學術排名。但他們會關心這個模型是否能夠思考——並向你展示它是如何思考的。振動測試非常重要。
正如受人尊敬的人工智慧工程師 Nathan Lambert 所說:「Google再次擁有了最好的模型,因為他們本應引領整個人工智慧熱潮。這個大錯誤已經被糾正了。」Google 再次擁有了最好的模型,因為他們本應引領整個人工智慧熱潮。這個大錯誤已經被糾正了。」商業用戶應該看到,這不僅是谷歌在追趕競爭對手,而且有可能在對商業應用至關重要的功能上超越他們。
3. 最後,Google的加密技術非常強大
傳統上,Google在以開發人員為中心的編碼支援方面落後於 OpenAI 和 Anthropic。 Gemini 2.5 Pro 改變了這一點。
在實際測試中,它展示了強大的一次性編碼挑戰能力,包括構建一個可運行的俄羅斯方塊遊戲,該遊戲在導出到 Replit 時第一次嘗試即可運行 - 無需調試。更值得注意的是,它清楚地解釋了程式碼結構,周到地標記了變數和步驟,並在編寫一行程式碼之前提出了它的方法。
該模型與 Anthropic 的 Claude 3.7 Sonnet 競爭,後者被認為是程式碼生成領域的領導者,也是 Anthropic 在企業中取得成功的主要原因。但 Gemini 2.5 有一個重要的優勢:高達 100 萬的龐大令牌上下文視窗。 Claude 3.7 Sonnet 目前僅提供 50 萬個代幣。
這個大型上下文視窗為整個程式碼庫的推理、閱讀線上文件以及處理多個相互依賴的文件開闢了新的可能性。軟體工程師西蒙威利森 (Simon Willison) 的經歷證明了這一優勢。
當使用 Gemini 2.5 Pro 在我們的程式碼庫中實現新功能時,該模型識別了 18 個不同檔案中必要的更改,並在大約 45 分鐘內完成了整個項目,平均每個修改檔案不到 3 分鐘。對於嘗試代理框架或人工智慧開發環境的企業來說,這是一個重要的工具。
4. 具有類別代理行為的多方法集成
雖然像 OpenAI 最新的 4o 這樣的一些模型可能會透過引人注目的圖像生成展現出更多的閃光點,但 Gemini 2.5 Pro 感覺它正在悄悄地重新定義基於多模態推理的樣子。
在一個例子中,Ben Dickson 為 VentureBeat 進行的親身實驗展示了該模型從有關搜尋演算法的技術論文中提取關鍵資訊並產生相應的 SVG 流程圖的能力,然後在顯示具有視覺錯誤的渲染版本時改進該流程圖。這種程度的多模式推理使得創建以前僅使用文字模型無法實現的新工作流程成為可能。
在另一個例子中,開發人員 Sam Witteveen 上傳了一張拉斯維加斯地圖的簡單截圖,並詢問 4 月 9 日附近有哪些 Google 活動。該模型識別了位置,推斷了用戶的意圖,進行了在線搜索,並返回了有關 Google Cloud Next 的準確詳細信息,包括日期、地點和引文。所有這些都不需要自訂代理框架,只需要核心模型和內建搜尋。
事實上,這種多模態輸入推理模型不只是看起來那麼簡單。它顯示了 6 個月後業務工作流程可能會是什麼樣子:上傳文件、圖表和儀表板,並讓模型根據內容進行綜合、規劃或採取有意義的行動。
經過多年的忽視,Google終於決定將投資重點重新放在耳機和眼鏡等擴展現實 (XR) 設備上。
雖然不像一些競爭對手那樣受到廣泛討論,但Google的 Gemini AI 仍有很多優勢——以下是 Gemini 值得你關注的五個理由。
由於谷歌最近從該應用程式中刪除了對 Gemini AI 的存取權限,iPhone 版谷歌應用程式的實用性即將下降。
經過幾天的混亂之後,Google正式確認了第二代 Chromecast 和 Chromecast Audio 都存在這個問題。
谷歌正在逐步淘汰其舊的語音辨識技術,並用其虛擬助理 Assistant 取而代之。
谷歌今天宣布了 Android 智慧型手機即將推出的六項新功能。
安全和隱私日益成為智慧型手機用戶普遍關注的主要議題。
許多人一直在嘗試,看看是否真的可以用 ChatGPT Search Chrome 擴充功能取代Google。
等待已久,這一天終於到來了。人們報告說他們的舊 Manifest v2 擴充功能已從 Chrome 中刪除。那現在怎麼辦?
此次最新更新引入了與相機、音訊和視覺工具相關的改進,最重要的是Google的人工智慧助理 Gemini。
Google決定終止與高通的長期合作關係,轉而在 Pixel 10 系列中使用聯發科的 T900 調變解調器。
Perplexity 的常規搜尋引擎很棒,但其社交搜尋功能卻有很多不足之處。在 Perplexity 考慮與 Google 在該領域競爭之前,它需要這些新功能。
作為最強大的文字轉圖像 AI 模型之一,Google的 Imagen 3 已經在 Gemini 應用程式上可用,但僅限於一定範圍內。
您收到的帳戶安全電子郵件並非全部都是有效的。如果您在 Gmail 收件匣中看到來自 Google 的電子郵件,請三思。一種新的 Gmail 詐騙正在流行 — — 而且它看起來直接來自 Google。
大多數人可能都會同意 Windows 11 不是一個完美的作業系統。然而,它並非全是壞事,事實上 Windows 11 包含許多有用的功能,但許多人不知道或沒有利用這些功能。
三星的 Gallery 應用程式功能比您想像的更強大,但這可能不是顯而易見的。
據稱,微軟已於 10 月 1 日獲得一項可折疊手機專利,該手機可 360 度折疊,但不會在螢幕上產生皺紋,這意味著微軟距離推出其首款可折疊智慧型手機已經越來越近。
谷歌正在測試透過搜尋中的藍色複選標記進行驗證的新功能。此功能將幫助用戶避免點擊虛假或欺詐性的網站連結。
乍一看,Microsoft 365 和 Office 2024 可能看起來非常相似,因為它們都允許您存取 Microsoft 流行且廣泛使用的應用程式。
元素地下城代碼是遊戲玩家必備的獎勵形式。與 Roblox 上的任何其他線上遊戲一樣,玩家可以透過金錢或其他物品來獲得這些幫助。
列印Word文件時,在Word中建立表格,在Word中重複標題可以幫助我們更方便地追蹤標題,跨不同頁面無縫閱讀文件標題,尤其是長標題。
新的 iOS 18 iMessage 更新了動畫訊息、文字效果以及可用於發送訊息的多種選項。
關於豬,有一個有趣的事實並不是所有人都知道:豬被認為是蛇的敵人,因為當這兩種動物相遇時,大多數蛇都會成為豬的食物。
地球到木星的距離是多少?如果你不知道,本文將告訴你木星距離地球有多遠。
哪些將軍不屬於行動聯盟元數據?現在讓我們來探索一下
第 1 季、第 3 季和第 6 季的 Graves DTCL 都只花費 1 金幣,似乎只是為了刺激部落而增加的一個額外冠軍,在遊戲初期的主要角色仍然被使用,但並不多。截至 DTCL 第 7.5 季,格雷夫斯的價格已飆升至 4 金,如果您決定玩雷龍或槍手,他絕對是不可或缺的攜帶者。
對於三星手機,您應該使用單獨的應用程式聲音功能。例如,您可以播放 Apple Music,您的手機將透過汽車的揚聲器播放音訊。
網路上有很多關於工作的良好狀態。本文將為您總結好的、有意義的工作狀態。
什麼是好的、有意義的結婚紀念日標題?本文將為您總結一些簡短、簡潔的周年紀念標題,可以讓您的伴侶永遠記住。
Code Dai Hiep Phong Van 幫助玩家使用有吸引力的獎勵,即使他們剛開始在遊戲中漫遊世界。