谷歌AI突然登頂,震驚全球
AI頭把交椅一夜易主,科技巨頭的競爭不是一般激烈。??
一、谷歌AI拿下三連冠
科技巨頭谷歌突然開大,在AI領(lǐng)域掀起了滔天巨浪。
近日,谷歌提前放出了全新升級的Gemini 2.5 Pro Preview(I/O版),新模型一舉拿下三連冠,登頂LMeana。
同時,它也成為首個橫掃文本、視覺、WebDev Arena基準的SOTA模型。
進一步說,這也是自2022年底ChatGPT引爆生成式AI熱潮以來,谷歌首次在關(guān)鍵的代碼生成評估指標上全面領(lǐng)先,擊敗所有競爭對手。

圖源:Google

圖源:Google

圖源:Google
此次發(fā)布的版本是今年3月發(fā)布的多模態(tài)大語言模型Gemini 2.5 Pro的重大升級版。
谷歌在表示,本來計劃在谷歌I/O上發(fā)布這個更新,但看到大家對這款模型的熱情高漲,所以決定提前放出,讓所有人能盡早開發(fā)使用。
目前,該模型已向Google AI Studio的獨立開發(fā)者、Vertex AI云平臺的企業(yè)用戶以及Gemini應(yīng)用的普通用戶開放。
同時,谷歌表示,其并未調(diào)整模型定價或速率限制:目前使用Gemini 2.5 Pro的用戶將自動切換至新模型,價格仍為每百萬輸入token收費1.25美元,每百萬輸出token收費10美元,最多支持20萬token的上下文窗口。
相較于Claude 3.7 Sonnet的15美元,很顯然谷歌模型更具價格優(yōu)勢。并且,企業(yè)用戶還可通過Canvas工具實現(xiàn)低代碼開發(fā)流程。

圖源:Google
公開數(shù)據(jù)表明,谷歌新模型得分為1499.95,遠高于Sonnet 3.7的1377.10,編碼性能碾壓Claude 3.7 Sonnet。

圖源:微博
此前,舊版本的Gemini 2.5 Pro(03-25)得分為1278.96,排名位列第三。當(dāng)然,這也意味著新版本實現(xiàn)了221分的大幅躍升。
同時,DeepMind CEO德米斯·哈薩比斯也表示,“非常高興能與大家分享我們有史以來構(gòu)建的最佳編程模型!今天,我們發(fā)布了 Gemini 2.5 Pro Preview I/O 版,編程能力得到了大幅提升。此版本在 LMArena 編程類別中排名第一,在 WebDev Arena 排行榜上同樣領(lǐng)先。”

圖源:微博
可以說,頭把交椅的易主,盡顯谷歌的實力與野心。
二、新模型的三大亮點解讀
當(dāng)然,從谷歌公布的各項初步基準測試結(jié)果來看,外界對新模型的盛譽也并非夸大其詞。那么,我們來聊一聊有哪些讓人眼前一亮的提升。
首先,Gemini 2.5 Pro Preview(I/O版)重點突破在于:只需通過一條提示即可構(gòu)建完整、可交互的網(wǎng)頁應(yīng)用或模擬程序。
對此,谷歌表示,用戶可以輸入視覺模式或主題性提示,將其直接轉(zhuǎn)化為可運行的代碼,這顯著降低了設(shè)計導(dǎo)向型開發(fā)者或創(chuàng)新團隊的入門門檻。

圖源:Google
換句話說,作為普通用戶,即便沒有編程基礎(chǔ),也能通過Gemini 2.5 Pro Preview(I/O版)快速構(gòu)建復(fù)雜應(yīng)用。
例如,用戶只需用自然語言描述需求,或上傳一張手繪草圖,Gemini 2.5 Pro I/O版就能自動識別草圖布局并生成響應(yīng)式代碼,若用戶繪制了一個麥克風(fēng)圖標,系統(tǒng)不僅會生成錄音按鈕,還會配套動態(tài)波形動畫和暫停邏輯,最后自動生成功能完備的Web應(yīng)用。

圖源:微博
同時,用戶添加新功能時,模型能繼承現(xiàn)有項目的視覺風(fēng)格,避免“拼貼感”,例如在已有React項目中新增組件時,CSS類名和動畫曲線會自動對齊。
對此功能,AI藝術(shù)工具EverArt首席執(zhí)行官彼得羅·斯基拉諾測試后直接表示,新版Gemini 2.5 Pro I/O能夠通過一個提示就生成互動模擬游戲,完美還原了“1只大猩猩大戰(zhàn)100人”的社交媒體梗。

圖源:微博
同時,Hyperbolic聯(lián)合創(chuàng)始人兼CTO Yuchen Jin也寫道:“Gemini 2.5 Pro Preview(05-06)現(xiàn)已成為我的首選編程模型。在多個高難度提示詞測試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動的水體效果這個提示為例,其表現(xiàn)完全碾壓另外兩個模型。谷歌,這完全夠格稱為Gemini 3了!”

圖源:微博
此外,某位X用戶“RameshR”(@rezmeram)也測試并展示了該模型在不到一分鐘內(nèi)生成的一款互動式俄羅斯方塊風(fēng)格拼圖游戲,并配有真實音效,他在帖文中寫道:“休閑游戲行業(yè)要完蛋了!”
除了單條文本提示便能生成完整應(yīng)用這一亮點以外,Gemini 2.5 Pro I/O版還將視頻理解能力推向新高度。

圖源:微博
憑借在VideoMME等基準測試中高達84.8%的SOTA視頻理解能力,Gemini 2.5 Pro能夠?qū)⒁曨l內(nèi)容直接轉(zhuǎn)化為交互式學(xué)習(xí)應(yīng)用,為教育、產(chǎn)品演示等領(lǐng)域開辟了新途徑。
在前端開發(fā)流程中,Gemini 2.5 Pro致力于智能化“設(shè)計稿到代碼”的過程。它能更好地理解設(shè)計風(fēng)格,自動生成匹配的CSS代碼,例如在現(xiàn)有應(yīng)用風(fēng)格基礎(chǔ)上添加新功能時,能自動匹配整體視覺設(shè)計,從而簡化開發(fā)。
此外,模型在快速將概念轉(zhuǎn)化為兼具功能與美感的應(yīng)用方面也展現(xiàn)出潛力。
例如,在谷歌DeepMind研究員Ali Eslami發(fā)布的另一個演示中,用Gemini 2.5 Pro“氛圍編程”功能進行了芝加哥藝術(shù)學(xué)院收藏品的3D導(dǎo)覽。

圖源:微博
最后,針對企業(yè)級開發(fā)的痛點,Gemini 2.5 Pro I/O版還展現(xiàn)出了優(yōu)越的代碼維護能力。
一方面,其支持跨框架遷移,如React轉(zhuǎn)Vue,能夠自動更新依賴項并修復(fù)兼容性問題。例如,有團隊將10萬行代碼庫從Angular遷移到Next.js,錯誤率僅0.3%。
另一方面,針對長期困擾開發(fā)者的“AI幻覺”問題,新一代模型通過強化學(xué)習(xí)機制將API調(diào)用錯誤率壓到了40%。例如,其在支付功能開發(fā)場景中,系統(tǒng)會智能規(guī)避虛構(gòu)接口陷阱,直接調(diào)用Stripe等經(jīng)過驗證的官方SDK,減少代碼坑害。
進一步說,Gemini 2.5 Pro I/O版更令人驚艷的是其注釋優(yōu)化能力,可以自動生成符合JSDoc規(guī)范的注釋,并支持一鍵過濾冗余說明,使得技術(shù)審查效率提升三倍以上。
綜上,Gemini 2.5 Pro I/O版的更新,實現(xiàn)了簡單提示詞生成代碼、圖片和視頻轉(zhuǎn)化為交互式網(wǎng)頁。
也就是說,AI已經(jīng)不僅僅是為用戶生成答案的搜索引擎,甚至可以直接充當(dāng)主體的角色,進行創(chuàng)作、數(shù)據(jù)分析、編程等,因此,直接弱化了工具與創(chuàng)造者的界限。
盡管在抽象思維層面尚未突破人類天花板,但其在具體場景中展現(xiàn)的效能已足夠顛覆傳統(tǒng)開發(fā)流程。
對于普通用戶而言,個體不再需要掌握編程語言,只需想象力和清晰的目的,就可以借助AI進行內(nèi)容創(chuàng)作,全民AI的藍圖無疑更加清晰。
同時,效率的提升必然會從個人應(yīng)用場景蔓延至團隊工作場景,再影響企業(yè)的戰(zhàn)略規(guī)劃,最終形成社會化的生產(chǎn)力要素來進行價值釋放。
這也意味著,這次更新,不僅是科技巨頭谷歌像外界展示大招,更意味著,人類在使用AI工具時的角色進一步轉(zhuǎn)變。
不過,對此也有網(wǎng)友變現(xiàn)出部分負面看法,認為這將嚴重擠壓平庸人在社會經(jīng)濟中的勞動附加值,也就是說,未來面對替代危機的,可能不僅僅是依賴簡單重復(fù)性勞動的群體。
或許,Gemini 2.5 Pro的霸榜或許只是序章,隨著科技巨頭的持續(xù)迭代,一個由AI驅(qū)動、人機共創(chuàng)的軟件工程新時代正在加速到來,讓我們拭目以待。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
