国产肉丝91一二区,啊啊啊啊舒服啊视频,国内精品无码一区二区三区

當(dāng)前位置：首頁>臨汾>谷歌“香蕉”殺死Photoshop，全球軟件業(yè)徹底變天了

谷歌“香蕉”殺死Photoshop，全球軟件業(yè)徹底變天了

發(fā)布時間：2025-09-17 來源：男婚女嫁網(wǎng)作者：后來呢zZ

文 | 硅基星芒

若論當(dāng)前最火的AI應(yīng)用，非谷歌的“香蕉”——Nano Banana莫屬。

Nano Banana原名是Gemini 2.5 Flash Image，但自從它“驗(yàn)明真身”，大家普遍反映還是Banana好記。

而“聽勸”的谷歌，也馬上把模型名換了回去。

不論是文本生成還是圖像編輯，Nano Banana都展現(xiàn)出了斷檔領(lǐng)先的實(shí)力。

首先來看看評分：

圖：LMarena文生圖模型排行榜

圖：LMarena圖像編輯模型排行榜

可以看到，文生圖能力屬于最優(yōu)一檔，而圖像編輯能力更是碾壓級別，幾乎砸穿了Photoshop的鍋。

我們可以篤定，Nano Banana之后，全球軟件業(yè)徹底變天了。

01 用戶體驗(yàn)：“驚艷”兩個字已不足以形容

事實(shí)上，“驚艷”這兩個字，已經(jīng)不足以形容Nano Banana的強(qiáng)大。

先前的文生圖評測中，我們已經(jīng)見識過它的本事。

但根據(jù)Gemini API文檔中的描述，它還有幾個其他的“拿手好活”：

在Nano Banana被發(fā)現(xiàn)出現(xiàn)于LMarena之前，各家大模型對于文生圖中的文字幾乎都“束手無策”。

哪怕不提漢字，只是英文單詞，生成出來的基本都是亂碼，令人難以理解。

Nano Banana輕而易舉地攻克了這一難關(guān)。

而最近讓Nano Banana在網(wǎng)絡(luò)上爆火的原因，則是有網(wǎng)友發(fā)現(xiàn)它可以制作精度極高的手辦圖。

圖片中的手辦完全能夠以假亂真，圈外人可能完全無法分辨這到底是不是真的手辦。

除此之外，Google還明確介紹了Nano Banana的其他生圖優(yōu)勢：

例如逼真的場景、風(fēng)格化的插圖和貼紙、產(chǎn)品模型和商業(yè)攝影、極簡風(fēng)格和負(fù)空間設(shè)計(jì)等。

而在圖像編輯方面，Nano Banana也能夠出色的完成以下任務(wù)：例如添加和移除元素、局部重繪、風(fēng)格遷移、組合多張圖片、高保真細(xì)節(jié)保留等……有效解決了以往模型“牽一發(fā)而動全身”的問題。

這么說可能有些抽象，我們用Nano Banana團(tuán)隊(duì)在采訪中談到的例子來解釋。

①像素級的修圖編輯

最常見的需求之一：只想修改一張圖像中的一處細(xì)節(jié)，但又希望其他部分保持原樣。

旅游照片P掉路過的游客、自拍照去掉熬夜的黑眼圈，這些對于以往的多模態(tài)模型來說，并不是一項(xiàng)很簡單的挑戰(zhàn)。

微小的修改往往會導(dǎo)致圖像整體風(fēng)格或結(jié)構(gòu)的不協(xié)調(diào)，而觀感則會遭到嚴(yán)重的破壞。

Robert Riachi在采訪中提到，團(tuán)隊(duì)在模型2.0版本時期遇到的一個主要挑戰(zhàn)，就是編輯時往往無法保證與圖像其他部分的一致性。

但通過持續(xù)的“爬坡訓(xùn)練”和用戶反饋收集，Nano Banana才取得了明顯的進(jìn)步。

無論是給小貓戴上一頂帽子，還是調(diào)整一件家具的方向，它都能做到保持場景的整體姿態(tài)和結(jié)構(gòu)不變，讓編輯的部分與圖像其余部分無縫融合。

而這種精準(zhǔn)的控制力，對于需要高度一致性的創(chuàng)作場景至關(guān)重要。

②不同角度的渲染

圖像雖然是2D的，但它反映的內(nèi)容卻是3D的。

因此，想要完成對現(xiàn)實(shí)世界中物體的精確編輯，還需要AI對三維空間具備一定的理解能力。

NanoBanana能夠從不同的角度渲染角色和物體，創(chuàng)造出全新的場景。

比如，上傳一件家具的圖像，讓它從側(cè)面或是背面重新生成，生成的結(jié)果仍然能保持高度一致性。

這種能力不僅是像素的復(fù)制，而是通過理解對象的外觀和深層結(jié)構(gòu)，對原始圖像進(jìn)行實(shí)質(zhì)性變換，而創(chuàng)作自由度也是由此而來。

③交錯式生成

相比于文本，圖像中包含的信息往往更多。

對于較為復(fù)雜的圖像生成任務(wù)，Nano Banana引入了“交錯式生成”的新范式。

傳統(tǒng)的文生圖模型需要一次性處理所有細(xì)節(jié)，如果指令中包含大量修改或元素的提示，模型就很容易發(fā)生“飽和”現(xiàn)象。

Nano Banana采取的解決方案是“化整為零”。

將復(fù)雜的提示分解為多個步驟，逐步進(jìn)行編輯或生成。

這種增量生成的方式，能夠讓模型處理細(xì)節(jié)時更加精準(zhǔn)。

同時，它還可以積累上下文信息，從而生成高度復(fù)雜且高質(zhì)量的圖像。

創(chuàng)作流程因此變得更加靈活可控，模型處理復(fù)雜任務(wù)的能力也得以顯著提升。

④超越用戶的預(yù)期

Mostafa Dehghani在訪談中提到了一個詞——“智能感”。

他給出了一個有趣的例子：在要求模型執(zhí)行某項(xiàng)操作時，模型并未原封不動地遵循并執(zhí)行他的指令。

但最終生成的結(jié)果卻比他實(shí)際描述的要更好，這使得他感到十分驚喜。

可以看出，Nano Banana已經(jīng)打破“執(zhí)行命令的工具”這一格局。

它具備一定的真實(shí)世界的相關(guān)知識和常識，能夠在一些特定情境下對用戶的模糊或錯誤指令進(jìn)行修正和優(yōu)化。

這種“智能”帶來的影響可好可壞，或許它無法達(dá)成用戶的預(yù)期效果，但也可能生成更符合用戶潛在需求甚至更具創(chuàng)意的圖像。

對于大部分人來說，這種“智能”還是會明顯提升用戶體驗(yàn)，畢竟“創(chuàng)意”總是可遇而不可求的。

02 商業(yè)化前景：文生圖盈虧平衡出現(xiàn)曙光

任何先進(jìn)的技術(shù)，其商業(yè)化落地都離不開成本效益的考量。

而Nano Banana在圖像領(lǐng)域的應(yīng)用，自然也涉及到成本和潛在的盈利模式。

Robert Riachi在采訪中，明確提出多模態(tài)數(shù)據(jù)（圖像和視頻等）的“爬坡訓(xùn)練”非常困難。

這需要大量的人類偏好信號，因此訓(xùn)練就需要投入巨大的時間成本和資源。

機(jī)器學(xué)習(xí)的過程中，需要錨定一個指標(biāo)用于評估訓(xùn)練結(jié)果的好壞。

以往的指標(biāo)往往需要幾個小時才能獲取到有效反饋，而Google的研究團(tuán)隊(duì)則始終在努力尋找更為高效的訓(xùn)練指標(biāo)。

另一方面，圖像的極度主觀性，使得收集并處理用戶反饋成為一個同樣耗時且昂貴的過程。

Kaushik Shivakumar強(qiáng)調(diào)了“人工評分”在圖像生成評估中的成本效益問題。

先前我們的AI競技場一文中曾經(jīng)介紹過，LMarena就采用了這種“人工評分”的方式。

我們看到的排行榜上的Votes正是由該網(wǎng)站的使用者進(jìn)行投票得出的。

即便是效果如此出色的Nano Banana，目前的投票數(shù)量也只有22萬左右。

因此，讓足夠多的用戶進(jìn)行圖像質(zhì)量評分固然能提供良好的信號，但這種方式的成本恐怕令Google團(tuán)隊(duì)都難以承受。

這條路走不通，就必須尋找更加高效且經(jīng)濟(jì)的評估指標(biāo)，也就是Nano Banana目前使用的“文本渲染度量”，這項(xiàng)技術(shù)我們后面再介紹。

除了訓(xùn)練成本，模型部署上線后的推理成本也要考慮。

目前，Nano Banana的API定價(jià)為：

文字輸入：＄0.30/M tokens文字輸出：＄2.50/M tokens圖像輸入：＄0.30/張圖像輸出：＄0.039/張

在Google AI Studio上可以免費(fèi)使用，但近期已經(jīng)設(shè)置免費(fèi)額度。

如此低的定價(jià)再加上高質(zhì)量的生成效果，Nano Banana的性價(jià)比可以說是直接拉滿。

與此同時，本周網(wǎng)上已經(jīng)開始出現(xiàn)第三方平臺以更低的價(jià)格提供Nano Banana的API服務(wù)。

以AI領(lǐng)域現(xiàn)有的產(chǎn)品迭代速度，其他廠商推出水平相近的模型恐怕也只是時間問題。

僅僅依靠Nano Banana的使用費(fèi)用，極難覆蓋Google在如此先進(jìn)的模型上投入的巨大成本。

因此，這一重新定義AI圖像領(lǐng)域的模型的誕生，更多還是為了應(yīng)對市場份額和生態(tài)系統(tǒng)的競爭。

AIGC作為科技巨頭公司競爭的焦點(diǎn)，Google必須不斷推出有競爭力的產(chǎn)品以對抗OpenAI或是Midjourney等公司。

而Nano Banana和Gemini 2.5 Pro兩款高用戶評分產(chǎn)品的存在，有效保持了Google在AI領(lǐng)域的領(lǐng)導(dǎo)地位。

從技術(shù)角度來看，模型的迭代和優(yōu)化是一個幾乎永不間斷的過程。

平民級別的價(jià)格能夠帶來的，是所有廠商都急需的大量真實(shí)用戶數(shù)據(jù)。

Google這樣的科技公司，更多是通過平臺上提供的各種服務(wù)實(shí)現(xiàn)盈利。

即使Nano Banana現(xiàn)在可能虧本，但低成本的圖像生成和編輯能力，不僅可以用來吸引用戶進(jìn)入Google的生態(tài)系統(tǒng)，鼓勵用戶使用Google提供的相關(guān)服務(wù)；未來，還可能成為某些更大利潤業(yè)務(wù)的核心組件。

03 技術(shù)邏輯：跨時代的強(qiáng)大

Nano Banana能夠在AI圖像領(lǐng)域?qū)崿F(xiàn)如此強(qiáng)大的能力，歸功于Google團(tuán)隊(duì)在多模態(tài)學(xué)習(xí)、用戶反饋機(jī)制和創(chuàng)新架構(gòu)設(shè)計(jì)等方面的長期投入和努力。

在觀看完Google官方發(fā)布的約30分鐘的采訪后，不得不對其技術(shù)能力感到驚訝。

①文本渲染度量

這是Kaushik Shivakumar始終堅(jiān)持的一項(xiàng)指標(biāo)，起初誰也沒能想到它就是成功的關(guān)鍵。

前面我們說過，Google團(tuán)隊(duì)需要找到一個無需依靠用戶主觀評價(jià)的指標(biāo)來判斷模型是否在“越變越好”。

在Nano Banana正式發(fā)布之前，無論是國內(nèi)還是國外的多模態(tài)模型，生圖水平參差不齊。

但在圖片中加入文字這件事上，所有的模型都無法準(zhǔn)確完成。

看起來，文字生成只是AI圖像領(lǐng)域的一個分支，但Google團(tuán)隊(duì)堅(jiān)持以此為優(yōu)化目標(biāo)。

最終結(jié)果也證明了這是一個無比正確的決定。

在對文本渲染的不斷優(yōu)化過程中，研究團(tuán)隊(duì)發(fā)現(xiàn)圖像生成質(zhì)量也在不斷提高。

天才般的想法，加上持之以恒的努力，成就了Nano Banana的強(qiáng)大。

②多模態(tài)統(tǒng)一模型與正向遷移

Mostafa Dehghani提出了Nano Banana的核心理念之一：實(shí)現(xiàn)原生的圖像生成和多模態(tài)理解與生成。

這意味著模型會在同一個訓(xùn)練運(yùn)行中學(xué)習(xí)所有模態(tài)和不同的能力，而最終目標(biāo)則是實(shí)現(xiàn)跨不同維度的正遷移。

簡單地說，就是要讓模型不僅能理解和生成單一模態(tài)（比如文本或圖像），還能利用從一種模態(tài)中學(xué)到的知識，幫助理解和生成另一種模態(tài)。

例如，模型可以從圖像、音頻和視頻中學(xué)到真實(shí)世界的相關(guān)知識，從而更好地理解和生成文本。

就像Robert Riachi提到的一種名為“報(bào)告偏差”的現(xiàn)象：

人們在日常對話中通常不會提及哪些顯而易見、習(xí)以為常的事物，比如朋友家的普通沙發(fā)。

但如果展示一張房間的圖片，沙發(fā)就會自然呈現(xiàn)在眼前。

說實(shí)話，這個例子舉得有點(diǎn)莫名其妙，但確實(shí)有一定道理：

圖像和視頻等視覺信號里，包含著大量關(guān)于真實(shí)世界的隱性信息，而這些信息無需明確請求即可獲取。

對于一個多模態(tài)模型來說，視覺信號是了解世界難得的“捷徑”。

這種統(tǒng)一的多模態(tài)學(xué)習(xí)方式，幫助Google團(tuán)隊(duì)建立了更全面和深入的“世界模型”。

Gemini系列產(chǎn)品也在各種模態(tài)任務(wù)中表現(xiàn)出了更高的智能化程度，LMarena的數(shù)據(jù)已經(jīng)驗(yàn)證了這一點(diǎn)。

因此，采訪中提及圖像理解和圖像生成被視為“姐妹”，在交錯生成中互相促進(jìn)。

③從錯誤中學(xué)習(xí)：用戶反饋驅(qū)動“爬坡訓(xùn)練”

Robert Riachi著重強(qiáng)調(diào)了利用人類偏好進(jìn)行“爬坡訓(xùn)練”的重要性。

但前面已經(jīng)說過，不可能模型每次生成圖片都讓人類來判斷孰優(yōu)孰劣。

因此，Google團(tuán)隊(duì)收集了大量來自Twitter等平臺的真實(shí)用戶反饋，將失敗案例轉(zhuǎn)化為評估基準(zhǔn)，而這些恰恰是用于改進(jìn)模型的寶貴信號。

在模型的2.0版本發(fā)布時，團(tuán)隊(duì)成員敏銳地注意到一個常見的失敗案

例：

編輯時無法保持圖像其余部分的一致性。

于是，以此為基礎(chǔ)，團(tuán)隊(duì)開始針對于具體問題進(jìn)行“爬坡訓(xùn)練”和迭代。

這種以用戶為中心、從錯誤中學(xué)習(xí)的機(jī)制，正是Nano Banana能夠解決這一挑戰(zhàn)的關(guān)鍵。

④團(tuán)隊(duì)協(xié)作：Gemini與Imagen的融合

采訪的最后，Robert Riachi也談到了Nano Banana的成功離不開Gemini和Imagen兩個團(tuán)隊(duì)的緊密協(xié)作。

Gemini團(tuán)隊(duì)專注于指令遵循和世界知識等方面，確保模型能夠理解用戶的意圖并生成符合邏輯的內(nèi)容。

Imagen團(tuán)隊(duì)專注于圖像的視覺質(zhì)量，確保生成的圖像自然美觀，且不出現(xiàn)明顯問題。

Gemini 2.5 Pro之前的長期霸榜已經(jīng)說明其功能的強(qiáng)大，而融合兩個團(tuán)隊(duì)的視角和專業(yè)知識，Nano Banana做到了兼顧圖像的“智能性”和“美觀性”。

Nano Banana在Google AI Studio上線后，我們也可以發(fā)現(xiàn)，它和Gemini 2.5 Pro是融為一體的，在原先的聊天界面就可以直接使用，而非兩個獨(dú)立的模型。

這種跨團(tuán)隊(duì)的深度合作，使得Google的產(chǎn)品體系上升到了一個新的高度。

04 結(jié)語

就像很多標(biāo)題所說，Nano Banana的出現(xiàn)毫無疑問給AI圖像領(lǐng)域帶來了革命性的變化。

從像素級的完美編輯，到交錯式的復(fù)雜圖像構(gòu)建；

從對用戶意圖的智能理解，到超越預(yù)期的創(chuàng)意發(fā)散；

人工智能在視覺藝術(shù)上的創(chuàng)作潛力正在被逐步發(fā)掘。

但與此同時，以假亂真的高質(zhì)量圖像也在改變很多行業(yè)的現(xiàn)狀。

盡管Nano Banana生成的圖像目前也已經(jīng)明確帶有AI生成標(biāo)識，但它的作品已經(jīng)足以滿足大多數(shù)人的需求。

未來的創(chuàng)作者和藝術(shù)家又該何去何從？

唯一可以確定的，是AI圖像領(lǐng)域的未來將會更加智能、更加高效、更具創(chuàng)意。

而人機(jī)之間的協(xié)作，也即將開始書寫全新的篇章，全球軟件業(yè)正因此重塑。

上一篇：{loop type="arclist" row=1 }{$vo.title}

感谢您访问我们的网站，您可能还对以下资源感兴趣：
伊人成人在线

国产拍揄自揄免费观看| 亚洲制服丝袜| 国产男生午夜福利免费网站 | 国产jiZZHD精品巨大粗暴长| 国产精品视频一品二区三| 无码精品久久久| 麻豆蜜桃国产精品无码视频综艺| 色欲AV中文无码专区| 午夜一区二区国产友好精华液| 97香蕉碰碰人妻国产欧美| 欧美色色蜜芽| 午夜激情高清无码成人插入色| 亚洲中文字幕aⅴ无码天堂| 国产精品一区二区久久不卡小说| 亚洲欧美日韩视频一区| 无码丰满少妇被猛烈进入| 在线涩涩免费观看国产精品| 女同性av片在线观看免费网站| 久久久亚洲欧洲日产国码AⅤ| 操日韩老太太熟女| 又大又粗又长在线播放| 国产成人无码精品| 好屌妞799| 亚洲欧洲自偷自拍图片| ab免费激情| 麻豆蜜桃AV蜜臀AV色欲AV| 激情97小说综合| 精品久久免费国产乱色也| 香蕉人妻av久久久久天天| 日韩人妻精品中文字幕专区| 精品人妻少妇| 黄色无码视频高清| 自慰在线免费观看| 欧美1性网站人与马| 精品国偷自产在线电影| 无码A级毛片| 欧美视频专区一二在线观看| 粉嫩Av一区二区三区免费| 波多野结衣中文字幕乱码| 人人爱人人弄人人操| 国产无遮挡吃胸膜奶免费看|

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

谷歌“香蕉”殺死Photoshop，全球軟件業(yè)徹底變天了

谷歌“香蕉”殺死Photoshop，全球軟件業(yè)徹底變天了