上個(gè)月,彭博社消息稱蘋果正在與 Google 進(jìn)行談判,希望將 Gemini 集成的 iPhone 當(dāng)中,為 iPhone 的軟件提供 AI 相關(guān)的新功能。把新系統(tǒng)的核心功能“外包”給第三方,這種做法非常不蘋果。
其實(shí)蘋果自己也在 AI 上做了不少投入,比如在消息傳出的同期,蘋果發(fā)布了自研 MM1 大模型論文,這是一個(gè)最高擁有 30B 規(guī)模的多模態(tài) LLM,但蘋果遲遲沒有公布公測時(shí)間,也沒有對(duì)外宣布任何上線計(jì)劃。據(jù)知情人士接觸到蘋果內(nèi)部團(tuán)隊(duì)后了解,團(tuán)隊(duì)認(rèn)為自家的大模型與主流的 GPT4、Gemini 相比“不具備競爭力”,才開始尋找第三方合作商。
或許在 6 月即將舉行的 WWDC 2024 上,蘋果會(huì)公開自研模型的進(jìn)展與第三方廠商的合作計(jì)劃,畢竟屆時(shí)需要對(duì)所有用戶和開發(fā)者展示 iOS 18 的核心賣點(diǎn)。而 iOS 18 被蘋果內(nèi)部譽(yù)為史上升級(jí)最大的一個(gè)操作系統(tǒng)版本的原因,就是蘋果宣稱 iOS 18 上的 Siri 將會(huì)真正的成為用戶的“私人助理”。
如果該合作確認(rèn)落地,那由于合規(guī)問題,蘋果需要在國內(nèi)找一家公司進(jìn)行合作,而不是直接使用 Gemini。
據(jù)了解,蘋果此前曾三家公司洽談合作 AI 大模型,其分別有百度的文心一言、阿里的通義千問、月之暗面的 Kimi,但目前概率最大的還是百度,畢竟在三星最新一代的 S24 系列產(chǎn)品上,大陸以外發(fā)售地區(qū)的 AI 合作方也是 Gemini,而大陸則是以百度、美圖為首的一眾中國大模型公司。
Gemini 在手機(jī)上能做什么?
為了了解目前 Google 在手機(jī)上能夠?qū)崿F(xiàn)哪些 AI 功能,我們找到了一臺(tái) Google Pixel 8 Pro,這是 Google 目前唯一能夠運(yùn)行 Gemini Nano 端側(cè)大模型的機(jī)器,可是在體驗(yàn)之后,我們發(fā)現(xiàn)目前 Gemini 目前的大多數(shù)功能都十分依賴網(wǎng)絡(luò),端側(cè)模型 Gemini Nano 能夠做的事兒十分有限。
刨除因?yàn)橹形南到y(tǒng)語言設(shè)定暫不開放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以為用戶提供八大核心功能:
一.魔法修圖
在 Google 相冊(cè)中點(diǎn)選“編輯”按鈕,你就可以在左下角發(fā)現(xiàn)一個(gè)彩色的“魔法修圖”圖標(biāo),選擇后用戶就可以對(duì)照片中想要編輯的內(nèi)容進(jìn)行框選,框選后你不僅可以進(jìn)行消除,還可以進(jìn)行縮放處理。但需要注意的是,每張圖片在處理之前一定要上傳到云端的 Google 相冊(cè)進(jìn)行“備份”,并且在圖片處理的過程中需要保持聯(lián)網(wǎng)。
選擇擦除后,大模型會(huì)對(duì)擦除的主體后面的畫布進(jìn)行“想象”并生成補(bǔ)充內(nèi)容,并給出 4 張反饋供用戶選擇。在該步驟下,AI 需要識(shí)別圖片中的物體,并學(xué)習(xí)該物體的大概輪廓,對(duì)應(yīng)的在數(shù)據(jù)庫中進(jìn)行比對(duì)并給出補(bǔ)充。
可以看到,將圖中女人刪除后,Gemini 對(duì)香港的紅色出租車的細(xì)節(jié)補(bǔ)充還是比較到位的。
你也可以將畫面中的主體進(jìn)行縮放,這個(gè)功能非常適合在景點(diǎn)合影時(shí),修正人物不夠突出的構(gòu)圖效果。
二、“魔法換天
在沒有主體的風(fēng)光照中,你也可以依靠 Gemini 對(duì)照片進(jìn)行不同“時(shí)空”的轉(zhuǎn)換,比如這張維多利亞港的風(fēng)光照,我們點(diǎn)擊魔法修圖按鈕后,可以看到 AI 判斷我們可以針對(duì)天空、日落、風(fēng)格化、和水進(jìn)行四個(gè)大方向的調(diào)整。
這個(gè)功能非常類似小米手機(jī)上很出名的“魔法換天”,不得不說日落時(shí)分這張做的還蠻有感覺的。
水面的修改就差了點(diǎn)意思,修改后的這張照片拍攝視角仿佛我站在水里……
風(fēng)格化的本意,是 Google 根據(jù)照片生成一張場景相同但不同風(fēng)格照片,但 Gemini 直接把維多利亞港變成了田野……
三、音頻橡皮擦
這應(yīng)該算是本次 Google Pixel 手機(jī)“ AI 化”之后,我個(gè)人覺得唯二能體現(xiàn) AI 效果的功能。在該功能下,Gemini 能夠?qū)⒁欢我曨l中的的聲音進(jìn)行分層,并且選擇性保留。
如果你是一個(gè) Vlog 拍攝者,在拍攝例如展會(huì)等視頻素材時(shí),就可以將展覽周圍的人聲和噪音隔絕,只保留拍攝者自己的聲音,然后配上一段合適的音樂,會(huì)給你的剪輯工作省下不少的時(shí)間。
四、最佳照片
這個(gè)功能簡單來說,就是在拍攝合影時(shí)可以將多張照片中大家各自最完美的“腦袋”,湊成一張完美的照片,再也不用擔(dān)心拍照時(shí)有人低頭、有人閉眼的情況。
五、AI 壁紙
Google 在手機(jī)端其實(shí)也提供了“生成圖片”功能,但把它隱藏在了壁紙程序中,在這里,你可以選擇不同主題開始創(chuàng)作一個(gè)專屬于你的壁紙。
你可以通過不同的組合詞來進(jìn)行調(diào)配(暫不支持自行輸入),生成不同的圖片風(fēng)格,這其實(shí)是一個(gè)挺有趣的功能,但問題是,除了作為壁紙之外,這些生成的 AI 圖片并不能直接保存到相冊(cè)分享給別人。
六、視頻增強(qiáng)
之所以把這個(gè)功能放到最后,是因?yàn)閺膶?shí)用角度出發(fā),它是 Google Pixel 8 Pro 升級(jí) AI 之后,提升最翻天覆地的一功能。
視頻增強(qiáng)功能可以讓用戶拍出夜景更加明亮、畫面抖動(dòng)更小、取消遠(yuǎn)端光學(xué)虛化、增加 HDR + 效果的,最高 4K 30 幀的視頻畫面,Gemini 在視頻拍攝完成會(huì)進(jìn)行短暫的機(jī)內(nèi)計(jì)算,最終合成一個(gè) AI 認(rèn)為最完美的畫面效果。
七、即圈即搜
在相冊(cè)中長按底部狀態(tài)欄橫條,用戶就可以調(diào)出 Google 的即圈即搜功能,當(dāng)用戶圈選圖片中的某些內(nèi)容后,系統(tǒng)就會(huì)通過 Google 搜索引擎匹配對(duì)象,給到一個(gè)答案。
但我認(rèn)為與其說這是 AI 功能,不如說是圖片搜索的一個(gè)全新入口。
八、語音備忘錄轉(zhuǎn)文字
顧名思義,Gemini 可以將文本內(nèi)容同步生成文字稿,目前該功能支持印地語、德語、意大利語、日語、法語、繁體中文、英語、西班牙語共 8 個(gè)語種。
然后呢?
然后就沒了…… 這幾乎是你在中文系統(tǒng)環(huán)境下能夠體驗(yàn)到的全部 AI 功能,其中實(shí)際應(yīng)用 Gemini Nano 的端側(cè) AI 功能就只有語音轉(zhuǎn)文字這一個(gè),剩下就連 AI 壁紙生成都需要依靠聯(lián)網(wǎng)完成。
可以說 Google Pixel 8 Pro 所有的核心 AI 功能點(diǎn),都集中在了 Google 相冊(cè)這個(gè) App 上,且主要依靠“端云協(xié)同”,無網(wǎng)絡(luò)環(huán)境下的 Pixel 8 Pro 可謂是一點(diǎn)都不智能。
在下載了 Gemini 獨(dú)立 App 之后,用戶可以讓它替代 Google 語音助手,在自然語言處理能力上更加出色,不過并不能夠和其他手機(jī)下載 Gemini App 后拉開明顯的使用體驗(yàn)。
和百度、美圖合作的國行版 S24,在 AI 功能上做得怎么樣?
除去花哨且沒用的“文案優(yōu)化”、“文生圖”這些 AI 功能之外,國產(chǎn)手機(jī)廠商其實(shí)已經(jīng)逐漸在手機(jī)的 AI 體驗(yàn)上做出了不錯(cuò)的落地功能。
在同樣沒法將 Gemini 落地的國行三星 S24 系列來說,三星 AI 主要的功能點(diǎn)體現(xiàn)在“通話實(shí)時(shí)翻譯”、“即圈即搜”、“魔法修圖”這三個(gè)核心功能。
除去通話實(shí)時(shí)翻譯之外,“即圈即搜”和“圖片重構(gòu)”我們?cè)谏衔牡?Google Pixel 8 Pro 上均已體驗(yàn)到,只不過 Pixel 用的大模型是 Gemini,而國行三星則是由百度、京東和美圖提供的定制功能。
即圈即搜這個(gè)功能兩者最大的不同,并不是技術(shù)能力,而是搜索源。
Gemini 的資料庫是所有可以在 Google 上搜索到的網(wǎng)頁,比如這張著名視角的堅(jiān)尼地城,Google 給出的了如攜程、zFrontier 裝備前線、X、微博、instagram 等網(wǎng)站上相近視角的信息。
而百度的資料庫只有百度百科,我們用同一張照片在三星上進(jìn)行搜索,由于百度百科的堅(jiān)尼地城并沒有同樣視角的圖片,所以三星只給出了一個(gè)答案 —— 城市街道……
最值得吐槽的,就是在搜索之后京東一定要“配套”給用戶推薦一個(gè)商品鏈接,這個(gè)功能幾乎就沒有準(zhǔn)的時(shí)候。因?yàn)檫@個(gè)搜索的大前提,是搜索的物品要在京東售賣,否則京東就會(huì)強(qiáng)行為用戶匹配一個(gè)相近的商品,導(dǎo)致大多數(shù)時(shí)間都是“驢唇不對(duì)馬嘴”。
不過,當(dāng)搜索的內(nèi)容在百度百科有相近角度的圖片素材時(shí),百度的搜索功能相對(duì)于 Google 就會(huì)更加準(zhǔn)確一些,比如中央電視塔百度就可以很精準(zhǔn)的識(shí)別出來,而 Google 智能識(shí)別出大致的位置在玉淵潭公園附近。
當(dāng)然,雖然地標(biāo)性建筑的搜索百度做的不錯(cuò),但在京東鏈接上三星依舊沒讓我失望,這次它給的推薦是格力前置凈水器…… 干得漂亮京東。
在“魔法修圖”功能上,美圖的能力和 Gemini 還是略有差距,我們用同樣的一張照片分別在 Google Pixel 8 Pro 和三星 S24 Ultra 上進(jìn)行圖片重構(gòu),得出的效果確實(shí)是 Gemini 更加自然。
并且讓我非常不理解的就是,在人物消除之后三星 S24 Ultra 一定要在圖片左下角顯示一個(gè)“內(nèi)容由 AI 生成”,讓人瞬間沒有任何分享欲望。可以確定的是,目前其他的手機(jī)廠商的 AIGC 消除都不會(huì)強(qiáng)制打上這行水印,所以絕不是因?yàn)榉珊弦?guī)問題導(dǎo)致的,完全是三星的“自作聰明”。
總結(jié)
雖說在照片編輯能力和搜索能力上國內(nèi)的技術(shù)提供方已經(jīng)已經(jīng)給出勉強(qiáng)追趕上 Gemini 的解決方案,但蘋果做產(chǎn)品的思維和其他廠商是完全不同的,搭載 iOS 18 的新 iPhone 要做到的,絕不只是 Google Pixel Gemini AI 功能的“拙劣復(fù)制”。
從 Siri 剛剛發(fā)布開始,喬布斯對(duì) Siri 語音助手的定義就不是單純的搜索工具,而是個(gè)人智能助理。
從蘋果自研基于 Ajax 的聊天機(jī)器人服務(wù)就能看出,目前蘋果最看重的,其實(shí)是 Google Gemini 基于自然語義的對(duì)話能力,而不是我們上文提到在 Google Pixel 8 Pro 上實(shí)現(xiàn)的那些“工具類”功能。
理想狀態(tài)下,如果 Siri 接入 Gemini,那用戶真的就可以把 Siri 當(dāng)成一個(gè)聊天機(jī)器人,系統(tǒng)會(huì)學(xué)習(xí)用戶的生活軌跡、使用手機(jī)的習(xí)慣、家和公司的位置等多重信息,智能作出判斷。
舉個(gè)例子:當(dāng) Siri 通過時(shí)間、地理位置、語氣、聲紋等信息判斷用戶可能在酒吧喝醉了,就會(huì)在和你對(duì)話的過程中幫你調(diào)取如 Uber、滴滴這類線上打車軟件,叫一輛從當(dāng)前位置到家的車,并且通過 AI 助理打電話告訴司機(jī)可能乘客處于醉酒狀態(tài)。
這些例如從當(dāng)前位置打車回家、AI 助理與司機(jī)通話等功能拆分開來,目前的 AI 大模型助手都已經(jīng)可以實(shí)現(xiàn),但如何將一整套流程完整的、順暢的“串聯(lián)”起來,是新版 Siri 需要著手解決的問題。
相較于更加工具項(xiàng)的百度文心大模型,其實(shí)字節(jié)系的豆包 AI 智能助手在自然語義的溝通能力上“更勝一籌”,因?yàn)橹挥凶?Siri 聽起來更加像一個(gè)真人,用戶才有跟它溝通的欲望。
想想看,你向往的 AI 助理,是電影《Her》里面的體貼溫柔、聲音略帶沙啞的斯嘉麗約翰遜呢?還是一行行冰冷的文字呢?
本文來自微信公眾號(hào):不客觀實(shí)驗(yàn)室 (ID:gh_719281df296b),作者:陸
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。