偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="m5mu6"></em>

<thead id="m5mu6"></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

豆包升級(jí)了“眼睛”，看APP截圖就能寫代碼了！超低價(jià)讓多模態(tài)AI普惠

2024-12-20 07:10:00

我們請(qǐng)出的打擂臺(tái)選手，正是目前大模型的頂流之一——OpenAI的GPT-4o。比試規(guī)則也很簡(jiǎn)單，就是通過不同維度的試題，來看看作答的效果。

豆包的“眼睛”升級(jí)了，現(xiàn)在讓它看一眼APP截圖，就能直接給你生成代碼！

話不多說，我們直接給它上一個(gè)難度。

例如我們先隨機(jī)截取一張網(wǎng)站的圖片：

再來到火山方舟的大模型廣場(chǎng)，pick一下最新的Doubao-vision-pro-32k版本：

（PS：該模型也可以在豆包APP中體驗(yàn)）

然后把剛才的截圖“喂”給豆包，并附上一句簡(jiǎn)單的Prompt：

幫我寫代碼，克隆這個(gè)APP。

只見豆包先是秒看出這是一個(gè)音樂APP的界面，緊接著就唰唰唰地敲起了代碼。

從代碼的功能上來，包括了菜單欄、播放列表框架、播放列表列表框和狀態(tài)欄。

模擬的播放列表中包含了幾首歌曲的信息，包括標(biāo)題、藝術(shù)家、時(shí)長(zhǎng)和點(diǎn)贊數(shù)等。

而且這些都是在不到30秒內(nèi)完成的。

若是想實(shí)現(xiàn)更復(fù)雜的功能，我們也是可以繼續(xù)用說的：

那繼續(xù)幫我實(shí)現(xiàn)更復(fù)雜的音樂播放應(yīng)用。

這一次，也僅僅耗時(shí)1分鐘，在原先代碼的基礎(chǔ)上，新增了控制面板、播放按鈕、更新進(jìn)度條等內(nèi)容。

嗯，現(xiàn)在開發(fā)一個(gè)APP，真的變成截張圖的事兒了。

這便是豆包最新發(fā)布的新模型——豆包 · 視覺理解模型。

綜合來看，它的亮點(diǎn)可以歸結(jié)為如下三點(diǎn)：

內(nèi)容識(shí)別更強(qiáng)：支持OCR、圖像知識(shí)、動(dòng)作情緒、位置狀態(tài)等，尤其對(duì)中國(guó)傳統(tǒng)文化理解更深。
理解與推理增強(qiáng)：優(yōu)化數(shù)學(xué)、邏輯、代碼的推理與問答能力。
視覺描述細(xì)膩：提供詳細(xì)圖像描述，可創(chuàng)作多種文體內(nèi)容，如產(chǎn)品介紹、故事、視頻腳本等。

更重要的一點(diǎn)，發(fā)布即大降價(jià)——0.003元/千tokens。

相當(dāng)于1塊錢可以處理284張圖片！

不過有一說一，畢竟考驗(yàn)大模型“視力”這事，不能只看單一的產(chǎn)品。

因此，接下來，我們就組個(gè)擂臺(tái)，看看哪個(gè)大模型的“眼神”更好使。

大模型“視力”大比拼

我們請(qǐng)出的打擂臺(tái)選手，正是目前大模型的頂流之一——OpenAI的GPT-4o。

比試規(guī)則也很簡(jiǎn)單，就是通過不同維度的試題，來看看作答的效果。

Round 1：復(fù)雜、生僻物體識(shí)別

第一輪比試中，我們先小試牛刀一下一個(gè)不常見的水果，請(qǐng)看圖：

然后我們分別問一下兩位選手：

圖中的是什么東西？

△上圖為豆包作答；下圖為GPT-4o作答（下同）。

從回答內(nèi)容上來看，二者雖然都回答對(duì)了，但特點(diǎn)各有不同。

豆包·視覺理解模型回答更加與金鈴子緊密相關(guān)；而GPT-4o則是更傾向于金鈴子與苦瓜的不同。

若是比試要求是與圖中物體高度相關(guān)，那么或許豆包·視覺理解模型的回答更優(yōu)質(zhì)一些。

再來一張冷門的圖像，請(qǐng)看題：

這是什么？

再來看一下兩位選手的作答：

它們都看出來這是一個(gè)冷門樂器，不過這一次，豆包·視覺理解模型明顯回答的要更精準(zhǔn)一些——樂器叫做Mizmar。

不僅如此，它還把其材質(zhì)、文化特點(diǎn)等信息都講述了出來；而GPT-4o這邊的回答，只能說是描述了大概。

這一輪，豆包·視覺理解模型，Win！

Round 2：大家來找茬

要比視力，那“大家來找茬”這個(gè)游戲就絕對(duì)不能錯(cuò)過啦~

請(qǐng)看題目：

找出10個(gè)不同點(diǎn)。

我們來看一下兩位選手的回答：

這一輪的比拼中，問題就比較明顯了，兩位選手都沒有完整給出正確答案（部分正確）。

看來AI玩大家來找茬還是具備一定的挑戰(zhàn)性。

Round 3：反向猜Prompt

現(xiàn)在AI圖片生成的能力可謂是爐火純青，但當(dāng)我們看到一幅中意的作品，卻苦于無法復(fù)刻Prompt時(shí)，又該怎么辦？

這道題，是時(shí)候可以交給“會(huì)看”的大模型來處理了。

例如我們隨機(jī)來一張比較抽象的藝術(shù)作品：

然后分別讓豆包·視覺理解模型和GPT-4o來猜一下它的Prompt：

看這張圖，幫我寫一段能夠重新生成類似作品的Prompt。

為了公平起見，我們不采用豆包和ChatGPT自帶的生圖功能，而是將兩段Prompt交給第三方Midjourney來處理，結(jié)果如下：

△上圖：基于豆包的Prompt；下圖：基于GPT-4o的Prompt

從還原度上來看，或許豆包·視覺理解模型給出的Prompt，是更加貼近原作的那一個(gè)。

Round 4：數(shù)學(xué)競(jìng)賽大比拼

數(shù)學(xué)題目是測(cè)試大模型邏輯推理能力很好的方法。

因此，我們直接上一道AIME數(shù)學(xué)競(jìng)賽題，看看夠不夠“開門”。

（AIME：美國(guó)數(shù)學(xué)邀請(qǐng)賽，是介于AMC10、AMC12及美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽之間的一個(gè)數(shù)學(xué)競(jìng)賽。）

這道題目翻譯過來是這樣的：

每天早晨，Aya會(huì)進(jìn)行一段長(zhǎng)度為9公里的散步，然后在一家咖啡店停留。當(dāng)她以每小時(shí)s公里的恒定速度行走時(shí)，整個(gè)散步加上在咖啡店停留的時(shí)間一共需要4小時(shí)，其中包含在咖啡店停留的t分鐘。當(dāng)她以s+2公里每小時(shí)的速度行走時(shí)，整個(gè)過程（包括在咖啡店停留的時(shí)間）需要2小時(shí)24分鐘。
假設(shè)Aya以s+1/2公里每小時(shí)的速度行走，求她在這種情況下（包括在咖啡店停留的時(shí)間）的總時(shí)間（以分鐘為單位）。

這個(gè)任務(wù)的難度在于，AI需要先準(zhǔn)確識(shí)別晦澀的數(shù)學(xué)問題和公式，而后再進(jìn)行精準(zhǔn)的推理。

接下來，我們分別來看下豆包·視覺理解模型和GPT-4o的表現(xiàn)（上下滑動(dòng)查看）：

這道題目官方給出的正解是204分鐘。

而GPT-4o的結(jié)果卻并非如此，因此，本輪豆包·視覺理解模型大獲全勝。

Round 5：日常實(shí)用任務(wù)

其實(shí)在日常工作、學(xué)習(xí)生活中，還是存在很多需要AI看圖來輔助完成的任務(wù)。

例如提取復(fù)雜表格的數(shù)據(jù)，或許就會(huì)讓很多人苦惱，尤其是準(zhǔn)確性方面。

因此，我們最后一輪就以蘋果第四季度財(cái)務(wù)報(bào)告中的一個(gè)表格來做測(cè)試（上下滑動(dòng)查看）：

幫我抽取并整理圖中的數(shù)據(jù)，用中文來表述。

先來看下豆包·視覺理解模型的回答（上下滑動(dòng)查看）：

不難看出，豆包·視覺理解模型非常清晰地將財(cái)報(bào)數(shù)據(jù)以表格的形式展現(xiàn)了出來，可以說是一目了然。

然而，同樣的需求給到GPT-4o這邊，雖然數(shù)據(jù)是提取了出來，但在呈現(xiàn)方式上卻有所欠缺，依然是經(jīng)典的羅列式（上下滑動(dòng)查看）：

在幾輪“擂臺(tái)比拼”過后不難看出，豆包·視覺理解模型在能力上已經(jīng)具備了一定的優(yōu)勢(shì)。

但“眼睛”的升級(jí)，還只是豆包大模型這次發(fā)布內(nèi)容的一隅。

說、唱能力都升級(jí)了

沒錯(cuò)，除了“看”之外，“說”和“唱”的能力也升級(jí)了。

而這也正對(duì)應(yīng)了豆包大模型的三大類：

大語言模型
語音大模型
視覺大模型

首先在大語言模型方面，豆包的通用模型pro與小半年前相比：

綜合能力提升了32%
數(shù)學(xué)能力提升43%
專業(yè)知識(shí)提升54%
代碼能力提升58%

其次是語音大模型方面，豆包·音樂模型現(xiàn)在可以直接生成3分鐘完整音樂！

例如我們?cè)谄銩PP海綿音樂里輸入一個(gè)簡(jiǎn)單的Prompt：

三分鐘音樂，滄桑，男聲，民謠，歲月蹉跎。

來聽一下效果：

生成三分鐘音樂的難度，并非只是簡(jiǎn)單的堆疊時(shí)長(zhǎng)，而是更多涉及到的是前奏、主歌、副歌、間奏、尾奏等完整結(jié)構(gòu)。

不僅如此，這也和視頻生成類似，對(duì)前后的一致性提出了更高的要求。

而從這個(gè)音樂片段中不難聽出，確實(shí)是做到了上述的要求，而且還是支持改詞的那種哦~

除了可以用Prompt來生成音樂之外，現(xiàn)在豆包·音樂模型還支持用圖片來作曲了。

例如我們“喂”給海綿音樂下面這張圖：

這次的效果是這樣的：

從音樂中可以聽出，AI是識(shí)別到了圖里《黛玉葬花》的感覺，歌詞和配樂充滿了哀傷之情。

據(jù)悉，豆包·音樂模型目前支持多達(dá)到17種曲風(fēng)、11種心情，以及6種特征的音樂。

最后，在視覺模型方面，除了我們剛才展示的豆包·視覺理解模型之外，豆包·文生圖模型也迎來了升級(jí)——

現(xiàn)在，一句話可以搞定P圖這件事了：

戴上眼鏡。

不僅如此，做海報(bào)，也是幾句話的事，而且還是能生成漢字的那種：

生成一張海報(bào)，主體是漢字“量子位”，充滿科技感和未來感。

由此可見，這一次，豆包大模型在“說”、“唱”、“看”三大維度上確實(shí)是提升了不小的實(shí)力。

不看廣告只看療效

不過有一說一，實(shí)力是一方面，站在大模型應(yīng)用為王的當(dāng)下，或許好用才是真正的硬道理。

在把AI用起來這件事上，其實(shí)豆包也是拿出了一份成績(jī)單。

首先從數(shù)據(jù)上來看，截至12月18日，豆包大模型日均tokens使用量已經(jīng)突破4萬億大關(guān)。

其次再看實(shí)際落地，據(jù)悉豆包大模型已經(jīng)上崗科教、金融、醫(yī)療、企業(yè)服務(wù)和汽車等眾多行業(yè)，已經(jīng)與多個(gè)頭部企業(yè)達(dá)成合作。

市場(chǎng)和用戶對(duì)豆包的買賬程度，可見一斑。

而在此過程中，“易落地”也是一個(gè)關(guān)鍵點(diǎn)。

這就不得不提此次也同樣迎來升級(jí)的兩大法寶：左手“HiAgent”，右手“扣子”。

例如HiAgent提供超100個(gè)行業(yè)應(yīng)用模板和GraphRAG技術(shù)，提升知識(shí)處理準(zhǔn)確性，支持多模態(tài)交互與復(fù)雜場(chǎng)景需求，企業(yè)無需從零開發(fā)即可快速上線。

再如扣子擁有百萬開發(fā)者和豐富生態(tài)，支持200萬智能體，覆蓋智能客服、內(nèi)容營(yíng)銷等場(chǎng)景，極大縮短開發(fā)與部署時(shí)間。

除此之外，它兼容小程序、網(wǎng)頁等多種形式，支持實(shí)時(shí)語音交互與硬件集成，企業(yè)可輕松實(shí)現(xiàn)AI能力無縫嵌入。

一言蔽之，低門檻模板、強(qiáng)大的生態(tài)支持和多平臺(tái)兼容，是使得HiAgent和扣子能夠快速適配企業(yè)場(chǎng)景，實(shí)現(xiàn)高效落地的關(guān)鍵。

那么對(duì)于豆包這次眾多的升級(jí)，你對(duì)哪個(gè)更感興趣呢？

責(zé)任編輯：姜華來源：量子位

OpenAI GPT-4o ）人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="yupak"></abbr>