百度文心一格總架構(gòu)師肖欣延:歷程坎坷但未來(lái)已至,大模型賦能智能內(nèi)容生成-天天信息

2023-05-26 19:46:14       來(lái)源:36氪

5 月 23 日,36 氪舉辦「顛覆 · AIGC」產(chǎn)業(yè)發(fā)展峰會(huì)。本次峰會(huì)匯聚產(chǎn)業(yè)力量,共同探討企業(yè)、行業(yè)在面臨變革時(shí)的應(yīng)對(duì)策略,分享思考,探索和發(fā)現(xiàn)產(chǎn)業(yè)中最具潛力的企業(yè)與最具價(jià)值的技術(shù),在激蕩的環(huán)境中探尋前行的方向。


(資料圖片)

大會(huì)上,百度文心一格總架構(gòu)師肖欣延發(fā)表了題為《跨模態(tài)大模型賦能智能內(nèi)容生成》的主題演講。在肖欣延看來(lái),生成式人工智能時(shí)代已經(jīng)到來(lái),內(nèi)容生成將成為新一代生產(chǎn)方式,帶來(lái)行業(yè)發(fā)展的新機(jī)遇。肖欣延分別從圖片生成與視頻生成兩個(gè)角度介紹了百度在大模型領(lǐng)域的成果:百度 AI 作畫系統(tǒng)文心一格與基于文心大模型的視頻創(chuàng)作系統(tǒng),展示了 AIGC 強(qiáng)大的內(nèi)容生成能力與發(fā)展?jié)撃堋?/p>

在智能內(nèi)容生成領(lǐng)域,AIGC 的價(jià)值不言而喻。肖欣延指出:在未來(lái),算法、算力、數(shù)據(jù)的發(fā)展將對(duì) AIGC 的內(nèi)容生成能力產(chǎn)生質(zhì)的提升。首先,AIGC 和語(yǔ)言模型的深度結(jié)合,會(huì)增強(qiáng)用戶語(yǔ)言交互體驗(yàn);其次,AIGC 在更高維度的內(nèi)容生產(chǎn)能力如 3D 生成、長(zhǎng)視頻生成等,將得到大幅改善;最后,隨著 AIGC 效果和易用性的提升,內(nèi)容生成流程將極度簡(jiǎn)化、便捷。在演講的最后,肖欣延也表示,AI 目前面臨的事實(shí)一致性、不可控等問(wèn)題,將來(lái)整個(gè)技術(shù)范式需要加上知識(shí)維度,通過(guò)精準(zhǔn)事實(shí)知識(shí)、多形態(tài)知識(shí)知識(shí)推理等確保 Al 走向可信可控,為用戶提供更好服務(wù)。

百度文心一格總架構(gòu)師肖欣延

以下為肖欣延演講實(shí)錄(經(jīng) 36 氪整理編輯):

肖欣延:大家好,非常榮幸參加 AIGC 產(chǎn)業(yè)發(fā)展峰會(huì)。我今天報(bào)告的題目是《跨模態(tài)大模型賦能智能內(nèi)容生成》,重點(diǎn)會(huì)從跨模態(tài)角度介紹百度在智能內(nèi)容生成上的工作。

最近人工智能非常火,但人工智能不僅僅是這幾年的歷史,我們回顧整個(gè)發(fā)展歷程人工智能其實(shí)已經(jīng)走過(guò) 70 多年。最早 1950 年圖靈測(cè)試提出來(lái),在此后 40 年里面整個(gè)研究更多關(guān)注在邏輯推理和專家系統(tǒng)上面,在這個(gè)過(guò)程走的非常曲折,起起落落經(jīng)歷兩個(gè)冬天。到了九十年代,整個(gè)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)還有深度學(xué)習(xí)逐步興起,再到近年來(lái)我們耳熟能詳?shù)?AlphaGo、Transformer、GPT 等等這些技術(shù)出現(xiàn)以后,人工智能的實(shí)用效果不斷提升。到了 2022 年,人工智能不僅能做分類判別,也能夠做創(chuàng)作生成,生成式人工智能時(shí)代正式到來(lái)。

這也就引出了 AIGC。AIGC 有很多不同定義,在我們來(lái)看,從內(nèi)容生產(chǎn)角度,它是人工智能帶來(lái)的新一代生產(chǎn)方式,是新的生產(chǎn)力,能夠大幅度提升內(nèi)容生產(chǎn)的效率。這張圖大概展示了內(nèi)容生產(chǎn)的幾個(gè)階段變化,包括早期 PGC 專業(yè)化的內(nèi)容生產(chǎn),到近幾年的 UGC 用戶內(nèi)容生產(chǎn),以及從去年開始的 AIGC 元年,通過(guò) AI 輔助生產(chǎn)內(nèi)容或者自動(dòng)生產(chǎn)內(nèi)容?;仡櫄v史會(huì)發(fā)現(xiàn),每次內(nèi)容生產(chǎn)方式的變革都會(huì)帶來(lái)非常大的內(nèi)容生產(chǎn)力的釋放,給消費(fèi)者提供全新的消費(fèi)模式的體驗(yàn),所以我們非常相信 AIGC 會(huì)帶來(lái)很多新機(jī)遇。

AIGC 之所以能走到今天,大模型技術(shù)的發(fā)展是重要的推動(dòng)力,從最早 AI2 ELMo、BERT 開始,到百度的文心 ERNIE,以及 GPT,大模型在過(guò)去五六年時(shí)間里,基本上每年都有大量新的模型推出來(lái)。

百度在大模型方面做得非常早,并且持續(xù)深入的在開展,早在 2019 年開始就進(jìn)行預(yù)訓(xùn)練模型的研發(fā)工作,陸續(xù)發(fā)布 ERNIE 1.0、ERNIE 2.0、PLATO 和 ERNIE 3.0,有了這樣的技術(shù)積累,所以今年 3 月份百度在全球大廠中第一個(gè)發(fā)布了大語(yǔ)言模型——文心一言。除了語(yǔ)言模型之外,還有一個(gè)方向大家經(jīng)常提到——跨模態(tài)模型,比如 OpenAI 推出的 Dall-E,百度發(fā)布的 ERNIE-ViLG 等。

今天的報(bào)告從更具體內(nèi)容介紹基于語(yǔ)言的跨模態(tài)內(nèi)容生成,只要用人類擅長(zhǎng)的語(yǔ)言就可以用機(jī)器幫我們生產(chǎn)圖片和視頻等內(nèi)容。

首先介紹一下百度 AI 作畫系統(tǒng)產(chǎn)品——文心一格。

文生圖近年來(lái)進(jìn)展非常驚人,最早在 2018 年時(shí)候基于 GAN 的圖像生成方法只能生產(chǎn)模糊簡(jiǎn)單的圖片,到 2021 年基于序列生成 Transformer 的框架,能比較好理解語(yǔ)言,根據(jù)語(yǔ)言生成意境還不錯(cuò)的圖片。2022 年擴(kuò)散模型出來(lái)之后,能做像素級(jí)建模,既可以生成非常宏大的圖片,也可以生成細(xì)節(jié)非常精美的圖片。

也是在這個(gè)階段百度推出 " 文心一格 ",從技術(shù)角度來(lái)講不是只有大模型,而是基于知識(shí)和大模型的文生圖系統(tǒng),綜合利用知識(shí)圖譜、跨模態(tài)生成和編輯模型,實(shí)現(xiàn)高效易用的創(chuàng)作。從理解用戶需求,原創(chuàng)生成圖片,到用戶對(duì)圖片進(jìn)行編輯二次生成,對(duì)每一塊我們都有相應(yīng)技術(shù)滿足。

首先是 prompt 學(xué)習(xí)。怎么輸入一個(gè)比較好的文本描述,讓模型生成好的圖片,這一步對(duì)不少用戶來(lái)說(shuō)使用門檻比較高。為此,我們通過(guò)基于知識(shí)圖譜的 AI 模型,理解用戶的輸入,然后對(duì)用戶輸入的 prompt 自動(dòng)進(jìn)行多種維度上的智能擴(kuò)充,當(dāng)然這兩步我們也會(huì)端到端生成模式實(shí)現(xiàn)。右邊展示的例子中,用戶輸入簡(jiǎn)單的描述,模型自動(dòng)從視覺(jué)、質(zhì)感、風(fēng)格、構(gòu)圖等角度智能補(bǔ)充,從而生成更加精美圖片。

接下來(lái)的擴(kuò)散圖像生成就是跨模態(tài)大模型發(fā)揮的地方。我們主要通過(guò)自研文生圖大模型 ERNIE-VILG 實(shí)現(xiàn)。通過(guò)語(yǔ)言、視覺(jué)、跨模態(tài)進(jìn)行知識(shí)增強(qiáng),利用混合專家模型自動(dòng)選擇最優(yōu)生成網(wǎng)絡(luò),在結(jié)合超過(guò)百億的參數(shù)規(guī)模,就實(shí)現(xiàn)非常領(lǐng)先的效果。ERNIE-ViLG 在 MS-COCO 的公開評(píng)估上以及人工評(píng)估中,取得了領(lǐng)先于 DALL-E、stable Diffusion 等競(jìng)品的效果。

基于上面技術(shù),文心一格能夠生成風(fēng)格多樣,更懂中文的圖片。不管是關(guān)于茶道、京劇,還是中式建筑,文心一格的生成效果都非常好。除了比較真實(shí)圖片的生成,在創(chuàng)意圖片的生成上,比如這里的有一只慵懶的貓?jiān)诜凵募依锩?,一個(gè)狐貍騎摩托車,未來(lái)的綠色空中花園等,文心一格也可以實(shí)現(xiàn)對(duì)創(chuàng)意圖片的暢想。我們已經(jīng)上線了文心一格的小程序,大家可以現(xiàn)場(chǎng)體驗(yàn)一下。

如果生成一張圖片之后不那么滿意,文心一格有更多功能可以幫助用戶進(jìn)行二次編輯。首先,涂抹功能,用戶可以涂抹不滿意的部分,讓模型重新調(diào)整生成。另外也有一個(gè)很有意思的圖片疊加功能,用戶給兩張圖片,模型會(huì)自動(dòng)生成一張很有意思的創(chuàng)意圖,比如給到水晶樣式的花和小怪獸,我們就可以自動(dòng)生成一張疊加后的創(chuàng)意圖。我們還支持用戶輸入圖片的可控生成,我們根據(jù)圖片的動(dòng)作或者線稿等生成新圖片,讓圖片生成的結(jié)果更可控。

如果前面步驟沒(méi)有辦法滿足用戶的需求,文心一格還可以做小樣本學(xué)習(xí),快速獲得一個(gè)優(yōu)質(zhì)的個(gè)人定制模型。只要提供幾張相同概念圖片到系統(tǒng),經(jīng)過(guò)幾分鐘微調(diào)就可以獲得定制模型,能夠保證想要的風(fēng)格、主體都是一致。

第二部分介紹下文章轉(zhuǎn)視頻技術(shù),也就是視頻創(chuàng)作系統(tǒng)。

文章轉(zhuǎn)視頻是輸入圖文信息,輸出視頻內(nèi)容。輸入文本可以是網(wǎng)頁(yè)文章、百科頁(yè)面、ppt 文檔,甚至是搜索 query,都可以自動(dòng)生成視頻。這個(gè)功能看起來(lái)非常的簡(jiǎn)單,但是簡(jiǎn)單背后是需要大量技術(shù)來(lái)實(shí)現(xiàn)的。

視頻是當(dāng)下信息最豐富的載體,它涉及到文本、字幕、腳本,還涉及到視頻素材,以及如何編排這些素材,是一個(gè)很復(fù)雜的流程。參照人們的視頻創(chuàng)作流程,我們將視頻創(chuàng)作系統(tǒng)設(shè)計(jì)成三大塊,文案理解與生成、素材分析與處理、素材擴(kuò)充與編排,這每一步做的任務(wù)都很多,這背后是基于文心大模型統(tǒng)一建模的跨模態(tài)大模型來(lái)實(shí)現(xiàn)。

這個(gè)大模型就是百度發(fā)布的 ERNIE-UNIMO,我們希望模型利用文本、圖像、圖文對(duì)數(shù)據(jù)做統(tǒng)一的預(yù)訓(xùn)練,通過(guò)這樣的訓(xùn)練,模型能夠?qū)崿F(xiàn)通用的語(yǔ)言與視覺(jué)的理解與生成。從實(shí)際效果來(lái)看,不管在公開數(shù)據(jù)集還是評(píng)測(cè)榜單上,UNIMO 模型比很多具體領(lǐng)域和模態(tài)的預(yù)訓(xùn)練模型,在每個(gè)領(lǐng)域都做得更好。這樣的技術(shù)我們也用在剛才說(shuō)的 TTV 生產(chǎn)當(dāng)中,統(tǒng)一去執(zhí)行各種各樣的任務(wù)。

最后,探討下 AIGC 的價(jià)值,展望下未來(lái)技術(shù)的發(fā)展。

首先 AIGC 正在大幅提升內(nèi)容創(chuàng)作的質(zhì)量和效率。我相信應(yīng)該很多人現(xiàn)在做內(nèi)容創(chuàng)作時(shí)候,首先想的都是先去用這些 AIGC 的工具,不再自己從頭開始一點(diǎn)點(diǎn)做,這種 AI 輔助的方式使得整個(gè)生產(chǎn)效率得到大幅度提升。比如以海報(bào)制作來(lái)說(shuō),以前做海報(bào)成本比較高,通過(guò) AIGC 的方式成本能降低 50%-80%,制作時(shí)間從周級(jí)別到天級(jí)別。如果放到視頻生成角度,成本制作節(jié)約的幅度更大。

除了提升效率,AIGC 還能助力想象力涌現(xiàn),創(chuàng)造出獨(dú)特的 AI 作品。比如最左邊畫是一個(gè)貓穿唐裝在有柳樹的湖邊,還可以用 AI 創(chuàng)作戒指、蛋糕這樣的創(chuàng)意商品,創(chuàng)作力超乎我們的想象。

展望未來(lái),大模型將進(jìn)一步使得 AIGC 效果有質(zhì)的提升。其實(shí)得益于算法、算力和數(shù)據(jù)的進(jìn)展,現(xiàn)在 AIGC 效果已經(jīng)有不錯(cuò)的進(jìn)展了。將來(lái),通過(guò)更強(qiáng)、更統(tǒng)一的算法,更高性能的算力和更高質(zhì)量的大規(guī)模數(shù)據(jù),整個(gè) AIGC 的內(nèi)容生成還將有質(zhì)的提升。一方面,和語(yǔ)言模型有更加深度結(jié)合,提供更強(qiáng)的語(yǔ)言交互,用戶可以通過(guò)語(yǔ)言更好更便捷的進(jìn)行創(chuàng)作。第二,在更高維度的時(shí)空生成上,不管在時(shí)間上還是空間上,比如 3D 生成、長(zhǎng)視頻生成等等,都將取得突破。最后,AIGC 將從輔助向自動(dòng)發(fā)展,隨著 AIGC 效果和易用性的提升,過(guò)去需要諸多步驟才能生成的圖片,到時(shí)候 AI 一步就可以實(shí)現(xiàn)。

同時(shí),現(xiàn)在 AI 也經(jīng)常面臨事實(shí)一致性、不可控等問(wèn)題,將來(lái)整個(gè)技術(shù)范式還需要加上知識(shí)維度,在算法、算力和數(shù)據(jù)的基礎(chǔ)上,通過(guò)精準(zhǔn)事實(shí)知識(shí)、多形態(tài)知識(shí)、知識(shí)推理等確保 AI 走向可信可控,為用戶提供更好服務(wù)。

相信 AIGC 在未來(lái)將創(chuàng)作出更多的價(jià)值。謝謝。

關(guān)鍵詞:
x 廣告
x 廣告

Copyright @  2015-2022 海外生活網(wǎng)版權(quán)所有  備案號(hào): 滬ICP備2020036824號(hào)-21   聯(lián)系郵箱:562 66 29@qq.com