首頁 > 產經 > 正文

觀察丨AI大模型熱:如何從數據井噴的“原油”中煉“成品油

2022-04-21 21:51:16 來源:澎湃新聞

近幾年,百度、谷歌、微軟、英偉達等“科技巨頭”紛紛投入大量人力、財力相繼推出各自的巨量模型,知曉度最高的如OpenAI的NLP大模型GPT-3,模型參數1750億,耗資超過1200萬美元。

各家為何看好AI大模型,目前落地進展如何?科技革命與產業變革如何互動,AI大模型在當下的產業智能化變革中有怎樣應用潛力?

“AI模型訓練,要根據場景采數據、標數據,標注的數據量和質量是制約模型效果的瓶頸。而預訓練AI大模型采用的是自監督學習的方式,不再需要人為標注數據。用無標注數據的自監督學習做預訓練,基礎模型學習的數據越來越大,同時模型也越來越大,再結合面向場景的遷移學習解決了很多問題。這是非常重要的技術突破,意味著有了一個方法可以高效地從井噴式產生的數據中進行學習。”4月16日,百度集團副總裁吳甜在百度認知AI創意賽決賽現場的演講中表示。

AI大模型的的開發范式能把天然存在的大量數據利用起來,打破原來一定要精標數據才能學習的瓶頸。吳甜在講解時對其意義作了一個生動比喻,“就如同是找到一種方法,從‘原油’中提取出來‘成品油’。”從這里,某種程度上也能窺見科技巨頭們對AI大模型的重視由來。

真實AI落地場景的碎片化使得傳統定制化、作坊式的模型開發方式無法復用和積累,每個新場景都需要重復一遍整個模型開發過程,AI開發的高成本使其在真實世界舉步維艱。

AI預訓練大模型如何解決這個問題?

大模型的基本原理是什么,如何落地應用?

吳甜在演講開頭拋出問題,“在以往模型訓練需要大量的數據標注才能訓練出足夠精確的模型。然而這樣的精標數據成本非常高昂,有沒有可能讓模型的數據本身不再成為瓶頸?”

預訓練技術帶來了這樣的可能性。“用自監督學習方法讓模型對海量無標注數據中的規律和知識進行提煉、學習,這樣形成的預訓練大模型就成為基礎模型。在基礎模型之上,當面向任務和場景應用時,只需少量的任務標注數據,通過微調就可以得到在應用場景中非常好用的模型。”吳甜解答。

類比人的學習來看,人的學習可以分兩段:通識教育與專業教育。預訓練大模型相當于解決AI模型的通識教育。

如何理解預訓練大模型中的自監督學習?即不通過人工標注,而是通過自我構造監督信號進行學習。吳甜分享了一個例子來說明其中一種方法。在模型訓練中,如果把“中國的首都是北京”這句話中的“北京”蓋住,讓模型去猜中國的首都是哪里,模型可能會猜一個城市,再把蓋的地方翻開反饋模型正確還是錯誤,模型也就得到了反饋。這就是自監督學習中的一種方式,完形填空。

用的時候會怎么樣呢?吳甜分享了百度文心大模型在醫療行業當中的應用。

病案質量控制一直是醫院的痛點需求。在醫院的病案室,工作人員每天要核對大量病案,對其中病歷進行質量抽檢。“而在醫院中全科醫生實際上非常非常少,在病案室工作的醫生由于自己專業領域知識的限制,其實無法做到對所有科室的病歷都有非常準確的分析和判斷。他們每天大概能進行10%的抽樣,對非自己專業的部分,很多只能做到匹配字面內容,但難以理解其中深刻語義含義。所以,病案室的非常希望提升工作效率。”吳甜介紹道。

文心大模型的解決辦法是,在基礎模型上加入醫學專業知識、藥典、醫學大百科等一系列知識,再次訓練得到醫療行業相應模型,在應用中,通過進一步針對臨床數據的持續學習,掌握經驗知識。“最終模型掌握的知識量已經遠超出一位醫學博士,已經用在病案室的病歷質控的工作中,可以100%地進行病歷的智能掃描分析,帶來了非常大的效率提升。”吳甜介紹道。

百度自2019年開始預訓練模型研發,2019年3月,百度發布中國首個正式開放的預訓練模型ERNIE1.0;2021年12月,ERNIE 3.0升級為全球首個知識增強千億大模型鵬城-百度?文心。同時,伴隨其中的還有圖、文等多模態之間的ERNIE-ViLG跨模態模型以及對話模型PLATO系列。

百度在這一系列進展背后的基本思路是什么?“首先,我們在自己的業務場景中不斷地使用、驗證、迭代。文心大模型是來源于產業實踐,同時服務于產業實踐,在實踐當中建設起來的大模型。進一步具體理解“產業級”的含義,首先其數據來源于產業,在實際的產業實踐當中學習到知識規律。第二,在服務于產業時,不單單只有模型可調用,還有配套的工具和平臺,用以幫助使用者更方便地用起來。

文心大模型系列所采取的技術路線是知識增強,將大規模的知識和海量的無結構數據進行融合學習,即以知識指導學習,好處就在于學習效率更高,可解釋性更好。通過引入大規模知識圖譜,文心大模型系列只用百億級參數規模就在語言模型權威測評SuperGlue上登頂全球榜首,超越人類水平0.8個百分點。

這樣的技術路線,需要解決知識與深度學習結合的難題,以吳甜的話說“目前還有三個難題我們一直在探索”:第一個難點在于可用知識稀疏。“雖然知識特別多,但真正可用的知識是稀疏的,尤其是結構化的知識。所以,怎么用無監督方法自動提煉出可用的知識,這本身就是挺大的難題,這個難題我們一直在找各種各樣的可能創新方法去解決。知識源源不斷動態產生,第二個難點在于大模型怎樣能學了新知識不忘舊知識。”

“第三個難點在于怎樣把已結構化表示的知識和數據中的非結構化隱式知識進行統一。百度知識圖譜已經有高達5500知識,這么大規模知識,大模型要充分地學習進去,還有不少問題要解。”吳甜繼續說道。

據吳甜介紹,“今年是文心大模型產業落地關鍵年”。目前,文心大模型已大規模應用于百度內部的各類產品,包含搜索、信息流、小度智能屏、百度地圖等,顯著提升了產品智能化體驗。基于文心的開放能力,日調量也超過了五千萬次。

目前,文心大模型已通過飛槳開源開放平臺、百度智能云等應用于工業、能源、金融、通信、媒體、教育等各行各業,個人、企業開發者數量超6萬。在保險領域應用中,文心大模型的智能解析能力,能使文本處理效率提升30倍;在人力資源領域應用中,文心大模型能實現候選人信息智能分類,模型識別準確率達到99%;在醫療領域應用中,文心大模型將每份病歷的檢查時間,從30分鐘縮短到了秒級別。

這一套技術機制大幅度降低了大模型應用的門檻——只要把場景中的問題定義出來,進行一些少量的數據標注,交給大模型再進行一次學習,即可得到適合自己場景的一個好的AI應用。

是挑戰也是壁壘:大模型的技術難點

對于投入如此高的文心大模型如何營收,吳甜對澎湃新聞(www.thepaper.cn)表示,“文心大模型一邊做技術創新,一邊做落地應用,對于百度來說是一項基礎性質的工作。它的收益來源于兩個方面:一方面是百度自身的業務即需要使用;另外一方面是進一步和行業客戶的場景結合,形成對客戶的價值。”

這個技術創新過程中充滿了挑戰。在吳甜看來,大模型訓練最主要的挑戰是在于“大”——數據量非常大,模型非常大。

大模型的訓練需要解決在算力有限的情況下,如何在給定資源上訓練,做到高效存儲、高效訓練計算等,同時要保證模型最后是收斂的、可用的。

在解決如何在有限資源上訓練,百度采用4D混合訓練技術,在保證精度和收斂性基礎上提升訓練效率,實現超大規模模型的訓練。4D混合訓練技術在單機內使用張量模型并行和分組參數切片組合的策略保證低通信成本,在此基礎上疊加流水線模型并行策略,實現多臺機器共同分擔千億規模模型的訓練,最后再疊加數據并行策略來增加并發數量,提升整體訓練速度。使用飛槳的混合并行功能,可以靈活的根據擁有的算力的顯存大小、通信帶寬和節點數量進行靈活的并行策略組合,進行高效的大模型訓練。

在百度跟鵬城實驗室合作的鵬城-百度·文心大模型的項目里,訓練中使用60臺服務器作為混合并行的一組單元機器,訓練過程中可以采用多組機器來進行并行能力擴展,加速訓練進度。

那么怎么判斷訓練出的大模型好不好?

一個很常見的認知是看參數數量,“參數規模提升確實有更好的效果,我們用文心不同體量的ERNIE模型做過對比,隨著參數規模增大,效果提升。”吳甜說道,“但并不是簡單的越大越好,更重要的還是模型能力強。”

吳甜認為,評估一個大模型的好壞,更重要的標準在它的效果和泛化能力,是否在面對新問題時能更高效地學出更強的能力。

對于文心大模型的下一步發展,吳甜認為有兩個方面,“一方面,技術本身還有創新空間,我們也還在不斷研究怎樣能讓這些模型有更強的能力表現。另一方面,實用性會是我們接下來很關注的問題。以文心舉例,文心最開始就是密切關注實用性,從發展歷程上可以看到,ERNIE并不以迅速發布一個更大的模型為目標,而是做出一款模型后,在落地應用中檢驗效果,并在實用過程中調整模型設計。”

在這個實踐過程中,百度發現大模型和場景結合時,并不是只要有一個通用大模型就能徹底解決。吳甜表示,“我們一直在通用基礎模型的基礎上,開展結合了行業中領域數據、知識的大模型研究,即行業大模型。文心全景圖里目前已有兩個行業大模型,一個是金融,一個是醫療。”

當下,我們正迎來新一輪科技革命和產業變革,每一次產業變革的核心驅動力都是科技創新。吳甜表示,希望通過大模型與國產深度學習框架融合發展,打造自主創新的AI底座,真正發揮大模型驅動AI規模化應用的產業價值。

關鍵詞:

本網站由 財經產業網 版權所有 粵ICP備18023326號-29
聯系我們:85 572 98@qq.com