智譜AI:未來讓機器像人一樣思考
智譜AI:未來讓機器像人一樣思考 |
?
AI手語數(shù)字人華同學(智譜AI供圖)
讓機器像人一樣思考,是很多人工智能(AI)從業(yè)者的美好愿景,也是不少投資人看好的賽道。
今年9月,智譜AI宣布獲得數(shù)億元人民幣B輪融資,本次融資由君聯(lián)資本和啟明創(chuàng)投聯(lián)合領投,將被用來繼續(xù)投入到打造高性能千億級普惠大模型。
啟明創(chuàng)投合伙人周志峰表示:“下一個十年,人工智能將走向認知智能,預訓練大模型是其核心技術推動力和關鍵基礎設施,讓AI吸收更多的知識去理解和思考,最終實現(xiàn)接近人類水平的認知。同時,預訓練大模型使得AI從依賴手工調(diào)參建模走向可大規(guī)模復制的工業(yè)化階段?!?/p>
日前,大規(guī)模預訓練語言模型ChatGPT成功破圈,它可以按照要求寫詩、寫新聞稿甚至生成代碼,使得大模型的創(chuàng)新熱潮備受關注。為此,《中國科學報》記者采訪了智譜AI總裁王紹蘭,請他談談未來的AI技術與大模型的發(fā)展趨勢。
打造國產(chǎn)開源大模型
2020年6月,人工智能公司OpenAI發(fā)布了GPT-3語言模型,其千億參數(shù)的規(guī)模和強大的語言處理能力給AI界帶來了前所未有的震動。今年年初,OpenAI將GPT-3微調(diào)為InstructGPT ,減少了不真實的、有偏差的輸入。如今,OpenAI又將其進一步升級為ChatGPT,并在線上測試中展現(xiàn)出驚人的語言能力。
遺憾的是,GPT-3 的模型參數(shù)不開源,僅以付費 API (應用程序編程接口)的形式提供給海外用戶(中國地區(qū)不可用),這給研究者對模型的深入探索設立了壁壘。
當前,雖然互聯(lián)網(wǎng)公司Meta開源了大模型OPT,AI創(chuàng)業(yè)公司Hugging Face開源了BLOOM,但用戶至少需要一臺 A100(80G * 8)服務器才能啟動推理,大部分普通研究者仍然被擋在門檻之外。
與此相對是,今年8月,由清華大學知識工程實驗室(KEG)與智譜AI共同研發(fā)的大規(guī)模中英文預訓練語言模型GLM-130B正式發(fā)布,該模型以開源開放的形式供研究機構或個人免費下載使用。團隊在模型量化方面做了大量嘗試,用戶可以在一臺 A100(40G * 8)或V100(32G * 8)服務器上進行推理。
不久前,斯坦福大學基礎模型研究中心的負責人Percy Liang等開展了一項研究,對國際上眾多大模型進行對比,其中GLM-130B模型在魯棒性(健壯性)和正確率方面均取得了較好的表現(xiàn),且該評測僅使用英文任務,GLM-130B可同時支持中英雙語。
從2021年12月起,清華大學KEG、PACMAN(并行與分布式計算機系統(tǒng))、NLP(自然語言處理)等實驗室就開始了關于訓練千億參數(shù)的稠密模型的討論。隨著工作的推進,研究團隊一直沒有找到充足、穩(wěn)定的計算資源用于模型訓練。
今年4月,在了解到清華大學KEG實驗室的千億參數(shù)GLM模型訓練缺少計算資源的情況后,智譜AI決定為這一項目免費提供模型訓練所需的算力支持。
經(jīng)過多方的協(xié)調(diào)與努力,智譜AI最終租用了近百臺A100服務器,為KEG實驗室提供了模型訓練所需的算力,并致力于將這一研究開源、開放,讓研究界和產(chǎn)業(yè)界都能超低成本理解大模型、超低成本使用大模型。
“如此規(guī)模的算力、以月為單位的租用,其成本對于創(chuàng)業(yè)公司來說不是小數(shù)目,但公司還是毅然決定為項目提供支持,”王紹蘭表示,“我們希望通過這樣的方式,能讓更多人直接地用上大模型,帶動更多人了解和認可大模型。最終,讓大模型技術像云計算、大數(shù)據(jù)一樣成為信息化、智能化系統(tǒng)的基礎設施,為各行各業(yè)賦能?!?/p>
大模型賦能的數(shù)字人
日前,第二十二屆世界杯足球賽正在卡塔爾進行,在相關視頻App的世界杯轉播報道中,總會有一個熟悉的身影出現(xiàn)在視頻節(jié)目左下角。
她是智譜AI研發(fā)的AI手語數(shù)字人華同學,可以為觀眾提供專業(yè)、準確的手語體育賽事解說,向聽障人群傳遞著足球場上的“聲音”。
早在北京冬奧會和冬殘奧會期間,華同學就曾服務于《北京您早》節(jié)目,對“冬奧賽事集錦”和“一起看冬奧”進行手語播報。
“用數(shù)字人完成手語播報,不僅降低了冬奧運營成本,還彰顯了冬奧的科技創(chuàng)新力?!蓖踅B蘭介紹,智譜AI研發(fā)的智慧手語系列產(chǎn)品,涵蓋手語播報、手語翻譯以及手語詞典三種應用,滿足手語信息播報、實時翻譯交流、手語學習等多個場景的需求。
“大規(guī)模預訓練模型賦能的數(shù)字人,體現(xiàn)了智譜AI的社會公益情懷,讓科技更有溫度。”王紹蘭表示,“以千億級預訓練大模型為核心,我們的數(shù)字人已經(jīng)在AI虛擬面試官、虛擬主持人、智能客服、陪聊機器人等場景得到應用。接下來,我們還將繼續(xù)拓展數(shù)字人的應用場景,建立數(shù)字人生態(tài)合作,加快實現(xiàn)‘數(shù)智人’?!?/p>
記者獲悉,智譜AI基于開源的千億雙語預訓練模型GLM,推出了聊天機器人XDAI和chatGLM,讓機器模擬人類的思考模式,實現(xiàn)知識具象化的對話系統(tǒng)。
與此同時,在大模型的技術基礎之上,智譜AI還提出了Model as a Service(MaaS)的市場理念,即提供模型共訓服務、模型授權服務,以及API開放平臺等,聯(lián)合上下游伙伴建設大模型生態(tài)。
在生態(tài)建設方面,智譜AI與中國計算機學會(CCF)聯(lián)合發(fā)起了CCF-智譜大模型基金,圍繞預訓練大模型理論、算法、模型、應用等相關研究提供資助,希望通過降低大模型研究的門檻,讓每一個計算機領域科研工作者均有機會參與大模型的研究,推進大模型技術和應用的創(chuàng)新落地。
經(jīng)歷時間檢驗的初心
沒有一次成功是偶然的,技術走出實驗室并投身到市場應用更是如此。
智譜AI成立于2019年,由清華大學KEG實驗室的技術成果轉化而來。在智譜AI核心團隊中,CEO張鵬畢業(yè)于清華大學計算機系,董事長劉德兵是中國工程院院士高文的弟子,王紹蘭則是清華大學創(chuàng)新領軍博士。
早在2006年,清華大學KEG實驗室就啟動了科技信息分析引擎ArnetMiner(以下簡稱AMiner)的相關研究,到真正實現(xiàn)產(chǎn)業(yè)化,即智譜AI成立的時候已經(jīng)過去10多年。當年的研究團隊先后獲得了國際頂級會議SIGKDD的十年最佳論文(Test-of-Time Award)、國家科學進步獎二等獎、北京市發(fā)明ZL獎一等獎。
“技術要實現(xiàn)產(chǎn)業(yè)化還需要做到洞察市場需求、持續(xù)創(chuàng)新推廣、賦能產(chǎn)業(yè)生態(tài)?!蓖踅B蘭回憶,“當時僅僅是為了抓取、清洗數(shù)據(jù),我們在南京專門成立了分公司,共40多人,從一開始的手工標注,到逐漸建立起技術規(guī)則,再到將AI算法靈活應用其中。”
在日復一日的打磨和探索下,如今的AMiner系統(tǒng)收錄了全球1億余位學者、38萬機構發(fā)表的3.3億篇論文、1.1億篇ZL、280萬個科研項目,并構建了億級高清知識圖譜,涵蓋40個學科800萬知識概念和11億條關聯(lián)關系,每年吸引全球220個國家/地區(qū)3000多萬獨立IP訪問。
這些年來,從實驗室的技術出發(fā),智譜AI一直保持初心,努力學習。“實現(xiàn)知識與大模型的融合需要產(chǎn)學研強結合,需要打造研究生態(tài)、硬件生態(tài)、智算生態(tài)、應用生態(tài)、組織生態(tài)?!蓖踅B蘭向《中國科學報》透露,“我們希望通過打造支持不同場景、不同方向的智能應用程序的底層人工智能架構,賦能千行百業(yè),‘讓機器像人一樣思考’將是可以觸及的未來?!?/p>
-
企業(yè)風采
-
企業(yè)風采
-
會議會展
-
焦點事件
-
會議會展
-
企業(yè)風采