辦公系統(tǒng)
個(gè)人會(huì)員
單位會(huì)員
首頁(yè) 新聞中心 新聞資訊 正文

【W(wǎng)RC大咖論道】科大訊飛股份有限公司副總裁、研究院院長(zhǎng)劉聰:《訊飛星火超腦平臺(tái)賦能具身智能機(jī)器人發(fā)展》

2024-09-19

2024世界機(jī)器人大會(huì)以“共育新質(zhì)生產(chǎn)力 共享智能新未來”為主題,為期三天的主論壇和26場(chǎng)專題論壇上,416位國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動(dòng)向和創(chuàng)新成果,深入研討人工智能與機(jī)器人技術(shù)深度融合帶來的新趨勢(shì)、新機(jī)遇,共同打造了一場(chǎng)十分精彩的機(jī)器人領(lǐng)域前沿觀點(diǎn)盛宴!

在8月22日下午的主論壇上,科大訊飛股份有限公司副總裁、研究院院長(zhǎng)劉聰以《訊飛星火超腦平臺(tái)賦能具身智能機(jī)器人發(fā)展》為主題發(fā)表演講。


數(shù)說2024世界機(jī)器人大會(huì)


論壇


26 家國(guó)際支持機(jī)構(gòu)

3 大主題 26 場(chǎng)專題論壇

416 名國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家

74 位國(guó)外嘉賓及港澳臺(tái)嘉賓參會(huì)

線上線下聽眾達(dá) 160萬(wàn) 人次


展覽


27 款人形機(jī)器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬(wàn) 人次


大賽


全球 10 余個(gè)國(guó)家和地區(qū)的 7000 余支賽隊(duì)

 13000 余名參賽選手

每天參賽人數(shù) 4000 余人



媒體關(guān)注


近 400 家國(guó)內(nèi)外媒體

短視頻平臺(tái)話題播放量達(dá) 2.9億


1726729870156225.jpg

劉聰(科大訊飛股份有限公司副總裁、研究院院長(zhǎng))


以下是演講內(nèi)容實(shí)錄 


非常高興能來參加世界機(jī)器人大會(huì),和大家做一些分享和交流。科大訊飛是一家人工智能企業(yè),今天會(huì)結(jié)合我們一些實(shí)踐給大家分享一下我們?cè)诎ㄏ袢斯ぶ悄艽竽P汀⒋竽P腿绾蝸碣x能機(jī)器人行業(yè),給大家匯報(bào)一下進(jìn)展和思考。

首先我們快速看一下,當(dāng)前這一年多大模型非?;穑?dāng)前大模型最新的態(tài)勢(shì)是如何的,以ChatGPT為代表的這輪認(rèn)知智能大模型帶來了技術(shù)的智能涌現(xiàn),進(jìn)一步掀起了人工智能的全新浪潮,我們也看到有些機(jī)構(gòu)對(duì)人工智能大模型對(duì)未來GDP的一些推動(dòng),對(duì)未來企業(yè)數(shù)字化變革的推動(dòng),以及我們有一些科學(xué)家說大模型對(duì)生物醫(yī)藥,對(duì)其它的科學(xué)領(lǐng)域也有很多的想象空間。

我國(guó)高度重視通用人工智能,從去年4月份中共中央政治局的會(huì)議到去年底的一些全新工業(yè)化會(huì)議,一再?gòu)?qiáng)調(diào)通過通用智能賦能我們的行業(yè)。再到今年的兩會(huì),進(jìn)一步提出人工智能+的理念。

我們可以看到,這一年這個(gè)行業(yè)非常的“”,以國(guó)際為例,既有帶頭的OpenAI不斷的推出一些新的版本,從3.5到4到4v、4t、4o一系列的內(nèi)容,包括Google合并了非常厲害的DeepMind這樣一些機(jī)構(gòu),當(dāng)然這里面還有LLama主打開源的模型,國(guó)內(nèi)大家熟悉的百模大戰(zhàn),這里我就不展開了。

我們簡(jiǎn)單來看一下,應(yīng)該來講ChatGPT它是一個(gè)基于深度學(xué)習(xí)框架的大模型,并進(jìn)一步的結(jié)合像Transformer,包括像強(qiáng)化學(xué)習(xí)這樣的一些算法創(chuàng)新,來實(shí)現(xiàn)了通用型的對(duì)話系統(tǒng),將原來只能完成一些專用的任務(wù),來實(shí)現(xiàn)可以現(xiàn)在完成文本生成各種各樣的一些任務(wù),所以我們說實(shí)現(xiàn)了一個(gè)技術(shù)的借閱。

如果站在語(yǔ)言智能的角度,我們知道語(yǔ)言是我們?nèi)祟愔腔鄣囊粋€(gè)重要部分,也是我們學(xué)習(xí)知識(shí)去傳遞信息的一個(gè)最重要的載體。這樣的一種方式有望讓我們的機(jī)器真正人類去學(xué)習(xí)語(yǔ)言、應(yīng)用語(yǔ)言,去掌握知識(shí)這樣的一個(gè)過程,從而開啟一個(gè)更加自然的交互。

這里我們以O(shè)penAI為代表,快速過一下它在過去一年多各個(gè)版本的最新效果,這塊其實(shí)是跟我們的多模態(tài)相關(guān)的,在GPT-4v包括現(xiàn)在已經(jīng)升級(jí)成了GPT-4o,以及用于畫圖的能力。

我們可以看到基于這樣的能力,它現(xiàn)在已經(jīng)能處理一些很復(fù)雜的內(nèi)容,像左邊可能你給它一個(gè)導(dǎo)航的截圖,你就可以問里面很多的內(nèi)容,它會(huì)根據(jù)圖里面的文字信息,包括圖片的信息給你一些規(guī)劃。

在右邊你不需要寫特別多的Plug,只要告訴它你給我生成一個(gè)咖啡店的廣告牌,上面寫什么字,就可以自動(dòng)的去進(jìn)行一些拓展,給你生成一些圖文并茂相關(guān)的圖片。

今年來講,OpenAI發(fā)布的最有影響力,可能也是在大模型里最有影響力的兩個(gè)方向,我想就是2024年2月份的Sora和5月份發(fā)布的GPT-4o,Sora我想大家都很熟悉了,通過整個(gè)文生視頻的功能,不管是在時(shí)長(zhǎng)上還是在效果上,其實(shí)都達(dá)到了一個(gè)非常好的程度。

后面我們專家分析完,這個(gè)事并不是一個(gè)真的就去懂物理世界了,還是通過大量的數(shù)據(jù)算力這樣一些資源,來形成了一個(gè)大力出奇跡的模型。4o也是的,它號(hào)稱我是第一個(gè)用端到端模型來實(shí)現(xiàn)這樣一個(gè)全自然的、快速的交互,支持語(yǔ)音、文本這種視頻各種各樣的模態(tài),可以隨時(shí)打斷,中間還可以去表達(dá)各種各樣的情緒。

但其實(shí)我們也看到這兩個(gè)產(chǎn)品發(fā)布之后,目前來說并沒有真的都開放,Sora我們看到半年多了,國(guó)內(nèi)其實(shí)也有不少家在視頻生成上做的不錯(cuò)的模型。而我們的GPT-4o發(fā)布了3個(gè)月之后,現(xiàn)在才剛剛開始讓少部分人去內(nèi)測(cè)、去體驗(yàn),這個(gè)也是說明了一個(gè)技術(shù)從發(fā)布到真正全面使用要經(jīng)歷這樣一個(gè)過程。

我們可以看到以剛才OpenAI的產(chǎn)品為例,不管是剛才說的GPT-4,GPT-4v、Sora,當(dāng)然這里面還有多語(yǔ)種的語(yǔ)言模型,除了算法創(chuàng)新,這里面有一個(gè)非常重要的點(diǎn)是它的核心底座,這也為什么說OpenAI它相當(dāng)于領(lǐng)先一步,有了這樣的底座之后,再結(jié)合它的算力和數(shù)據(jù),可以形成各個(gè)領(lǐng)域的技術(shù)突破。

我們發(fā)展一年多了,當(dāng)前來講有些技術(shù)在不斷的進(jìn)步,在當(dāng)前我們?nèi)匀幻媾R哪些挑戰(zhàn),這里面也想跟大家分享一下。

首先我想是大模型可解釋問題,也就是大家原來熟知的幻想,客觀來講相對(duì)于OpenAI剛剛發(fā)布ChatGPT3.5的時(shí)候,現(xiàn)在我們的算法一方面模型更大了,數(shù)據(jù)更好了。

同時(shí)再通過我們的搜索插件,包括像知識(shí)增強(qiáng),基本上幻覺已經(jīng)比原來緩解很多了。但是在一些像教育、醫(yī)療這樣一些場(chǎng)景,對(duì)結(jié)果的可靠度要求非常高的場(chǎng)景,其實(shí)還有很多的挑戰(zhàn)。

第二,剛才以GPT-4o為代表的,當(dāng)然也包含大家熟知的特斯拉的FST,這樣一些以端到端模型為代表的新方案,它會(huì)給我們帶來效果和體驗(yàn)上的巨大提升。包括大家看到現(xiàn)在為什么沒有那么多的開放,實(shí)際上只有你真正做過才知道,這里面涉及多模態(tài)數(shù)據(jù)的對(duì)齊,端到端怎么樣更好的去做靈活定制的需求,其實(shí)仍然還有很多的技術(shù)挑戰(zhàn)。

第三,我們說個(gè)性化,大模型的個(gè)性化,怎么去解決最后一公里的問題,我經(jīng)常舉一個(gè)例子,ChatGPT剛出來的時(shí)候,或者國(guó)內(nèi)的一些大模型剛出來的時(shí)候,它寫一個(gè)東西你很驚艷。

但是寫了一段時(shí)間之后,你可能過了一段時(shí)間覺得這個(gè)要求就不夠了,因?yàn)閷懗鰜淼臇|西是個(gè)很通用的東西,它怎么寫出來是一個(gè)你特別想要,或者是你的風(fēng)格寫出來的,這個(gè)現(xiàn)在做不了,關(guān)于個(gè)性化有一些工作,但是在功能的定義,包括一些個(gè)性化的效果,我認(rèn)為還有很長(zhǎng)的路要走。

除了剛才講的三個(gè)算法,我們說Standing  long,這個(gè)大家很熟了,必須要有大模型集群的建立,我們看到GPT-4級(jí)別你要想去做,起步的門檻可能是萬(wàn)卡左右的集群。如何去構(gòu)建這樣的集群,如何去保持訓(xùn)練推理的高效,甚至是在這個(gè)過程當(dāng)中怎么樣通過整個(gè)系統(tǒng)的穩(wěn)定性,能讓這樣一個(gè)集群穩(wěn)定運(yùn)行,尤其是像科大訊飛這樣的我們只能在國(guó)產(chǎn)的服務(wù)器上去做,我想怎么支持大模型的算力去進(jìn)行建設(shè),也是一個(gè)非常重要的復(fù)雜系統(tǒng)性的工程。

接下來我們稍微看一下大模型與機(jī)器人的關(guān)系,大模型之后到底對(duì)機(jī)器人尤其是人形機(jī)器人起到了什么樣的作用,這兩年的確在機(jī)器人產(chǎn)業(yè)上有了非常大的進(jìn)展,除了在資本市場(chǎng)或者是在創(chuàng)業(yè)圈,除了做大模型的,基本上一系列的就是做人形機(jī)器人的。

可能跟原來的人工智能時(shí)代,我們的人形機(jī)器人因?yàn)樗墓δ芡陚湫?、形態(tài)的親和性,本身我們就說它是人工智能去落地的載體,這里面有一些代表性的機(jī)器人。但是我們可以看到大模型出現(xiàn)之前,其實(shí)人形機(jī)器人更多是基于控制,我們基于小腦,它要去感知這樣一個(gè)環(huán)境,然后做一些決策,跟環(huán)境去交互做執(zhí)行。

這里面我們簡(jiǎn)單分析了一下,有幾個(gè)問題:

第一,它不具備特別復(fù)雜的任務(wù),我說你的薯?xiàng)l在桌上,它可能會(huì)去拿,但是你讓它去抽屜里面拿一個(gè)薯?xiàng)l,它就不知道怎么去分解這樣一個(gè)任務(wù),這是一個(gè)現(xiàn)狀。

第二,可能它完成的是一些特定性的任務(wù),我們可以看到在一些工廠去做一些重復(fù)性的工作,但是你要做一些開放性的或者是通用性的任務(wù)就比較難。同時(shí)在這里面因?yàn)樵瓉淼哪P拖拗疲还苁且曈X的、聽覺的這樣一些感知的模型能力也不夠強(qiáng)。

我們可以看到大模型,這一年多的實(shí)驗(yàn),以人形機(jī)器人為代表的機(jī)器人智能化帶來了巨大的提升空間,包括整個(gè)的底座加上思維鏈的能力,可以幫助人形機(jī)器人去處理一些非常復(fù)雜的任務(wù)去拆解、去規(guī)劃,包括也能進(jìn)一步提升多模態(tài)視覺、聽覺的感知能力,以及這樣一些生成式模型帶來的數(shù)據(jù)模擬,可以降低我們?cè)谀P陀?xùn)練當(dāng)中的一些數(shù)據(jù)需求。

具體來講,整個(gè)在大模型情況之下,通過我們的大模型對(duì)任務(wù)的拆解,把這些指令映射到我們跟物理世界的交互,并且可以觸達(dá)到物理世界的一些指令,再通過我們的運(yùn)動(dòng)控制去形成這樣的閉環(huán),所以我們相信這個(gè)還是有非常大的空間。

第二部分是星火大模型的進(jìn)展,剛剛提到大模型,基于通用大模型包括文本生成、知識(shí)問答、代碼等相關(guān)的能力,在各個(gè)方面的產(chǎn)業(yè)內(nèi)容革新、科研工作、專業(yè)行業(yè)虛擬助手都有非常大的空間,大家覺得大模型是一個(gè)不亞于互聯(lián)網(wǎng)和個(gè)人電腦的存在。

科大訊飛也是基于過去十多年在核心技術(shù)場(chǎng)景的積累,我們?cè)?022年12月15日基于我們像認(rèn)知智能全國(guó)國(guó)重語(yǔ)音工程中心這樣一些國(guó)家級(jí)平臺(tái)啟動(dòng)了這樣“1+N”的攻關(guān),既要做自主創(chuàng)新的底座,也要在教育醫(yī)療等各個(gè)行業(yè)形成一些行業(yè)落地的產(chǎn)品。

過去一年多非常卷,從0到1實(shí)現(xiàn)了7個(gè)版本模型的發(fā)布,我們快速看一下通用能力,現(xiàn)在在中文的任務(wù)上最新的星火V4.0版本可以對(duì)標(biāo)到GPT4T的知識(shí)問答等等相關(guān)的能力,現(xiàn)在多模態(tài)代碼還有一定的差距,剛剛說的除了文本大模型,多模態(tài)這件事情非常關(guān)鍵,所以我們說多模態(tài)能力覆蓋很多行業(yè)包括工業(yè)、機(jī)器人這是非常關(guān)鍵的。

底座模型基礎(chǔ)之上進(jìn)一步做多模態(tài)模型相關(guān)的東西,這個(gè)只是給一些事例,大家有空可以看一下,給張圖能夠基于圖像本身,基于里面的文字內(nèi)容協(xié)同做一些分析,還能根據(jù)多個(gè)圖片對(duì)一些事件的連貫性做一些判斷。

還有一個(gè)很關(guān)鍵的點(diǎn)就是交互,科大訊飛從成立的時(shí)候我們的使命就是說讓每個(gè)機(jī)器不管是汽車、手機(jī)、機(jī)器人能聽會(huì)說,能理解會(huì)思考,如何打造更加自然的人機(jī)交互,一直是我們的追求。

現(xiàn)在訊飛已經(jīng)發(fā)布的自然交互能達(dá)到什么樣的效果。

(播放視頻)

這樣一個(gè)體驗(yàn)全是真機(jī)交互的東西,一方面通過真正端到端的建模把原來從語(yǔ)音識(shí)別、文本理解再到合成可能需要三秒鐘的時(shí)間可以壓縮到這樣隨時(shí)打斷跟人的交互一樣,進(jìn)一步結(jié)合原來在云領(lǐng)域的屬性解耦的原創(chuàng)技術(shù)可以把語(yǔ)音信號(hào)里說話人的情感信息解耦出來,而且可以靈活的控制,這樣就可以實(shí)現(xiàn)更多情緒的感知表達(dá)。

在8月30日我們的版本就會(huì)正式上線星火,更重要這樣一個(gè)框架我們認(rèn)為現(xiàn)在是先集中把語(yǔ)音交互做透,這樣一套框架未來拓展到智能里會(huì)方便很多,我們很快會(huì)看到在機(jī)器人的場(chǎng)景可以用到這樣一些更自然交互的邏輯。

這樣的內(nèi)容在車載、學(xué)習(xí)機(jī)其實(shí)有很多的應(yīng)用場(chǎng)景。我們針對(duì)一些復(fù)雜任務(wù)的拆解和規(guī)劃,這個(gè)例子也是一樣,可以基于大模型的底座做智能體的平臺(tái)。我想創(chuàng)建一個(gè)智能體,這個(gè)智能體里包含了一些任務(wù),我們大模型可以基于這樣一個(gè)任務(wù)拆解并相關(guān)的用各種各樣的智能體來實(shí)現(xiàn),這樣的方案也是助力機(jī)器人可以理解更加復(fù)雜的內(nèi)容。

同時(shí)我們剛剛提到了跟華為在去年10月24日建了國(guó)內(nèi)首個(gè)萬(wàn)卡的國(guó)產(chǎn)化集群,并且現(xiàn)在所有的模型包括大家看到的急速語(yǔ)音交互的模型都是在全國(guó)產(chǎn)化上做的訓(xùn)練,這是我們?cè)谄渌恍┬袠I(yè),教育、醫(yī)療、辦公、軟硬件其實(shí)有很多大模型賦能的案例。

最后看一下基于星火大模型,我們的超導(dǎo)平臺(tái)如何賦能具身智能機(jī)器人,在這次大模型爆發(fā)之前,我們?cè)?022年1月就提出的訊飛超導(dǎo)2030計(jì)劃,希望未來可以打造懂知識(shí)、擅學(xué)習(xí)、能進(jìn)化,結(jié)合我們的多模感知深度理解多維表達(dá)這樣一個(gè)機(jī)器人未來可以走進(jìn)千家萬(wàn)戶,來幫助老人養(yǎng)老等等。

實(shí)際上來說在這個(gè)過程中跟產(chǎn)業(yè)鏈的合作伙伴,我們自己不做本體進(jìn)行深度的合作,基于大模型也針對(duì)具身智能做的一系列工作,包括剛剛提到的整個(gè)任務(wù)理解規(guī)劃的能力,包括反過來通過在仿真中的算法,對(duì)于硬件結(jié)構(gòu)和參數(shù)形成一些調(diào)整的反饋,所以會(huì)提升整個(gè)運(yùn)動(dòng)的能力,將這種操作泛化的內(nèi)容。也是在去年9月份拉通了這樣從大模型大腦到運(yùn)動(dòng)的小腦這套本體全產(chǎn)業(yè)鏈,基于這樣一個(gè)內(nèi)容我們也是重點(diǎn)作為生態(tài)打造了超導(dǎo)平臺(tái),這里面像麥克風(fēng)陣列、攝像頭這樣的前端傳感器跟后端算法的融合,也有像這樣一個(gè)模型怎么樣做到端側(cè),做在國(guó)產(chǎn)化芯片上這樣一個(gè)算力來實(shí)現(xiàn)不管是對(duì)話理解還是整個(gè)具身一系列功能。

在這個(gè)基礎(chǔ)上現(xiàn)在其實(shí)我們也是支持了業(yè)內(nèi)超過420多家機(jī)器人企業(yè),有很多包括我們的合作伙伴優(yōu)必選、宇樹、銀河通用智能等等,以及鏈接了3.5萬(wàn)的機(jī)器人相關(guān)開發(fā)者,我們也是積極的在推動(dòng)產(chǎn)學(xué)研的合作,包括是人形機(jī)器人的副組長(zhǎng)單位,和中科大、哈工大也是聯(lián)合共建一些機(jī)器人學(xué)院或者聯(lián)合實(shí)驗(yàn)室。

其實(shí)站在產(chǎn)業(yè)的角度,人形機(jī)器人還是面臨一些挑戰(zhàn)的,雖然現(xiàn)在有了很大的發(fā)展。

第一,成本過高,硬件成本過高短期內(nèi)會(huì)影響大的場(chǎng)合規(guī)?;膽?yīng)用。

第二,隨著模型能力越強(qiáng)。

其實(shí)除了對(duì)本體的成本,其實(shí)對(duì)于算力芯片的要求越來越高,未來針對(duì)這樣一個(gè)任務(wù)的應(yīng)用,人形機(jī)器人大規(guī)模操作這個(gè)數(shù)據(jù)集成本也挺高,所以怎么樣通過人工智能能降低這樣一些數(shù)據(jù)集的成本,也是未來我們要去協(xié)同做的工作。

站在通用大模型和人形機(jī)器人展望一下,首先還是要積極的推動(dòng)應(yīng)用場(chǎng)景的開發(fā),而且剛剛說的人形機(jī)器人長(zhǎng)遠(yuǎn)可能是終極目標(biāo),但是過程中要有合理的技術(shù)臺(tái)階推出一系列階段性的機(jī)器人矩陣產(chǎn)品,要加強(qiáng)上下游產(chǎn)業(yè)鏈通力合作,尤其是推動(dòng)訊飛這樣做大模型的企業(yè)和智能本體機(jī)器人企業(yè)來推動(dòng)整個(gè)產(chǎn)業(yè)的全面發(fā)展。

作為我們來說在大模型本身國(guó)產(chǎn)化的可控大模型繼續(xù)做,同時(shí)還需要做通用時(shí)代交叉學(xué)科人才培養(yǎng)。我今天的報(bào)告就到這里,感謝大家!


本文根據(jù)錄音整


返回列表頁(yè)

加入會(huì)員

學(xué)會(huì)官微