當(dāng)前位置 : 中國機(jī)器人峰會(huì) >> 大會(huì)新聞
發(fā)布時(shí)間:2024-04-09發(fā)布人:中國機(jī)器人峰會(huì)
4月2日,浙江大學(xué)教授熊蓉圍繞「人形機(jī)器人關(guān)鍵技術(shù)進(jìn)展與挑戰(zhàn)」這一主題,展開了主題報(bào)告。
以下是本次報(bào)告實(shí)錄:
今天,我主要借這個(gè)機(jī)會(huì)向各位專家領(lǐng)導(dǎo)匯報(bào)一下我們這么多年在人形機(jī)器人方面所做的工作。
首先,簡要介紹一下人形機(jī)器人的發(fā)展背景。人形機(jī)器人原來有很多的稱呼,我們一直習(xí)慣稱之為仿人機(jī)器人,這兩年才明確叫人形機(jī)器人。
它很多都是在模仿人的部分或者全部功能和部分智能,但是人形機(jī)器人更強(qiáng)調(diào)類人的形態(tài),這種類人的形態(tài)使得它更加適應(yīng)我們?nèi)祟悶樽约航ㄔO(shè)的環(huán)境和人類為自己制作的工具,并且能夠有更好的人機(jī)交互感受,所以在整個(gè)作業(yè)上有更強(qiáng)的通用性和適用性。
它的這種通用性可以無縫替換人類所從事的一些工作,所以說它是一個(gè)未來的重大產(chǎn)業(yè)。當(dāng)然,一些專用型的機(jī)器人我們還是要具備的,因?yàn)檫@些專用機(jī)器人的能力超越人類,它們有更強(qiáng)的負(fù)載、更精準(zhǔn)的節(jié)拍和更強(qiáng)的一致性?,F(xiàn)在專用機(jī)器人無法實(shí)現(xiàn)的,可能類人的這種形態(tài)就可以直接實(shí)現(xiàn)無縫替換,因此,人形機(jī)器人具有更加廣闊的市場。
國內(nèi)外做了非常樂觀的市場預(yù)測,特別是高盛對人形機(jī)器人的市場樂觀度進(jìn)一步提高。這兩年,一些產(chǎn)業(yè)界的巨頭,包括國際的和國內(nèi)的都開始布局人形機(jī)器人賽道,從整機(jī)到核心零部件,到智能控制智能計(jì)算??偟膩碇v,人形機(jī)器人進(jìn)入新的突破期,從原來實(shí)驗(yàn)室樣機(jī)的研發(fā)進(jìn)入到產(chǎn)品的樣機(jī)以及未來產(chǎn)業(yè)化發(fā)展的早期階段。
我們國家非常重視人形機(jī)器人的發(fā)展,人形機(jī)器人已經(jīng)成為了國家的戰(zhàn)略性的新興技術(shù)和產(chǎn)業(yè)的方向。2023年,工信部先后出臺(tái)了揭榜掛帥的項(xiàng)目以及人形機(jī)器人發(fā)展的指導(dǎo)意見。在今年1月份,七部委發(fā)布推動(dòng)未來產(chǎn)業(yè)發(fā)展的實(shí)施意見里面作為創(chuàng)新標(biāo)志性產(chǎn)品的第一個(gè)就是人形機(jī)器人。
人形機(jī)器人并不是今天才有的一個(gè)系統(tǒng),上世紀(jì)60年代就已經(jīng)推出第一臺(tái)雙足行走的機(jī)器人,它被認(rèn)為是機(jī)器人領(lǐng)域當(dāng)中的技術(shù)競爭制高點(diǎn),是國與國之間競爭科技的顯示點(diǎn)。
主要的難點(diǎn),首先它幾乎是機(jī)器人和人工智能技術(shù)的制高點(diǎn),它的技術(shù)的復(fù)雜性,導(dǎo)致整機(jī)系統(tǒng)的研制具有很高的挑戰(zhàn)性。除了整機(jī),我們還需要融合它的功能、性能、材料和各個(gè)部件,我們對里面的部件提出高的要求,像我們的關(guān)節(jié)要求它速度要快,體積要小,重量要輕一樣,高功率密度依然是我們現(xiàn)在面臨的一個(gè)挑戰(zhàn)。
第二是這個(gè)系統(tǒng),它是一個(gè)不穩(wěn)定系統(tǒng),大多數(shù)時(shí)間是單腳支撐。如果是跑步雙腳通向,和地面接觸的空間和時(shí)間也都非常的小,而我們的穩(wěn)定控制主要發(fā)生在小的時(shí)間里面,使得它的穩(wěn)定控制很難。
現(xiàn)在很多的機(jī)器人都實(shí)現(xiàn)了穩(wěn)定行走,是不是能夠到一個(gè)真實(shí)的環(huán)境里面適應(yīng)各種環(huán)境的擾動(dòng),去適應(yīng)作業(yè)的過程中間由于手臂的用力而帶來的擾動(dòng),保持穩(wěn)定性以及作業(yè)的準(zhǔn)確性,這都是它的難點(diǎn)。
第三,作為一種通用的形態(tài),它必須要在各種環(huán)境里面執(zhí)行各種任務(wù),這對它的智能性提出了更高的要求,這也是人工智能領(lǐng)域中間的一個(gè)發(fā)展的重要的目標(biāo),能夠?qū)崿F(xiàn)載人功能向通用人工智能發(fā)展。
《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》里明確了一個(gè)思想:以應(yīng)用來遷移,通過整機(jī)來帶動(dòng)整個(gè)生態(tài)的發(fā)展。其中幾個(gè)核心,一個(gè)是包括部件、整機(jī)系統(tǒng)里的大腦、小腦以及我們要去支持這些研究開發(fā)研制的供應(yīng)鏈和工具鏈,由此來形成整個(gè)行業(yè)的應(yīng)用和生態(tài)建設(shè)。
我們從2000年開始機(jī)器人方面的研究,主要是關(guān)注機(jī)器人的智能性和智能的移動(dòng)和操作。06年的時(shí)候,開始注意到了人形機(jī)器人。當(dāng)時(shí),我們主要是以Robocup平臺(tái)進(jìn)行技術(shù)積累,包括通過機(jī)器人的運(yùn)動(dòng)平衡控制來進(jìn)行定位規(guī)劃,各種運(yùn)動(dòng)實(shí)施的生成,在國內(nèi)獲得多次冠軍。
我們在國家863項(xiàng)目的支持下研制成了2個(gè)跟多人對打的機(jī)器人,除了解決各種部件如何選擇合適的形態(tài),如何進(jìn)行集成,我們更主要的還是解決了它的智能控制,這也是國際上面第一個(gè)能夠在線的動(dòng)態(tài)控制并且和快速的球進(jìn)行擊打的人形機(jī)器人。
11年10月份成果發(fā)布以后,也是得到了國內(nèi)外的廣泛的關(guān)注。在這個(gè)系統(tǒng)里面,機(jī)器人行走的速度和穩(wěn)定性還是有問題的,只能實(shí)現(xiàn)1.2公里每小時(shí)的行走,以及在平整地面上實(shí)現(xiàn)行走。在打球的時(shí)候因?yàn)樾凶咚俣雀簧?,主要是站立打球,用下肢來做平衡控制,所以?2年起我們主要是研究室內(nèi)外能夠快速穩(wěn)定行走的人形機(jī)器人。
在這里,我們研究了包括能夠立位控制關(guān)節(jié)、全身控制以及22年發(fā)布的能夠在室內(nèi)外快速穩(wěn)定行走的機(jī)器人。里面的部件關(guān)節(jié)如何來進(jìn)行研制?包括高光密度的電機(jī)、有更大緊縮比的緊縮器以及形成高集成的一體化的關(guān)節(jié)。
另外一個(gè)技術(shù)就是復(fù)雜的運(yùn)動(dòng)建模和控制的問題。目前在國際上對于人形機(jī)器人行走的運(yùn)動(dòng)控制有三條技術(shù)路線,一個(gè)是從機(jī)理出發(fā),對整機(jī)進(jìn)行運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的建模,然后進(jìn)行設(shè)計(jì),進(jìn)行規(guī)劃控制。第二種是特斯拉展示的人的運(yùn)動(dòng)映射到機(jī)器人上面。第三個(gè)機(jī)理模型需要依賴模型的準(zhǔn)確性,對于復(fù)雜環(huán)境的適應(yīng)需要人的介入,研究強(qiáng)化學(xué)習(xí)的方法,我們在這三個(gè)方面都做了一些工作。
模型控制不講了,通過強(qiáng)化學(xué)習(xí)生成它各種的動(dòng)作,然后用它的基本步態(tài),來融合形成環(huán)境的適應(yīng)性,能夠自動(dòng)選擇步態(tài)的組合。今年年初,我們也把這個(gè)方法進(jìn)一步延伸應(yīng)用到了人形機(jī)器人上面,能夠?qū)崿F(xiàn)對一些不同的地面的適應(yīng),這是通過強(qiáng)化學(xué)習(xí)的方法來形成的。
我們也在人機(jī)映射方面做了一系列的工作,怎么把人復(fù)雜的動(dòng)作能夠快速映射到機(jī)器人上面去。最初,把人的雙臂和手的動(dòng)作映射到一臺(tái)玉米機(jī)器人上面,解決了傳統(tǒng)的最優(yōu)化的映射,只能實(shí)現(xiàn)一些簡單的動(dòng)作,需要優(yōu)化時(shí)間比較長。
我們在這里把最優(yōu)化和目前很熱的深度學(xué)習(xí)提出來了圖神經(jīng)網(wǎng)絡(luò)下最優(yōu)的學(xué)習(xí)方法,一個(gè)是大幅提升了它的動(dòng)作的相似性,而且可以保證機(jī)器人的可執(zhí)行性和安全性,最主要實(shí)現(xiàn)了時(shí)間上大幅度的提升,快速把人的各種運(yùn)動(dòng)映射到機(jī)器人上面。我們也是利用現(xiàn)在提出來的語言視覺大模型,進(jìn)一步提升我們動(dòng)作的語義的保持。
人形機(jī)器人必不可免出現(xiàn)一些故障,一旦出現(xiàn)故障需要人介入它的維修,雖然它出了故障,我們依然能夠讓它依然保持一定作業(yè)的能力,這是我們獲得最佳論文獎(jiǎng)的工作,假定任何一個(gè)關(guān)節(jié)壞了,它依然可以保證直線行走。
另外一個(gè)我們的工作還是放在機(jī)器人的智能上面。2000年開始,我們便一直做這方面大量工作,怎么讓傳統(tǒng)的機(jī)器人在封閉靜態(tài)的環(huán)境里面能夠像在動(dòng)態(tài)的開放的環(huán)境里面一樣能夠長期自主的工作,以及從依賴人離線編寫的程序到自發(fā)逐步適應(yīng)更加豐富的環(huán)境和更加多樣的作業(yè)。
在這方面我們也發(fā)表了一系列的論文,在這里我簡要的介紹一下,一個(gè)是在移動(dòng)方面,我們對于它的長期準(zhǔn)確的定位和導(dǎo)航做了一些工作。我們現(xiàn)在的一些技術(shù)已經(jīng)在多個(gè)領(lǐng)域里面有應(yīng)用驗(yàn)證,包括變電站的巡檢機(jī)器人,制造業(yè)里面新型的AMR,實(shí)現(xiàn)復(fù)雜地形里對人的跟隨。我們也實(shí)現(xiàn)了產(chǎn)業(yè)轉(zhuǎn)化落地,新型物流機(jī)器人目前已經(jīng)在制造業(yè)里面大規(guī)模地應(yīng)用了。
在操作方面,我們從12年完成了打乒乓球的機(jī)器人以后,開始研究它如何能夠操作更多的對象。一個(gè)工作就是這種序列性的作業(yè),能不能讓人去展示,然后直接的生成機(jī)器人程序,我們?nèi)俗鲆幌逻@個(gè)裝配,對于人的動(dòng)作進(jìn)行解析、理解,去解析出來它是用什么動(dòng)作,操作了什么物體,達(dá)到了什么樣的效果,并且去解決我們感知的誤差到執(zhí)行的精度的要求。我們的感知誤差往往是毫米級(jí)的,能夠?qū)崿F(xiàn)準(zhǔn)確的未知的推理,然后實(shí)現(xiàn)程序自動(dòng)的生成。我們實(shí)現(xiàn)了不同的手電筒、開關(guān),包括機(jī)器人關(guān)節(jié)的這樣一個(gè)對人的學(xué)習(xí),僅用幾分鐘的時(shí)間來生成。
剛才是有人類參照的,但是在開放性環(huán)境里面我們很難有人的參照,需要機(jī)器人能夠自主的決策,我們也解決了中間的評(píng)價(jià)以及能夠快速學(xué)習(xí)的問題。
對這種開放混雜場景,我們進(jìn)一步引入了語言大模型和視覺大模型。大模型通過大量數(shù)據(jù)的訓(xùn)練,雖然里面包含了各種各樣的物體,但是它還是有很多的物體是檢測不了的。當(dāng)它堆點(diǎn)在一起的時(shí)候,它檢測的準(zhǔn)確性,定位的準(zhǔn)確性都是很低的,這直接導(dǎo)致機(jī)器人執(zhí)行的失敗。
在這種情況下,我們怎么能夠讓機(jī)器人通過它的行為逐步地收斂到正確的結(jié)果里面?我們就提出來了把語言大模型視覺大模型和機(jī)器人操作的模型去融合來進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了在混雜場景下,通過它的操作,最后來完成我們要求的工作。
通過這樣一系列的,從強(qiáng)化學(xué)習(xí)、語言模型以及模仿的結(jié)合,我們可以讓機(jī)器人完成桌面的梳理,它會(huì)進(jìn)行長序列的規(guī)劃生成,在最后來達(dá)到我們的制定的要求。
在機(jī)器人的伺服控制中,這種傳統(tǒng)的方法對于場景的變化,還是有一個(gè)局限性。我們用學(xué)習(xí)的方法的話它非常依賴于我們的數(shù)據(jù)。我們能夠?qū)崿F(xiàn)端到端的伺服控制,包括背景的變化,以及適應(yīng)傳感器在應(yīng)用過程當(dāng)中不小心把它碰動(dòng)了,它的外參變化了,在這樣的擾動(dòng)下,我們是不是依然能夠去適應(yīng)?以及如何適應(yīng)各種場景里面的紋理。
這個(gè)deepmind通過8個(gè)小時(shí)的訓(xùn)練可以達(dá)到9.98的成功率,我們用一個(gè)小時(shí)的訓(xùn)練能夠達(dá)到99.99%的成功率,而且它能夠適應(yīng)不同的接口以及各種形狀。
今年3月份,在浙江省寧波市政府的支持下,人形機(jī)器人創(chuàng)新中心正式啟動(dòng),領(lǐng)航者1號(hào)正式發(fā)布。我們在之前的基礎(chǔ)上進(jìn)一步做了優(yōu)化改進(jìn),同時(shí)也更強(qiáng)調(diào)了賦予類人的學(xué)習(xí)和操作的能力。目前機(jī)器人的行走已經(jīng)完成了室內(nèi)平整地面的測試,在如何適應(yīng)各種場景,在執(zhí)行各種動(dòng)作之間依然保證平衡控制以及如何進(jìn)一步提高節(jié)拍等方面也在持續(xù)研究中。我們也研發(fā)了靈巧手,能夠?qū)崿F(xiàn)更快速度的操作。
人形機(jī)器人真正形成一個(gè)產(chǎn)品,還是有很多的工作要做。作為一個(gè)產(chǎn)品來講,它要實(shí)現(xiàn)高可靠性低成本。從整機(jī)來講,它的可靠性都是需要進(jìn)一步降低成本,這依賴于我們的核心零部件,需要大家都圍繞人形機(jī)器人來做。
但是,動(dòng)力部件的功率密度跟人形機(jī)器人真正實(shí)現(xiàn)靈巧運(yùn)動(dòng)還是有一定差距的。我們往往說力舉夠了,速度夠了,體積過大,這個(gè)人形機(jī)器人看著比較笨重,或者有一定的威脅感了,如何提升部件的性能,依然是我們面臨的問題,像我們的傳感器也是一樣的,怎么樣能夠在小體積下做到高精度的響應(yīng)也是我們面臨的問題。
第二個(gè)是運(yùn)動(dòng)控制。我們的人形機(jī)器人要能夠?qū)崿F(xiàn)各種靈巧的運(yùn)動(dòng)作業(yè),運(yùn)動(dòng)控制是非常重要的基礎(chǔ)。我們現(xiàn)在在這方面已經(jīng)有了很好的基礎(chǔ),各種技術(shù)路線也有突破,能夠去展示一定的能力。但是,我們會(huì)看到它對你的作業(yè)對象的適應(yīng)性、環(huán)境的適應(yīng)性還是非常的有限的。如何把機(jī)器人環(huán)境、任務(wù)融合起來發(fā)展,如何把技術(shù)路線打通,去推動(dòng)這方面的發(fā)展,也依然需要我們?nèi)ヌ剿鳌?/span>
第三個(gè)是人工智能。目前大模型非常熱,但是真正把大模型部署到機(jī)器人上面,還是有很多的局限性。我們現(xiàn)在的大模型依然靠數(shù)據(jù),有一定的泛化能力,還是需要優(yōu)化。有了大模型,等于給我們提供了一個(gè)更加好的技術(shù)支持。如何把大模型融合到機(jī)器人里面,實(shí)現(xiàn)真正能夠作業(yè)的具身智能,現(xiàn)在還是需要研究探索。