AI大模型從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán),使機(jī)器人具備常識(shí)。1)語音:語言大模型為機(jī)器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識(shí)別、多輪對(duì)話、情緒識(shí)別、模糊語義識(shí)別等通用語言任務(wù)上,ChatGPT顯著優(yōu)于深度學(xué)習(xí),表現(xiàn)出了不亞于人類的理解力和語言生成能力。2)視覺:人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜,通用視覺大模型的AllinOne的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景:大模型的強(qiáng)擬合能力使人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí),具備更高的精確度;通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí),并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性,提升場(chǎng)景泛化效果。3)決策:基于多模態(tài)的預(yù)訓(xùn)練大模型將增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性,讓其不局限于文本和圖像等單個(gè)部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化決策。
驅(qū)動(dòng):相比工業(yè)機(jī)器人,人形機(jī)器人硬件需求更復(fù)雜、更多元,特斯拉采用的電驅(qū)方案具備商業(yè)化應(yīng)用基礎(chǔ)。特斯拉Optimus采取電驅(qū)方案,預(yù)計(jì)全身共40個(gè)執(zhí)行器,其中:身體關(guān)節(jié)28個(gè)執(zhí)行器,旋轉(zhuǎn)關(guān)節(jié)方案采用伺服電機(jī)+減速器方案,我們推測(cè)單臺(tái)人形機(jī)器人將搭載6臺(tái)RV減速器(髖、腰腹)和8臺(tái)諧波減速器(肩、腕);我們猜測(cè)擺動(dòng)角度不大的關(guān)節(jié)(膝、肘、踝、腕)采用力矩電機(jī)+行星滾柱絲杠方案,將使用14個(gè)線性執(zhí)行器。2)機(jī)械手采用微型電機(jī)+腱繩驅(qū)動(dòng)傳動(dòng)結(jié)構(gòu),單手6個(gè)電機(jī),11個(gè)自由度。空心杯電機(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機(jī)器人機(jī)械手需求契合度高。
減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運(yùn)動(dòng)控制產(chǎn)業(yè)鏈中價(jià)值量較大的硬件設(shè)備。1)電機(jī):數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動(dòng)需求,手部需采用微型電機(jī)。2)減速器、傳動(dòng)裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對(duì)RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動(dòng)裝置。3)環(huán)境感知:區(qū)別工業(yè)機(jī)器人在固定場(chǎng)景外接機(jī)器視覺設(shè)備實(shí)現(xiàn)識(shí)別的方案,人形機(jī)器人場(chǎng)景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實(shí)現(xiàn)環(huán)境感知、三維重建并實(shí)現(xiàn)路徑規(guī)劃,對(duì)設(shè)備品類、算法、實(shí)時(shí)算力要求更高。4)運(yùn)動(dòng)控制:類似于工業(yè)機(jī)器人,運(yùn)控算法均是廠商自研,開發(fā)難度大,是核心競(jìng)爭(zhēng)力之一;特斯拉Optimus復(fù)用特斯拉汽車的感知和計(jì)算能力,在全自動(dòng)駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人,對(duì)控制器實(shí)時(shí)算力、集成度要求高。