「嗨,我是KAI」——超維度動力學揭曉全球最自由形態的人形機器人

「嗨,我是KAI」——超維度動力學揭曉全球最自由形態的人形機器人


4月26日,具身智能公司kinetix ai(kai)舉辦了「天賦來臨」發表會,正式揭曉其同名首款全尺寸人形機器人「kai」。此次發表會有別於傳統的產品發布方式:kai並非以常規形式亮相,而是透過兩台kai機器人的「對話與自我介紹」進行首秀,由它們詳細說明自身的功能、技術路線以及產品定位。

聯合創始人泰勒在活動中解釋道:「要讓機器人真正融入人類世界,就必須更具擬人化特質。他認為,人類的物理智能源自與周遭環境的互動,這要求機器人至少在三大關鍵領域具備閉環能力——理解世界、從世界中學習,以及與世界互動——分別對應於物理世界模型、第一人稱資料集,以及高度擬人化的身體。」

所謂「理解世界」,是指讓機器人不僅能感知當前環境,還能預測未來的環境變化——這正是kai的世界模型所實現的功能。

根據展示內容,超維動力的世界模型系統目前已達成閉環架構。除了核心模型外,該系統還包含行動模組與評估模組。行動模組根據當前狀態產生候選動作,並將其傳遞給基礎模型;基礎模型則基於這些候選動作預測未來狀態;而評估模組則綜合考量任務進度、接觸是否安全等因素,評估各條軌跡的價值。

「嗨,我是kai」——超維動力推出全球自由度最高的人形機器人
世界模型解決了「理解世界」的問題,而第一人稱資料集則著重於「從世界中學習」。kai的做法是透過人類的視角與動作來觀察並參與世界,從而獲取更貼近真實場景的經驗。

超維動力自主研發了可擴展的資料收集終端「kai halo」。這款裝置採用輕量頭帶式設計,配備「一芯八鏡頭」配置,可一站式收集人與世界的資料。它不僅能錄製第一人稱視角影片,還能重建人體姿勢與場景點雲。由於裝置重量極輕,使用者在日常活動中也能自然佩戴,因此資料收集過程無需刻意編排舞步,所得資料更能反映真實情境。相較於刻意設計的動作序列,這類資料往往涵蓋更多樣化的動作,因而更適合用於訓練人形機器人。

世界模型使kai得以理解世界,第一人稱資料集則為kai帶來「人類經驗」,但要將這些經驗轉化為技能,仍需一套強大的訓練體系——這便是三階段訓練系統。


      在預訓練階段,kai 利用大量的互聯網與模擬數據,並輔以自行收集的第一人稱視角資料,來豐富關於全身與環境互動的語義資訊,從而建構一個能將「空間-語言-視覺-任務行動」相互對齊的「常識」框架。在橋接訓練階段,則使用 umi 與數據採集手套所獲得的資料,來彌補預訓練階段中未能充分涵蓋的精細手部動作與身體接觸等不足之處。到了後訓練階段,則引入特定場景下的實體機器人遙控資料,以解決與機器人自身身體之間的對齊問題。

有了資料與「大腦」之後,最後一步便是提供一個具備能力的物理平台——高度擬人化的身體——讓機器人能夠順暢地融入人類的日常生活,並與人類安全地互動。

這就是 kai 的身體——kaibot。根據介紹,kai 的高度擬人化能力可歸納為四個面向:擬人化的形態、擬人化的體格、擬人化的身體表現,以及擬人化的感知能力。

在形態方面,kaibot 身高 173 公分,體重 70 公斤,頭身比例約為 1:8.5。其整體尺寸與質量分佈與成人人類十分接近,既確保了穩定性,又維持了類似人類的外觀與重心位置。

在體格方面,kaibot 擁有 115 個自由度,肩部可進行 -20° 至 0° 的抬升、-15° 至 0° 的環轉運動,頸部可活動至 -15° 至 50°,腰椎亦可活動至 -15° 至 75°——幾乎涵蓋了人類全身的全部活動範圍,並更貼近人類四肢在複雜環境中自然運作的方式。同時,kaibot 配備了一隻靈巧的手,每隻手擁有 36 個自由度,其中包括 22 個主要控制自由度與 14 個柔順自由度,使其不僅能完成抓取、捏取等精細動作,還能吸收衝擊,展現出更安全、更自然的互動特性。

在身體表現方面,kaibot 搭載了一顆 1.7 kwh 的半固態電池,可支援雙臂連續運作約三小時。此外,其量身打造的柔順驅動器不僅使機器人實現更接近人類的平滑動作,還讓雙臂能夠承載近 20 公斤的重量,兼具使用者友善性與操作效能。

在感官感知方面,kai 配備了全身觸覺皮膚系統,內含 18,000 個觸覺感應器,理論上甚至能偵測到小於 0.1 牛頓的微弱觸碰並即時回饋。這套觸覺系統使擬人化機器人得以在真實場域中與人類密切合作、陪伴左右,建立更高品質的反饋迴路。

記者會尾聲,kai 表示:「我並非為了在沒有工人的人工廠裡搬運重物而生,也非為了在舞台上表演極限特技而設計。我誕生的目的,是走進你的客廳或辦公室,理解你的意圖,回應你的觸碰,最終與你協作、共存。」

小米MiMo-V25開源並推出一兆枚代幣的免費計畫

今天清晨,小米科技正式宣布,mimo-v2.5系列模型已全面開源,同時啟動「軌道100兆token計畫」。該系列於4月23日進入公測階段,包含mimo-v2.5-pro與mimo-v2.5兩種版本,均支援100萬tok

小米MiMo-V25開源並推出一兆枚代幣的免費計畫

「嗨,我是KAI」——超維度動力學揭曉全球最自由形態的人形機器人

4月26日,具身智能公司kinetix ai(kai)舉辦了「天賦來臨」發表會,正式揭曉其同名首款全尺寸人形機器人「kai」。此次發表會有別於傳統的產品發布方式:kai並非以常規形式亮相,而是

「嗨,我是KAI」——超維度動力學揭曉全球最自由形態的人形機器人

Android Headlines今日公佈了三星Galaxy Glasses智慧眼鏡的渲染圖這款設備代號「Jinju」,搭載Android XR作業系統,外觀設計令人聯想到Meta的Ray-Ban與Google的Gemini眼鏡——不過它具備一項……

近期,openai 發佈了一款名為「privacy filter」的新模型,旨在協助開發者有效去除文本中的個人識別資訊。該模型擁有 1.5 億個參數,並採用專家混合架構,已在 hugging face 與 gi

Android Headlines今日公佈了三星Galaxy Glasses智慧眼鏡的渲染圖這款設備代號「Jinju」,搭載Android XR作業系統,外觀設計令人聯想到Meta的Ray-Ban與Google的Gemini眼鏡——不過它具備一項……

三星Galaxy眼鏡設計曝光:無螢幕設計,可能於七月亮相

android頭條今日公開了三星galaxy glasses智慧眼鏡的渲染圖。這款設備代號「jinju」,運行android xr作業系統,外觀風格與meta的ray-ban及google的gemini眼鏡相似,但採用無螢幕

三星Galaxy眼鏡設計曝光:無螢幕設計,可能於七月亮相

Adobe Firefly AI助理推出公開測試版,實現跨應用程式協調,加速創意執行

adobe 今日宣布,firefly ai 助理已正式進入公開測試階段,並即日起向全球用戶逐步推出。首批符合資格的用戶群體包括 creative cloud pro 訂閱者,以及 firefly pro、pro plus 和

Adobe Firefly AI助理推出公開測試版,實現跨應用程式協調,加速創意執行

NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

當地時間4月28日,nvidia正式發布了nemotron 3 nano omni,這是一種開源的多模態推理模型,旨在為企業級ai代理提供一體化的基礎模型。該模型基於具備300億參數的a3b專家混合架構,

NVIDIA推出Nemotron 3 Nano Omni,這是一種多模式模型,其吞吐量最高可提升92倍

據傳Kimi K3將於第三季度亮相,擁有25兆參數,旨在突破中國大型模型的性能天花板

中國大型ai模型之間的競爭正進入白熱化階段。繼「通義千問」v4引發市場熱議後,月之暗面推出的下一代模型「kimi k3」也公布了最新進展。據相關消息稱,kimi k3預計將於今年第

據傳Kimi K3將於第三季度亮相,擁有25兆參數,旨在突破中國大型模型的性能天花板

蘋果的iOS 27據傳將推出三項主要的人工智慧相片編輯功能,但部分工具的開發面臨障礙

根據彭博社今日報導,蘋果預計將在6月8日開幕的wwdc26全球開發者大會上,推出三項全新的人工智慧驅動照片編輯功能,並強調智能影像處理。改版後的照片應用程式將新增「apple int

蘋果的iOS 27據傳將推出三項主要的人工智慧相片編輯功能,但部分工具的開發面臨障礙

Anthropic 將 Claude 升級,並深度整合至八大創意應用程式,包括 Adobe 和 Blender

今天,anthropic 宣布對 claude 進行一項重大升級,推出多款專為創意人士量身打造的新連接器,並與包括 adobe 和 blender 在內的八大頂尖創意軟體生態系統全面整合,將 ai 功能深度

Anthropic 將 Claude 升級,並深度整合至八大創意應用程式,包括 Adobe 和 Blender

Anthropic澄清「Opus額外收費」的謠言:文件存在錯誤,訂閱權益維持不變

近日,一份官方anthropic支援文件的更新在ai社群中引發了巨大騷動。據媒體報導,anthropic修訂了部分條款,顯示claude pro訂閱用戶在調用強大的opus系列模型時,可能需要額外購買

Anthropic澄清「Opus額外收費」的謠言:文件存在錯誤,訂閱權益維持不變

蘋果首款智慧眼鏡曝光:雙攝影鏡頭、手勢控制與Siri整合

蘋果正加速研發其首款智慧眼鏡,預計最早於2027年上市,直接與meta的雷朋等產品競爭。內部消息指出,蘋果並未著手推出一款功能齊全的擴增實境(ar)頭戴裝置;相反,它將焦點放在相機功能

蘋果首款智慧眼鏡曝光:雙攝影鏡頭、手勢控制與Siri整合

DeepSeek 的灰度版「影像辨識模式」測試,因其多模態辨識能力而備受關注

人工智能公司deepseek近日宣布,正針對其全新「圖像識別模式」進行灰度測試。該模式將與現有的「快速模式」及「專家模式」並存,但其功能遠超於單純的ocr文字識別,具備更為先進

DeepSeek 的灰度版「影像辨識模式」測試,因其多模態辨識能力而備受關注

LG能源解決方案公布第一季虧損2078億韓元,但ESS業務顯著成長

近期,lg能源解決方案公布了第一季財務業績,顯示營業額為6.555兆韓元,營業損失達2,078億韓元。營業額較去年同期下滑2.5%,營業利潤轉為虧損。第一季認列的北美生產補助金為1,898

LG能源解決方案公布第一季虧損2078億韓元,但ESS業務顯著成長

OpenAI推出GPT-55-Cyber網路安全模型,僅限專業人士使用,不對公眾開放

據報導,openai正準備推出一款名為「gpt-5.5-cyber」的全新尖端網路安全模型。在社交媒體平台x上,執行長山姆·艾爾特曼透露,該模型不會向一般大眾開放;相反,它將以有限的試行計

OpenAI推出GPT-55-Cyber網路安全模型,僅限專業人士使用,不對公眾開放

伊隆·馬斯克的Neuralink推出了一款手術機器人,能夠縮短腦機介面植入手術的時間,並降低感染風險

據外國媒體「interesting engineering」報導,由伊隆·馬斯克創立的腦機介面公司neuralink,正迅速推進一項新技術——一種專用的手術機器人,旨在讓腦機晶片植入手術實現更高程度

伊隆·馬斯克的Neuralink推出了一款手術機器人,能夠縮短腦機介面植入手術的時間,並降低感染風險