不做遙操作、不采真機數據，這家公司的機器人靠學習“人類第一視角數據”干活

創投圈

2026

03/30

20:30

評論

"具身智能目前陷入動作模仿的泥潭，環境或任務一旦改變，技能就有很大可能會失效。只有讓機器人像人一樣，先理解物理世界，再執行具體任務，才是真正給機器人裝上一個大腦。" 深度機智創始人陳凱向智客 ZhiKer 表示。

2024 年底，陳凱率先提出 "AnthroLearning"（人類學習）路線時，幾乎沒人相信。這位人工智能領域深耕十五年，曾任職微軟亞洲研究院首席研究員、主導產品年調用量達千億次的科學家，得到的反饋是沉默，甚至質疑。

彼時，具身智能的主流技術路線是遙操作，讓人類戴著設備控制機器人，記錄每一個動作軌跡，再讓機器人反復模仿，或者用互聯網視頻、仿真數據訓練。這些方法的邏輯很直接，讓機器人 " 背 " 會動作。

但這條路線存在明顯局限。陳凱認為：" 這些主流技術路線的本質上是在 " 手把手教猴子干活 "，效率低下，真正的突破口在于通過人類第一視角數據向大腦注入物理常識，讓猴子進化成人。"

轉折來得比預期更快。

2025 年 5 月，硅谷有具身智能企業開始轉向人類第一視角數據。也是在這個月，陳凱與同是畢業于中科大少年班學院的張翼博共同創立了深度機智。

去年年底，深度機智聯合北京中關村學院率先使用 1000 小時人類第一視角數據訓練出的 PhysBrain 基座模型，展現出令人驚艷的結果。在 " 把胡蘿卜放進盤子 " 任務中，機器人的夾子碰到胡蘿卜時選擇了像人一樣推動胡蘿卜，讓它滾入盤中，在多次嘗試后發現盤子邊緣過高無法推入后，主動轉變策略，改為夾取，夾一次沒進去，又修正夾取換角度和力度，最終成功。這種靈活性是無法通過預編程實現的。也就是說，機器人自己 " 涌現 " 出了變通與糾錯能力。

智客 ZhiKer 與深度機智創始人陳凱、聯合創始人 /CEO 張翼博進行了一次對話，試圖回答：為什么是 2026 年？為什么是中國？這條路線收斂之后，產業會發生什么變化？

以下為與陳凱、張翼博的對話全文，略有刪減：

智客 ZhiKer：2024-2026 年，具身智能行業在技術路線上經歷了什么？為什么你在 2024 年底提出的 " 人類學習 " 路線，到 2026 年初就成了行業共識？這個收斂速度是你預料之中的嗎？

陳凱：這個收斂速度比我們預期的要快。我們在 2024 年底提出 "AnthroLearning"（人類學習）概念的時候，這條路線非常有爭議，因為當時大家講的還是遙操作、真機、仿真、互聯網視頻，根本沒有人類第一視角。

轉折點發生在 2025 年 5 月。特斯拉宣布 Optimus 會逐漸放棄動作捕捉和遙操作數據，轉為從人類第一視角數據去學習機器人的技能。6 月，原 Google DeepMind 科學家 Andy Zeng 創辦的 Generalist AI 發布了機器人拆解積木的 Demo，機器人在將積木塊放進盒子時，采用的是扔的動作，表明他們也在直接從人類數據學習。

這種對物理交互的靈活運用，恰恰是傳統真機軌跡擬合難以企及的。至去年底，Skild AI、Physical Intelligence、NVIDIA 等硅谷做具身智能的公司都在向 " 人類第一視角數據 " 看齊，在硅谷基本已達成共識。

張翼博：各個大廠在春節前后相繼組建新的團隊，今年 3 月份之后，這條技術路線開始受到大家追捧。我們預測，2026 年會是 "AnthroLearning"（人類學習）的元年。

智客 ZhiKer：遙操作、真機、仿真、互聯網視頻學習等，這些技術路線的問題出在哪里？

陳凱：大家不管是走 VLM（Vision-Language Model）、VLA（Vision-Language-Action）還是世界模型路線，每一家都在強調自己在這條路線上積累了多少數據、模型設計有多好，最終都會卡在一個點上，就是基座模型缺乏物理常識。

VLM 模型不理解空間，不能夠理解時序。譬如，桌子上面放了幾個杯子，它數不清有幾個，對于人來說輕而易舉的事情，對于模型來說非常難，所以有人專門去做增強模型的空間智能。世界模型或視頻生成模型，生成的內容在視覺上可以亂真，但是運動的真實性或者物理真實性就比較差。

而 " 人類第一視角數據 " 采集自真實物理世界，天然蘊含空間理解與交互過程。我用一個更直白的比喻來解釋：現在的軌跡擬合方式就像是在手把手教猴子干活，教它洗菜、做飯、洗碗。但是猴子完全不理解人類社會的常識。我們要做的是先賦予物理常識，讓它進化成人，再讓它學習特定技能，這比手把手教動作高效得多。

張翼博：真正的突破在于物理常識的注入，不是簡單的軌跡標注，是對任務的深層理解。比如開礦泉水瓶是什么，先做什么后做什么，這些維度的標注門檻極高，這是人們習以為常的下意識行為，屬于智能的 " 暗物質 "。

智客 ZhiKer：PhysBrain 與英偉達的技術路線對比如何？有觀點認為，深度機智在這一方向上已有先發優勢，你們怎么看？

陳凱：從時間線上看，我們兩家的技術管線搭建幾乎同步。英偉達 2026 年 2 — 3 月公開方案，我們 2025 年 3 月啟動預研、6 月搭出數據管線。不同之處在于，英偉達專注手部軌跡預訓練，我們直接增強 VLM 本身。最終都收斂到用人類數據增強物理直覺，按進度和投入判斷，我們略領先英偉達。

具體而言，我們圍繞數據怎么轉譯、架構怎么設計、訓練目標怎么設定三個環節，搭建出一套全棧矩陣，把視頻中的隱性經驗提取成結構化監督信號，任務怎么拆解、關鍵狀態是什么、手該怎么動、物體之間有什么約束、時空關系是怎樣的。

Egocentric2Embodiment 翻譯管道的核心是把人類第一視角視頻轉碼成機器人能學的結構化教材，通過多層次拆解任務規劃、關鍵狀態、手部動作和物理約束，確保時序邏輯連貫且每個判斷都有畫面證據支撐，最終輸出帶標準答案的 VQA 監督數據。確保機器人知其然也知其所以然，而非瞎猜。

利用這套方法，我們構建了數據集 E2E-3M，并訓練出具身大腦 PhysBrain。在完全未出現在訓練集中的 SimplerEnv 四個操作任務上，PhysBrain（8B 版本）以 67.4% 的平均成功率力壓行業標桿 Physical Intelligence 的 Pi0.5，領先優勢達 10%。

智客 ZhiKer：PhysBrain 的 " 涌現能力 " 具體指什么？能否舉例說明？

陳凱：涌現能力體現在模型對物理交互的直覺式理解，而非機械執行預設動作。

在 SimplerEnv 的胡蘿卜抓取任務中，模型接到的指令只是把胡蘿卜放進盤子里。第一次夾取失敗后，它并沒有重復同一個抓取動作，而是發現夾爪已經碰到了胡蘿卜，順勢改為用夾子把胡蘿卜往盤子方向推，一次推不進去，又加大力度重新推了一次，最后才主動切換策略重新抓取。

要知道，" 推 " 這個動作從未包含在訓練數據里，模型也沒有看過失敗軌跡示范，這種靈活應變更像是一種內生的物理直覺。

這種 " 智能涌現 " 的出現，是物理常識注入帶來的質變。讓模型擁有物理常識的同時，不丟失原有的通用理解能力，我們在架構層面做了另一項關鍵設計 " 左右腦 " 同構架構 TwinBrainVLA。

我們引入一個同構但被凍結的 VLM 模塊作為 " 左腦 "，保持其開放世界理解能力不變；同時引入可訓練的 " 右腦 " 網絡，專門處理機器人本體感知狀態和低級動作策略。

關鍵在于 " 左右腦 " 之間的信息交互，通過非對稱混合 Transformer 機制（AsyMoT），右腦可以動態查詢左腦的語義知識，左腦參數不會被下游任務污染。

這種設計的精妙之處在于知識遷移而不遺忘，右腦學會動作控制時，左腦依然保有識別易碎物品的常識及推斷約束條件的能力。遇到新場景時，左右腦協同工作，既不會變成 " 只會抓杯子不懂杯子會碎 " 的純執行機器，也不會停留在 " 知道要輕放但手不聽使喚 " 的紙上談兵階段。

張翼博：在過往一年當中，我們觀測到了非常多次的智能涌現，也和英偉達交叉驗證了這個數據規模是有效的。我們用 1000 小時的數據實現了這樣的模型性能，這本身就是對新范式的一次關鍵驗證。

智客 ZhiKer：從數據采集到模型訓練的周期和成本如何？

陳凱：數據采集、處理和模型預研同步推進的全流程不到 3 個月。核心難有三個，一是制作數采設備，二是數據確權與隱私合規，三是打造數據處理管線提取物理常識。管線建立后，訓練視頻生成模型和多模態大模型就比較順暢。

張翼博：我們是國內第一批完成 10 萬小時量級多模態第一人稱視角數據采集的公司，通過自研的全套技術方案，綜合成本遠低于市場其他類型數據，數據有效性也大幅提升。

何旭國（深度機智硬件負責人）：很多人認為腦袋上裝一個攝像頭就完成了數據采集，但真正解決這個問題的時候，有大量的工程化問題需要解決。我們在定義什么樣的數采設備可以進入到真實生產生活。

目前所有的設備，它的存儲、電量不可能做到又小、時間又長、功耗還低，這是矛盾的。智能眼鏡每增加 10 克，對耳朵的負擔都非常明顯。所以我們最開始就拋棄了傳統智能眼鏡作為數采設備的解決方案。

我們最終收斂到把整個設備的形態對頭部負擔盡可能小，把所有的存儲、算力、通訊等基本功能外置，定制了腰包、電源、存儲、電腦，開發了軟件，做了這個解決方案。

我們部署了一個輕量級手部檢測模型。畫面中出現手的時候就開始拍攝，畫面中沒有手了拍攝就結束，這樣最大程度保證了數據的有效性。

智客 ZhiKer：你們還研發了自主站立工業級擬人體機器人，為什么一家做 " 大腦 " 的公司要做本體？

陳凱：使用人類數據學習的最佳載體，應該是高度擬人的機器人。

何老師不僅負責數據采集設備，也為大腦設計身體。這款機器人全身采用萬元級諧波力控電機關節模組，全身一共 72 自由度，而且這款機器人在不通電的情況下可以自主站立，這對于機器人未來進入場景非常重要，它可以實現低能耗和高安全性。

張翼博：諧波全身力控是技術路線，擬人體是結構路線。擬人體要求每個自由度與人對齊，手指長度、胳膊肘長度均需匹配，即結構同構。我們的優勢在于 " 諧波 + 同構 " 兼得，諧波關節模組尺寸正是行業難點，我們已取得關鍵突破。

智客 ZhiKer：公司最終定位是做機器人大腦，還是有思考的機器人本體？未來規劃是什么？

陳凱：最終目標是具身 AGI，或者說具備物理智能的大模型，用模型能力為機器人提供服務，提供更理解物理世界、更理解交互的 Token。

張翼博：短期來講我們要做 " 沿途下蛋 "。先開源 4B 的小模型，讓行業看到這了路的可行性，同時我們的數采設備也已經逐漸開始商業化；下一步，把更大的模型做成產品，讓大家調用；同時，我們還在探索養老和教育場景。

智客 ZhiKer：技術路線收斂之后，數據標注、算力、真機驗證，哪個環節會成為新的瓶頸？中國在哪個環節有優勢？

張翼博：中國的優勢首先在數據。美國采集并標注第一視角 27 萬小時，花費巨額成本。中國擁有更豐富的數據來源和更低廉的采集成本，千萬小時人類第一視角數據，今年在中國整個行業就會達到。

再說算力。國產卡完全可以承接，我們有充足的國產算力資源作為支撐。現在技術已經收斂了，下一步就是投入信心、國家支持、全行業共同努力。中國實現彎道超車或者直線超車是非常有可能的。

陳凱：還有一個關鍵是標注與模型架構、訓練方法緊耦合。對手部軌跡建模可能只需幾塊錢算力，但對空間常識、任務理解的標注可能需要幾百塊，投入巨大，回報也巨大。

智客 ZhiKer：中國和美國在具身智能領域各有側重，但如果具身智能是 AGI 問題，這個分工會被打破嗎？中國在大模型上的追趕經驗能復用到具身智能上嗎？

陳凱：中美確實各有側重，中國在本體領域有顯著的競爭優勢，美國在具身大腦方向起步更早。

中國在具身大腦方向上的力量還需要加強，但是我們對趕超甚至領先非常有信心。一是場景儲備，制造業立國，幅員遼闊，數據上天然有優勢。二是硬件協同，具身大腦可與本體同步迭代，以更高效率設計適配大腦的身體。三是制度創新，國產芯片突破，北京中關村學院等新型教育機構探索新科研組織方式。

不管是制度創新、產業協同，還是場景豐富度、國家意志，具身大腦的方向上，我們起步不晚，積累不淺，完全有信心走出一條自己的路。

張翼博：能與物理世界交互的人工智能，估值空間巨大。這既是國家需求，也會對生產制造業、家庭服務業影響深遠，讓勞動變成一種選擇，而非必需。

如果具身智能成為 AGI 的原生能力，將重構整個 AI 產業鏈。我相信中美會齊頭并進，不會是美國遙遙領先。

來源：鈦媒體

THE END

廣告、內容合作請點擊這里尋求合作

免責聲明：本文系轉載，版權歸原作者所有；旨在傳遞信息，不代表砍柴網的觀點和立場。

不做遙操作、不采真機數據，這家公司的機器人靠學習“人類第一視角數據”干活

相關熱點

最新文章

相關推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

關注我們