FAIR等提出IntPhys：你的智能係統的物理知識，比得上嬰兒嗎？

摘要：嬰兒和許多動物對物體的相互作用有直觀理解，並能逐步掌握物體恆常性、因果關係、重力、形狀不變性等直觀、非語言概念。受此啟發，Facebook
AIResearch等機構聯合提出了一個評估框架和基準數據集

嬰兒和許多動物對物體的相互作用有直觀理解，並能逐步掌握物體恆常性、因果關係、重力、形狀不變性等直觀、非語言概念。受此啟發，Facebook
AI Research 等機構聯合提出了一個評估框架和基準數據集
IntPhys，通過測試系統區分可能與不可能事件的能力，來診斷其對直觀物理的理解程度。該項目對於無監督學習和現實交互系統等應用有重要意義。

1. 引言

儘管機器視覺在許多任務（面部識別
[ 68]、目標識別 [ 33，26] 、目標分割 [ 52]
等）上取得了引人矚目的進展，但是人工系統對複雜場景的理解還遠遠達不到人類水平。場景理解不僅涉及目標分割和跨時間目標追踪，還涉及目標之間的空間和時間關係表徵，並能夠預測它們在物理世界中的交互方式。

實驗證據表明，非常小的嬰兒和許多動物確實對物體的相互作用有直觀的理解，他們利用這種「直觀的物理學」來預測未來的物體狀態並規劃他們的行動
[ 4 ]。在 2 – 4 個月的時候，嬰兒就能夠從物體恆常性、實體性和時空連續性的角度分析視覺輸入 [ 29，65] 。在 6
個月的時候，他們理解了穩定、支持和因果關係的概念 [63，6，5] 。在 8 到 10 個月之間，他們掌握了重力、慣性和碰撞動量守恆的概念；10
至 12 個月之間，他們掌握了形狀不變性 [ 70
]。這種隱性知識是直觀的和非語言的（相對於物理課中教授的形式化知識），並且遵循與早期語言習得平行的發展路徑。這兩種情況都發展快速、自發，而且沒有護理人員的明確培訓
[ 53 ]。

在生物體中，直觀物理是一種潛在的構造：它只能通過對特定任務（如計劃、解決問題）的影響來間接地觀察和衡量，或者在人類中，通過口頭描述和解釋來觀察和衡量。還可以通過測量對「魔術」的驚訝反應來揭示，即對物理上不可能發生的事件（例如物體不知從哪裡消失或出現、相互穿越或無視重力等）表示無法理解或好奇。直觀物理的潛在性質對視覺系統提出了兩個難題：評估挑戰和工程挑戰。

評估挑戰可以表述為：給定一個人工視覺系統，定義一個量化該系統對（直觀）物理了解程度的度量。可能的解決方案是通過真實世界的應用來測量直觀物理現象，比如視覺問答
( VQA )、目標追踪或行動規劃（見圖 1）。然而，這可能會遇到兩種風險： ( a ) 數據集偏差；( b )
測量噪聲。第一個風險（又稱之為 Clever Hans 問題 [ 28
]）是現實生活中的應用程序數據集經常存在的固有統計偏差，這使得有時只需最小程度的干預就可以獲得良好的性能，有時卻相反。第二種風險是系統的整體性能是其各部分性能的複雜函數；因此，如果一個
VQA 系統比另一個具有更好的性能，這可能不是因為它更好地理解物理，而是因為它有更好的語言模型。

我們提出了一個框架，稱之為「物理合理性測試」，它以無任務和無模型的方式直接評估系統的直觀物理能力。這一框架的靈感來源於對嬰兒和動物直觀物理的研究。它將物理推理過程重塑為一個簡單的是非分類問題：呈現簡單場景的視頻，並詢問所描繪的事件在物理上是否可能。技巧在於準備匹配的視頻集，其中物理背離在可能與不可能的電影幀之間引入最小差異。通過改變物理背離的性質，可以探索不同類型的推理
（關於物體及其屬性的規律、關於物體移動和交互的規律等）。

考慮到我們的方法涉及到自然界中不能自發出現的事件，它應該作為一種診斷測試，而不是一種訓練物理推理系統的實用方法。然而，它的優點在於，它可以應用於已經在其他任務上訓練的各種系統。只要這些系統對計算給定場景的全局標量數的要求最小，我們就可以將其解釋為「合理性」得分。任何基於概率或重構誤差的系統都可以容易地得到這樣的分數。

工程挑戰可表述如下：構建一個系統，盡可能多地融入直觀的物理（至少像嬰兒一樣，作為初始階段）。我們已經放棄使用不可能事件的視頻來訓練這樣一個系統，理由是我們需要注重實用性。另一種使用帶有高級標註（物理實體、定律或關係等）的監督學習方法，也是不切實際的。首先，系統可以在不執行完整
3D
重建的情況下對場景具有良好的物理理解。第二，嬰兒無需輸入任何高級標籤就可以學習直觀物理。事實上，他們只經歷「積極」的物理事件（物理上可能的事件）。此外，嬰兒可以從他們的環境中獲得有用的反饋，因為他們在運動控制方面變得更有能力，儘管這種反饋只存在於可能發生的事件中。所以，解決該挑戰的一種方法是構建無監督或弱監督的系統，該系統使用嬰兒可獲得的相同類型的數據
（即，大量的感官觀察數據、有限但信息豐富的環境反饋、僅包含積極事件的實例），來學習物理定律。

這裡，我們提出了一個直觀物理的基準
IntPhys，其目標是同時嘗試解決評估挑戰和工程挑戰。它由一個 python 接口遊戲引擎（UnrealEngine
4）構建的合成視頻組成，實現了逼真的物理效果和精確的控制。訓練集僅包括積極事件，即由固定不動的智能體從第一人稱角度觀看可能事件的視頻。這可能比嬰兒面臨的任務更困難，因為嬰兒可以探索和與環境互動。但是有趣的地方在於，通過這種簡化輸入可以獲得多大程度的直觀物理能力，這種輸入在現實世界中很容易通過攝像機大量收集。此外，這使得模型的比較更加容易，因為它們都使用相同的訓練數據。測試集是根據我們的評估框架構建的，也就是說，它要求系統輸出合理性得分，並根據其將可能視頻與不可能視頻區分的能力進行評估。該測試集還可以用作以其他方式（真實視頻、虛擬環境中的交互式訓練等）訓練的系統的獨立診斷評估
[58,27,10]。

圖
2：具有物體恆常性的最小訓練集設計的圖示。具有一個、兩個物體和一個限流器的靜態條件示意圖。在兩個可能的視頻 (綠色箭頭)
中，物體的數量保持不變，儘管存在遮擋。在兩個不可能的視頻 (紅色箭頭) 中，物體的數量發生變化 (從 1 變為 2 或從 2 變為 1 )。

4 IntPhys 基準（V1.0）

我們在本文介紹 IntPhys 的第一個版本。 IntPhys 是一個基準，目標是解決視覺系統中直觀物理能力的工程和評估挑戰。第一版的重點是無監督學習，只測試問題層次結構的第一個模塊 ( O1，物體恆常性)。未來的版本將包括表 1 中更多的模塊。

表 1：直觀物理框架的概念模塊列表。

該基準由三個部分組成：(
1 ) 僅包含在虛擬環境中移動和交互的簡單無生命物體的物理上可能的事件的訓練集；( 2 )
包含物理上可能的和物理上不可能的視頻的開發集和測試集，如上所述以元組匹配； ( 3 )
評估軟件。通過這三個組成部分，以及對測試集的人類合理性判斷結果，為人類感知建模算法提供了參考。

圖 3：訓練集中的幀示例。

表 2：使用 MTurk 對 IntPhys（模塊 O1）測試集中的人類合理性判斷的平均錯誤率。 *代表根據我們的入選標準，此數據點已被「強制」為零。

圖 6：語義掩碼預測器的輸出示例。從左到右:輸入圖像、真實語義掩碼、預測語義掩碼。

論文：IntPhys: A Framework and Benchmark for Visual Intuitive Physics Reasoning（一個用於視覺直觀物理推理的評估框架和基準數據集）

論文地址：https://arxiv.org/pdf/1803.07616.pdf

摘要： 為了達到人類在復雜視覺任務中的表現性能，人工系統需要在宏觀對象、運動、力等方面融入對世界的理解。在嬰兒直觀物理研究的啟發下，我們提出了一個評估框架，通過測試給定係統區分視頻中可能與不可能事件的能力，來診斷給定係統對直觀物理的理解程度。測試要求系統計算整個視頻的物理合理性得分。它沒有偏見，可以測試一系列具體的物理推理技能。然後，我們介紹了新基準數據集的第一個版本，該版本旨在通過使用遊戲引擎構建的視頻，以無監督的方式學習直觀物理。我們介紹了兩個用未來幀預測目標訓練的深層神經網絡基線系統，並在可能
vs 不可能的辨別任務上進行了測試。通過將結果與人類數據進行比較分析，我們對未來幀預測體系結構的潛力和局限性給出了新見解。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

FAIR等提出IntPhys：你的智能係統的物理知識，比得上嬰兒嗎？

相關推薦

去顶部

相關推薦

去顶部

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱