首個為AI設置的“IQ測試”:玩游戲、解魔方、考SAT全面評估

自從計算機問世,人們對于機器便開始了永無止境的探索,如何讓機器更聰明。
那么怎么判斷機器的“聰明程度”呢?最經典的方法當然是“圖靈測試”。
早在1950年,圖靈發表了一篇劃時代的論文,他表示機器也可以擁有智能,像人一樣會“思考”,并且提出了圖靈測試:測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果機器讓平均每個參與者做出超過30%的誤判,那么這臺機器就通過了測試,并被認為具有人類智能。
2015年11月,《Science》雜志封面刊登了一篇重磅研究:人工智能終于能像人類一樣學習,并通過了圖靈測試。這個系統能夠迅速學會寫陌生的文字,同時還能識別出非本質特征(也就是那些因書寫造成的輕微變異),通過了圖靈測試,這也是人工智能領域的一大進步。
因為易于理解又簡單可控,這一測試方法自誕生起,一直被看作測試人工智能是否智能的重要方式。但是隨著AI系統的快速發展,其復雜性正在迅速上升,而這些年,各種新的人工智能“智能”測試方法正層出不窮的涌現。
近期,華盛頓州立大學電子工程與計算機科學學院的教授Larry Holder表示,“以前,測量AI系統智能與否的研究大多是理論性的,沒有在未知的新環境中測試AI系統的實際性能,也沒有考慮到任務的復雜性。”
▲Larry Holder
于是Holder和他的團隊正在為AI系統創建首個“IQ測試”,以了解它們學習和適應新環境的能力,測試根據AI系統所能解決問題的難度對其進行評分,評分還將考慮系統的準確性、耗時以及所需的數據量。該研究的主要內容之一就是創建對問題難度進行排名的方法。Holder表示,“我們專注于測試和改進那些更具通用性的系統,比如可以幫助你完成許多日常任務的機器人助手。”研究人員主要關注的是,他們測試的AI系統能否很好地將它們從一個任務中學到的知識應用到另一個全新的,未知的任務上。例如,你可能想在下象棋之前先學習跳棋,因為可以很容易地把跳棋的知識轉移到象棋。一名與Holder一起做暑期研究的本科生幫助他設計了一個評估環境,用于測試AI系統需要完成的任務,比如玩視頻游戲、解答SAT考試的相關問題和解魔方。
可根據AI系統學習和玩新的視頻游戲(例如Vizdoom)的能力來評估AI系統
Holder目前在維護一個AI系統可以進行“IQ測試”和排行的網站。他希望大家都可以使用它來測試自己的AI系統,同時在這個過程中為研究人員提供更多的數據。
要想測試,需要先創建一個AIQ帳戶,然后在AIQ的后端提交分數。AIQ是一個開源測試框架,用于評估AI系統的“智商”。有關運行AIQ框架的詳細教程及代碼都在Github上,感興趣的同學可以上手測一下~
AIQ網站地址:點此前往。
研究人員希望利用這一框架,為人工智能評估提供一個開放的度量標準。另外,他們還將利用這一框架來確定人工智能領域的發展情況,以及在實現通用智能方面是否取得了進展。
Github教程:點此前往。
DeepMind曾為AI定制一套IQ測試題
Holder教授不是第一個想突破圖靈測試、為AI測智商的人。去年,DeepMind就動過為AI測智商的念頭~先來看下面這張圖,有沒有熟悉的感覺!這種圖形推理題,考過公務員的同學一定都不陌生~它能夠用來考察我們的觀察與邏輯推理能力,也是IQ測試題的一種。
去年,DeepMind發表了一篇論文,想要用這些推理題來測試神經網絡的抽象推理能力。論文鏈接://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf研究人員將抽象推理定義為在概念層次上檢測模型和解決問題的能力,因此他們構建了一個涉及一系列抽象因素的題目生成器,以此來測試和訓練機器學習。
在測試中,大多數模型都表現良好。研究人員發現,模型準確性與推斷任務底層抽象概念的能力密切相關。“有些模型學會了解決復雜的視覺推理問題,”該團隊寫道,“為此,他們需要從原始像素輸入中引入并檢測抽象概念的存在,并將這些原則應用于從未觀察到的刺激。“對于我們來說,考試前大家往往都會大量“刷題”,所以如果受試者準備太多,這樣的測試也可能無效,因為我們學到了特定于測試的啟發式方法,從而縮短了對推理的需求。研究人員也表示,“這對神經網絡而言可能更嚴重,因為它們具有驚人的記憶能力。”最終的研究結果表明,想得出關于泛化的普遍結論可能是無益的:研究人員測試的神經網絡在某些泛化方案中表現良好,而在其他方面表現很差。該團隊在一篇博客文章中寫道,“它們的成功是由一系列因素決定的,包括所用模型的架構以及該模型是否經過培訓等等。”雖然實驗結果可能是一個“大雜燴”,但研究人員還沒有放棄,他們計劃改進泛化策略,并探索在未來的模型中使用“結構豐富,但普遍適用”的歸納偏差。
AI研究之路艱辛漫長,“IQ測試”或許來的有點早
創造能夠在新環境中自主學習和行動的智能機器,仍然是人工智能研究者們追求的方向,也是目前所面臨的挑戰。
Holder和他的團隊建立這樣一個測試系統,旨在測試和改進那些更具通用性的系統,比如可以完成許多日常任務的機器人助手。這是一個很好的研究方向,但實際上,要想實現“通用人工智能”,還有很長一段路要走。現在的人工智能技術,雖然在一些特定的領域以及實際應用上具備超人的能力了,但是它還需要大量的數據來進行訓練。這種人工智能也被稱為面向特定任務的“窄人工智能”,例如人臉檢測、語音識別。未來希望能夠達到“通用人工智能”,即具備人一樣的智能,能夠不斷的自主學習,在更廣的范圍內提升整個機器的智能。
IBM副總裁、IBM大中華區首席技術官謝東曾在演講中表示,“通用人工智能可能還需要一段時間才能實現,我們經常說可能是2050年以后吧。”(劃重點:可能)那么現在,研究人員們正在努力把“窄人工智能”變成“寬人工智能”,所謂寬是什么?在學習的基礎上加入一些推理的能力,這樣就可以支持多任務、多領域、多模態的學習。美國哥倫比亞大學創意機器實驗室總監、工程學教授Hod Lipson與團隊研究出一款可以自我學習的機器人。它只有一個“手臂”,不像我們擁有眼睛可以看到自己,研究人員也沒有告訴它它是什么,而是讓它自己去感受,在自我想象中學習。
一開始它像嬰兒般瘋狂的甩著手臂,在感知自己的形態,感知這個世界。過了大概一天,它就可以開始做一些簡單的任務了。這樣簡單的任務完全可以通過編程讓它達到,但是這個機器人在它自己的模擬中學會了這項任務,這是人類邁向建造具備自我學習能力的機器人的重要一步。最后不得不說,在人工智能不斷發展的同時,我們必須要確保是“可信的人工智能”,因為要把人工智能進行大規模應用的話,一定要保證它是可信的。