中国漂亮护士一级a毛片_久久99久久精品久久久久久_久久久精品精品_成 人 亚洲 综合天堂_日韩一级影片_99视频免费

當前位置:首頁 > 軟件教程 > AI大戰經典游戲!誰才是超級馬力歐兄弟的真正王者?

AI大戰經典游戲!誰才是超級馬力歐兄弟的真正王者?

更新時間:2025-04-02來源:網絡

研究背景

當前科技發展迅猛,人工智能的性能測試成為了焦點。上周,加州圣地亞哥分校的Hao人工智能實驗室選擇了《超級馬力歐兄弟》這款經典游戲,用它來測試AI的能力。過去,游戲一直是評估AI成就的工具,這次用馬力歐游戲來測試,有助于我們更全面地了解AI的表現。

實驗室長期專注于AI領域的深入研究,這次他們別具一格地挑選了游戲作為實驗平臺,意在在新的環境中挖掘AI的潛能。這一研究有望為AI的未來發展帶來新的洞見和思路。

_AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳_AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳

測試方法

這次測試并未采用1985年發布的《超級馬力歐兄弟》的原始版本。游戲是在模擬器上運行的,并且通過一個我們自主研發的框架與人工智能系統相連。這個框架使得AI能夠操控馬力歐。此外,實驗室還向AI輸出了基礎操作指令,例如“注意前方有障礙或敵人,請向左移動或跳躍以避開”,并且還提供了游戲截圖。

AI能夠以代碼形式控制馬力歐。這一過程猶如為AI安排了一場“考試”,目的是觀察其在游戲環境中的問題解決能力。借助嚴格的測試手段,實驗室得以準確評估每個AI模型在游戲中的實際表現。

模型表現

在參與測試的AI模型里,3.7的表現最為出色。它能夠迅速作出反應,規劃出行路徑,游戲操作顯得很流暢。排在第二位的是3.5,同樣顯示了不錯的游戲技巧,能夠在復雜環境中靈活應對。

_AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳_AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳

相較之下,谷歌的1.5 Pro和GPT-4o的表現不盡理想。它們在應對游戲中的各種情形時,反應遲緩,操作不夠精確,因而游戲進程和得分都不太令人滿意。

推理與非推理模型差異

在實驗中,我們發現o1這類推理模型的表現并不如“非推理”模型。通常情況下,推理模型在多數基準測試中表現得更為出色,然而在這場實時游戲中,它們卻遭遇了挫折。原因在于,它們需要數秒鐘的時間來做出決策。

在《超級馬力歐兄弟》這款游戲中,時間把握至關重要,稍縱即逝的一秒差異,可能導致結果截然不同。非推理模型因其反應迅速,能捕捉到游戲中稍縱即逝的機遇,因此在游戲中表現更為出色。

游戲測試質疑

盡管游戲在數十年的時間里一直是評估人工智能性能的關鍵手段,然而,一些專家對將AI在游戲中的表現直接等同于技術發展的做法表示了懷疑。相較于現實世界,游戲往往更趨于抽象和簡單,同時也能為AI的訓練提供大量的數據支持。

在游戲環境中,AI的表現或許不能充分展示其在真實復雜環境中的實力。即便是一些出色的游戲基準測試成績,也引發了人們所謂的“評估困境”。

后續思考

盡管對此有不同看法,看AI操作馬力歐依然挺有意思。未來研究或許能更好地結合游戲和現實環境測試,全面評估AI的表現。此外,我們還需考慮如何提升AI在多變復雜環境中的適應能力。

AI的發展之路尚且漫長,此次通過游戲進行AI測試僅是初步的探索。我們熱切期待未來能有更多創新和優化,讓AI在各行各業都能展現出其高效潛能。

AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳_AI玩《超級馬力歐兄弟》:Claude 3.7操作最溜,推理模型表現不佳_

主站蜘蛛池模板: 亚洲麻豆视频 | 啪一啪操一操 | 国产最顶级的黄色片在线免费观看 | 午夜久久久久久久久久久 | 日本一区二区在线观看视频 | 国产99热在线 | 久久中文高清 | 九色成人搞黄网站 | 91激情在线| 91精品国产一区自在线拍 | 免费看国产黄色片 | 亚洲在线国产日韩欧美 | 国产一区二区三区视频在线 | 不卡免费视频 | 国产福利一二三 | 国产一区二区精品久久 | 九州影视在线免费 | 99久久久国产精品美女 | 性欧美极品另类 | 9797色| www.中文字幕久久久 | 91在线九色| 99久久国产免费免费 | 一级毛片不收费 | 免费91麻豆精品国产自产在线观看 | 交换一乱一性一爱 | 成人欧美一区二区三区黑人孕妇 | 亚洲男人av| 国产 欧美 日韩 | 一区二区三区四区高清视频 | 国产精品国产三级国产专i 超碰91资源 | 精品这里只有精品 | 日韩在线视频一区 | 免费看黄网站在线观看 | 国产经典在线 | 免费观看中文字幕 | 久久玖玖 | 三区四区在线视频 | 一区二区三区中文免费 | 免费av网页| 欧美中出 |