我們每天都在用AI寫信、寫文章、編輯 、校對、分析股票、問健康問題、旅遊問題、Gen 圖在TG 谷吹水使用,那麼有用的工具,自己投資都是理所當然,而且大部份的人都認定AI發展是未來,投資AI概念股有買貴,無買錯,對嗎?真的是這樣嗎?有沒有想過現時OpenAI的發展方向可能有問題?
2023年OpenAI開發的ChatGPT推出之後,傳媒及一些行外投資人不斷吹噓AI取代人類工作,尤其低層及中層工種將面臨大規模裁員,引發很多打工一族的疑慮。繼ChatGPT 之後,科技巨頭紛紛推出大語言模型,Claude、Gemini、 Llama、Grok、Deepseek相繼推出,而LLM(Large Language Model)的發展陸續轉向另一里程LRM(Large Reasoning Model),LRM的發展對AGI (Artificial General Intelligence*)尤為重要,科技巨企及VC都大量投資於AGI,AGI是指人工智能擁有有如人類智慧水平的理解、學習、自我改進和應用知識的能力,此為self learning 的AI。這些有如人類的學習能力,理論上像人類般能夠舉一反三,從一個領域的學習與轉移到另一個領域,甚至能夠獨立作出決策,而無需持續的人類指導。由於擁有人類的推理能力,AGI亦應該能夠處理不同專業能力及預見問題。
AGI的不斷自學及不斷自我改良能力,對未來人型機械人和無人駕駛車在路的自主決策能力和發展能否擴大(scalability)起關鍵作用!
然而AI reasoning被受質疑,最被受爭議的是蘋果公司的「The illusion of Thinking 」,很多質疑都針對蘋果公司沒有追上AI發展潮流,現在只能透過與AI 公司合作(包括OpenAI、Perplexity 、千問等),iPhone 才能擁有AI能力。
筆者看罷了兩份正反兩面的報告:「The illusion of Thinking 」和「The illusion of the illusion of Thinking 」,加上CTO使用Copilot寫codes 的經驗,筆者傾向認同蘋果公司的「The illusion of Thinking 」。
蘋果公司的「The illusion of Thinking 」報告中,AI研究人員利用益智遊戲河內塔(Tower of Hanoi ) 和渡河(River Crossing),這些遊戲能在規則保持不變的情況下,可逐步調整困難度來測試LRM的推理能力。
研究以三個階段(簡單、中度、艱難)來調整兩項遊戲河內塔和和河道口的困難度,看看這些模型的思考能力,結果發現:
1. 簡單的問題:標準模型更快、更準確,使用更少資源。
2.中度問題:LRM在這裡做得更好。 他們反思的、一步一步的思考顯示了價值。
3. 艱難問題:兩者都失敗。 問題越複雜,LRM解決它所付出的努力就越少,很早便放棄了。
隨著問題的複雜程度增加,LRM模型會開始減少推理,直至臨界點,它們會完全崩潰,即使增加它們的資源,它們仍然會停止產生準備確的解決方案,甚至完全放棄。
研究指出,最令研究人員驚訝的發現是:即使提前給模型提供了正確的演算法,它仍然很難可靠地執行。
蘋果公司的研究人員透過跟蹤這些LRM模型如何產生中間解決方案來檢查這些模型的內部「思想過程」,從中發現這些LRM 在遇到困難度高的題目時花了很多時間在錯誤的選項中徘徊,出現過度思考的現象。
報告結論是,這些模型並不真正知道他們何時走上了正確的軌道,他們無法從好的推理經驗中辨認出好的推理意識。 這不僅僅是一個技術限制,而是有關基礎問題。這發現很重要,因為這關乎對AI的信任、它的判斷力,以及我們未來如何與機器合作有關,當我們越來越多向AI尋求支援,涉及的範疇在學習、發展、業務戰略和決策方面,我們是否高估了這些系統能做什麼?
蘋果研究團隊在論文的最後指出,儘管很多炒作,但目前的模型可能會觸及一堵牆。 他們認為,僅僅擴大計算和提示技術可能不足以達到真正的推理。
這結果令人重新審視AI的真正推理能力。
另一方面, Anthropic 公司的的報告題為「The illusion of the illusion of Thinking 」 ,對蘋果公司的報告作出了反駁,他們認為測試至艱難程度時,這些模型並沒有足夠token完成任務,因此出現「放棄」情況。
為何會出現token不足的情況?這報告指出,蘋果公司的研究測試要求模型列出每次移動決策過程(這可能是研究人員需要跟蹤模型思考過程),結果造成了多次重複使用token。這情況下,變成每次模型糾錯的解決方案時都逐個評分,這項限制可能會導致錯誤分析。
他們認為不應該忽視模型在解決河內塔問題時明確指出「模式仍在繼續,但為了避免太長,我將到此停止」。 這表明模型理解解決方案模式,但由於實際限制,選擇截斷輸出。結論是模型的失敗是源於實驗設計的問題。
我不想糾纏哪一個測試研究的對錯,只是想列出「The illusion of the illusion of thinking 」的另一面思考。
其實並不只蘋果公司的研究報告質疑AI reasoning ,另一份研究報告「Why Do Multi-Agent LLM Systems Fail?」亦質疑AI執行的準確性。
近日AI agent成為AI另一發展焦點,Multi-AI agent system越來越多涉及不同工作領域,如software engineer 、healthcare、藥物發現、科學模擬等等,初創企業均以開發AI agent 來處理複雜、multi task 任務和不同環境動態互動,然而報告測試發現,multi-AI agent system 處理這些工作的錯誤率為66%,準成度受到質疑,這使得基於LLM的AI agent系統獨立處理現實世界的問題被受質疑。
個人經驗而言,我們的CTO也有使用copilot寫code和debug program, 他的經驗是AI寫program只能是提供一個框架,debug時也只是提供另一個意見,在正確執行上仍然需要程式員完善和完成,更遑論一個不懂程式的人可以靠幾句prompt寫出複雜程式和網站功能出來,而技術門檻低的應用程式和網站功能又要面對激烈競爭。所以大部份吹水評論指程式員會無工做是高估了AI的能力,或許AI能夠取代的只是低級程式員而已!
說到這裏,我們開始重新審視AI獨立決策的未來能否真正執行?這只是問題之一!
問題之二留待下次再談!Stay Tune!
沒有留言:
發佈留言
請留回應!