GPT-4o登場多模態成AI競爭焦點

來自: 澳門日報電子版收藏邀請

OpenAI和谷歌先後發佈的多模態大模型，成AI競爭新焦點。（網上圖片）

GPT-4o登場多模態成AI競爭焦點

【新華社北京電】近期全球多家公司推出的最新大模型讓人目不暇接，特別是GPT-4o等產品備受關注。接下來全球這一領域競爭的焦點在哪裡？

多模態成競爭新焦點

五月，美國開放人工智能研究中心(OpenAI)發佈最新多模態大模型GPT-4o，對語音理解能力有質的飛躍，同時還可分析圖像、視頻，並識別用戶情緒。緊隨其後，谷歌發佈多模態AI助手Project Astra。業內人士認為，這兩大產品背後的多模態融合技術，是人工智能競爭的新焦點，多模態、更自然的交互體驗，成為大模型技術產品化並為更多人所接受的關鍵。

上海Soul人工智能研究院院長陶明談到GPT-4o發佈時說：“不再大談深奧的技術，不再強調未來投入多少鉅資，而是重點展示家教輔導等應用場景。從中可看出，此輪AI發展中，關注場景和交互體驗將是必然趨勢。”

內地科企紛發佈新品

中國多家科技企業近期也相繼發佈新產品。字節跳動公司發佈豆包大模型家族，同樣具有多模態能力，可適用於多種場景；騰訊發佈基於混元大模型的創作與分發平台騰訊元器，方便用戶開發具備聊天對話、內容創作、圖像生成等多功能的智能體；大模型公司零一萬物推出千億參數Yi-Large閉源模型，據美國斯坦福大學最新大模型排行榜評估，其英語回覆能力相關指標在全球處領先地位。

零一萬物首席執行官李開復表示，多家中國科技公司在開源和閉源領域都發佈大量高質量的模型，性能逐步追齊GPT-4，並在中文能力上達到世界領先。

捲指標到捲場景體驗

斯坦福大學今年四月發佈的人工智能(AI)指數報告稱，二三年，著名人工智能模型中有61個源自美國，中國則有15個。美國在高端芯片製造、基礎研究和技術創新上優勢明顯；中國擁有龐大的互聯網用戶基數，提供豐富的場景等方面數據資源，這對訓練大模型來說是重要優勢。

“大模型的競賽可分為幾個階段，第一個階段是‘捲指標’，在參數和指標的提升中重點關注性能問題，但這也造成目前的行業通病——大模型性能和應用嚴重分離，也就是大家所討論的‘拿著錘子找釘子’的問題。因此，發展至第二個階段‘捲場景和體驗’，成為一種必然。”陶明說。

中文詞元質量未跟上

上海市數據科學重點實驗室主任蕭仰華指出，應該看到這一輪競爭中，應用場景的重要性。

在談到數據問題時，蕭仰華說，GPT等大模型仍是主要基於互聯網通用開放語料進行訓練。這類通用大模型一旦用於千行百業，可能存在領域知識匱乏的根本性問題，從而限制大模型在具體領域的價值發揮。

零一萬物公司模型訓練負責人黃文灝表示，他看到GPT-4o更新分詞器的詞表，但是其中和中文相關的詞元質量還沒跟上。

認為這可能是由於他們缺乏高質量的中文語料，這對中國企業是一個機會。“國內的工程師可更沉下心來對數據研究、分析，把數據質量做到非常高的水平。”