DeepSeek幻覺率達21%，今年WAIC研究勸退“一本正經(jīng)胡說八道”

文章來源：上觀新聞

字體：大中小

發(fā)布時間：2025-07-28 09:13:25

《新江南網(wǎng)》江南區(qū)域知名綜合門戶網(wǎng)站！

追蹤網(wǎng)絡(luò)熱點，關(guān)注民生動態(tài)，傳播江南文化，倡導網(wǎng)絡(luò)新時代！

http://loginbisaqq.com/歡迎您！

☆ 新江南網(wǎng) ☆歡迎您

2025年世界人工智能大會各大論壇的議題中，“安全治理”幾乎是繞不開的話題。記者在采訪中發(fā)現(xiàn)，“AI確定性”也常常被人提及。

特別是DeepSeek-R1的橫空出世，給業(yè)界帶來震撼的同時，也引發(fā)了隱憂：推理能力越強，AI幻覺越高。在AI加速商業(yè)化落地的浪潮中，降低AI幻覺、提升輸出的確定性，已成為業(yè)界面臨的一道必答題。

推理模型的幻覺更嚴重

最近，一則“DeepSeek向王一博道歉”的消息沖上熱搜。而事實證明是，AI幻覺導致以訛傳訛，最終成了謠言。這無疑是AI時代的荒誕現(xiàn)實。

所謂的AI幻覺，就是大模型在“一本正經(jīng)地胡說八道”。中文通用大模型綜合性測評基準SuperCLUE的測評結(jié)果顯示，DeepSeek-R1模型幻覺率高達21.02%，遠遠低于豆包大模型的4.11%，也低于DeepSeek另一款大語言模型V3的13.83%。該測評結(jié)果還顯示，推理模型的幻覺比非推理模型更嚴重，推理模型平均幻覺率為22.95%，非推理模型的平均幻覺率為13.52%。

或許是過高的幻覺率，勸退了很多用戶。第三方統(tǒng)計數(shù)據(jù)顯示，相較于年初，DeepSeek的月均下載量與使用率已大幅下降。

DeepSeek也意識到這一問題。5月29日，DeepSeek在升級模型時，特意針對幻覺問題作出優(yōu)化。據(jù)官方文檔介紹，新版本模型在改寫潤色、總結(jié)摘要、閱讀理解等場景中，幻覺率降低 45%—50% ，輸出結(jié)果更為準確可靠。

AI幻覺難以避免

AI幻覺，本質(zhì)上源于大模型的雙重技術(shù)局限：一是推理時編造內(nèi)容，二是訓練數(shù)據(jù)不全。大模型只能靠訓練數(shù)據(jù)來理解世界，如果訓練數(shù)據(jù)漏掉了關(guān)鍵信息，或者有錯誤內(nèi)容，大模型輸出的結(jié)果就容易出錯。

遺憾的是，“愛編故事”是大模型的天生缺陷。拋開那些復雜的技術(shù)原理，大模型生成的內(nèi)容，主要就靠“猜”——遇到?jīng)]學過的內(nèi)容，會根據(jù)概率猜一個最可能的答案來補全，尤其是在回答開放性問題時，大模型常會編細節(jié)讓答案看起來更完整，即便這是一個錯誤的答案。

另外，太多質(zhì)量參差不齊的數(shù)據(jù)，也會讓大模型“犯迷糊”，這些數(shù)據(jù)很可能相互矛盾，訓練出來的大模型就容易說出前后矛盾或完全錯誤的話。

但是，AI幻覺也并非洪水猛獸。很多人想不到的是，人類也會產(chǎn)生幻覺，甚至依賴幻覺做出決策。

2025世界人工智能大會主論壇上，深度學習之父、2024年物理學諾獎得主杰弗里·辛頓語出驚人：人們理解語言的方式和大語言模型理解語言的方式幾乎一樣，人類有可能就是大語言模型，人類也會和大語言模型一樣產(chǎn)生幻覺。

前不久，OpenAI的競爭對手Anthropic創(chuàng)始人公開表示，大模型產(chǎn)生幻覺的頻率可能比人類還低，只是它們出錯的方式經(jīng)常出人意料。

把“二次核查”權(quán)利交給用戶

既然AI幻覺無法徹底消除，那么盡可能減少幻覺概率，成了大模型落地應用必須跨越的門檻。

實踐證明，不斷優(yōu)化算法和構(gòu)建可控信源，能有效降低AI幻覺的負面影響。例如，階躍星辰為大模型增加了“深入核查”的功能，保證模型輸出結(jié)果的可信性。

階躍AI的“深入核查”功能。

據(jù)階躍AI產(chǎn)品負責人陳男群告訴記者，“深入核查”能調(diào)用大模型自身的四種能力：強大的信息獲取引擎、交叉信源核查、信源權(quán)威性評估和提供引用來源。

“階躍AI融合了各類搜索源和網(wǎng)頁信息解析工具，實時獲取互聯(lián)網(wǎng)上大量信息，以彌補信源不足的短板。同時還能追蹤事實陳述、數(shù)據(jù)引用等關(guān)鍵信息的來源，通過不同信息源進行交叉驗證。更關(guān)鍵的是，我們會盡可能找到一手的、具備權(quán)威性的專業(yè)信源，并讓模型理解不同信源渠道的可信度差異。”陳男群介紹，階躍AI的特別之處在于“不輸出‘事實’輸出證據(jù)”，不讓AI說“假、大、空”的定性結(jié)論，輸出內(nèi)容的同時還提供多個引用來源、原始網(wǎng)頁、發(fā)布時間等詳細信息，為用戶提供“二次核查”的依據(jù)。

據(jù)悉，階躍AI的“深入核查”獲取了2000多個優(yōu)質(zhì)信源，文獻庫數(shù)量超過1000萬篇，試運行一周內(nèi)就登上了海外AI產(chǎn)品榜單前十名，收到用戶正面反饋。

聲明：
本文僅代表作者個人觀點，與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容，新江南網(wǎng)號系信息發(fā)布平臺，新江南網(wǎng)僅提供信息存儲空間服務。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員（yin040310@sina.com）刪除！

上一篇：人工智能與教育深度融合，為上海這所中學帶來了什么
下一篇：太難找！地鐵站地面無障礙電梯外觀像“黑盒子”，市民建議增設(shè)標識