(圖片來源:鈦媒體App編輯拍攝)

近期,關于生成式 AI 產品和產業的諸多質疑聲不斷發酵。

北京時間5月25日, 美國普渡大學發表的一項研究顯示,ChatGPT對Stack Overflow上517個關于代碼開發問題進行分析,最終顯示,AI 輸出的答案中,有52%包含錯誤信息,77%的答案比人類答案要更冗長,而78%的答案與人類存在不一致狀況。

研究人員稱,ChatGPT仍然存在重大的缺陷,經常會憑空產生完全錯誤的答案,并且這個錯誤比例高得驚人。

與此同時,谷歌日前發布的全新 AI 搜索產品“AI Overview”被網友曝光 AI 回答頻頻出錯,包括建議“往披薩上抹膠水”、“吃石頭對身體好”等回答,它甚至還會告訴你,互聯網上的一切是100%真實的,因此這遭到網友廣泛批評;另外,估值超10億美元的Adept、估值7.5億美元的Humane、AI獨角獸Stability AI等多家 AI 公司被曝光并購或“賣身”。

5月國內大模型“價格戰”降價后信息匯總(來源:鈦媒體App編輯整理)

如果再加上過去一個月內國內集體進入的大模型API“價格戰”。很顯然,隨著新一輪 AI 熱潮進入“深水區”,當 AI 還沒改變世界之前,如今卻已經遭到人類的“圍剿”。

AI產品受質疑: ChatGPT出現52%的錯誤率,谷歌AI“大翻車”

首先,從ChatGPT編程問題遭遇52%的回答錯誤率開始說起。

據futurism報道,美國普渡大學研究人員本月在計算機會議ACM上展示的一項研究成果表明,ChatGPT AI生成的編程答案中,有52%的回答包含錯誤信息,77%的回答過于冗長。


這篇共計17頁的論文當中,研究人員深入分析ChatGPT對Stack Overflow上517個編程問題的回答,考察了這些回答的正確性、一致性、全面性和簡潔性。盡管研究發現ChatGPT回答存在錯誤信息,但研究參與者當中,仍有35%的時間傾向于選擇ChatGPT的回答,因為它們全面且語言表達清晰。

研究方法上,論文作者以手動分析、語言學分析、用戶研究三個部分展開。

手動分析:對ChatGPT的回答進行手動分析,與Stack Overflow上人類程序員提供的接受答案進行比較。

  • 語言學分析:對2000個隨機抽取的Stack Overflow問題進行語言學分析,使用LIWC工具和情感分析。

  • 用戶研究:與12名程序員進行用戶研究,了解他們對ChatGPT和Stack Overflow答案的偏好。

    最后發現,ChatGPT的回答在很多情況下表現得非常好,但也頻繁出錯,并且不必要地延長了回答。

    同時,ChatGPT回答具有更豐富的語言學特征,導致一些用戶更傾向于選擇ChatGPT而非人類回答,并有時忽視ChatGPT回答中的基本錯誤和不一致性。數據顯示,有39%的參與者忽視了ChatGPT回答中的誤導信息。這表明需要對抗ChatGPT回答中的誤導信息,并提高人們對看似正確答案的風險意識。

    另外,用戶通常能夠正確區分ChatGPT回答和人類回答,他們尋找諸如正式語言、結構化寫作、回答長度或不尋常的錯誤等因素來決定答案的來源。而且,論文還討論了ChatGPT在編程中的挑戰和風險,并提出了設計新的交互和計算方法來對抗ChatGPT生成的誤導信息的機會。

    有分析認為,這篇論文的研究成果對于理解ChatGPT在編程領域的應用及其潛在問題具有重要意義,并為未來的研究和實踐提供了指導。

    其次,谷歌AI“大翻車”事件引發 關注。

    最近,谷歌在I/O開發者大會上宣布,其搜索產品新增名為“AI Overview”的功能,它可以在搜索結果的最頂部直接展示一個簡短的答案。例如,如果你搜索“如何清潔皮靴”,系統就會立即顯示一個綜合了網絡信息的多步驟清潔指南。這個功能讓你能迅速獲得信息,無需逐一查看各個網頁。

    然而,使用不到兩周,由于AI Overview頻頻提供“離譜”的錯誤答案,遭到了網友的大量批評,而且用戶還不能選擇關閉這個功能。

    比如,當一位用戶搜索“芝士不粘披薩”時,AI Overview建議用戶在醬汁中添加“大約1/8杯無毒膠水”。有網友發現,這個建議似乎源自11年前的一條無人問津的Reddit評論。


    再比如,用戶提問:“在網上看到的信息都是真的嗎?”。AI Overview回答:“是的?;ヂ摼W上的一切都是100%真實的?!?。

    有時候AI Overview功能呈現的錯誤信息,會誤導用戶以為是權威醫療專家或科學家的觀點。

    例如,當用戶詢問“我每天應該吃多少石頭”時,該工具錯誤地引用加州大學伯克利分校地質學家的話稱:“人們每天至少應該吃一塊小石頭”,并繼續列出吃石頭的好處,比如巖石是人體維生素和礦物質的重要來源,吃石頭對消化健康有好處.


    當被問及谷歌搜索是否違反反壟斷法時,AI Overview回答說:“是的,美國司法部和11個州正在起訴谷歌涉嫌違反反壟斷法?!?

    對此,谷歌發言人表示,“絕大多數AI Overview提供的信息質量都很高,并且會提供更多網頁鏈接供用戶深入了解。我們注意到很多示例都是不常見的查詢,也有一些是被篡改的或者他們無法復現的例子。這個功能在推出前已經進行了大量測試,并且公司會在必要時快速采取行動來確保內容的準確性?!?

    不僅僅是AI Overview工具,谷歌在今年2月推出的另一個名為Gemini的圖像生成工具也頻頻出錯,導致該工具被暫停使用。例如,有用戶在社交媒體上分享,他在查詢谷歌創始人時,該工具展示了一幅亞洲男性的圖像。

    谷歌當時在一份聲明中表示,它正在努力修復Gemini的圖像生成問題,承認該工具“未達到標準”。不久之后,公司宣布將立即“暫停生成人物圖像”,并“很快重新發布改進版本”,但至今尚未再次推出。

    最后,是近兩天美國 AI 市場進入新一輪洗牌,獨角獸們集體遭遇“賣身”。

    據報道,Transformer作者Ashish Vaswani、Niki Palmer和David Luan成立的大模型公司Adept傳出被賣消息。公司估值10億美元,此前已獲得4億美元的融資,參投機構包括Frontiers Capital、微軟、英偉達等。據悉,Adept已經和Meta進行過溝通。

    目前,公司兩位聯合創始人Ashish Vaswani、Niki Palmer已經成立了另一家AI辦公自動化公司Essential AI。

    同時,有消息稱,紅極一時的可穿戴AI設備公司Humane AI Pin,也在與一名財務顧問接觸,尋找意向買家,目標價格是7.5-10億美元。此前,該公司獲得微軟、高通,以及OpenAI CEO奧爾特曼等人數億元的融資支持。

    另外,AI 圖片生成領域開拓者、Stable Diffusion打造者Stability AI被曝光公司團隊考慮求合并,但具體進度不得而知。而 AI 搜索龍頭Perplexity曾在1月傳出相關消息。不過隨著后面馬上官宣了B輪7360萬美元融資,求收購計劃疑似中止,最近還被曝正尋求更新一輪融資,金額可能達到2.5億美元。

    很顯然,不管出于何種原因,大模型領域進入了新一輪洗牌期。據PitchBook統計,過去3年中,全球大約2.6萬家創企共計融資了3300億美元。

    有市場分析稱,生成式 AI 產業投資正在呈現方向性轉移,模型層投融資“雪球效應”明顯,資源向頭部聚集,潛在資本重點看向應用層。

    紅杉資本在近期舉行的AI Ascent 2024上表示,2023年,各家AI公司在英偉達GPU上大手一揮,已經花去500億美元,但由此產生的收入才有30億美元。

    谷歌DeepMind首席執行官德米斯·哈薩比斯(Demis Hassabis)直言,AI 遭遇過度炒作,估值過于高昂,“泡沫”需要軟著陸。

    金沙江創投主管合伙人朱嘯虎曾指出,大模型商業模式太差,技術沒有差太多的情況下,每一代技術都要投,現在可能3.5版本要投入幾千萬美元,迭代到4版本要幾億美元,到5版本可能要幾十億美元,每一代模型都要重新去投入,而變現周期可能就兩三年,“這比發電廠還要差”。

    美國經濟學家泰勒·考恩(Tyler Cowen)認為,AI 炒作已經消退,但革命仍在繼續。

    國內大模型價格戰加劇,市場將迎來新一輪洗牌

    相對于國外的 AI 質疑和企業被迫出售環境,國內 AI 領域競爭加劇,阿里、騰訊、字節、百度、訊飛、智譜、DeepSeek集體加入價格戰。

    5月6日:私募基金幻方量化孵化的DeepSeek(深度求索)初創大模型公司發起降價,對標GPT-4的模型DeepSeek-V2的輸入價格定為1元/百萬tokens。

  • 5月12日、13日:智譜AI的GLM-3-Turbo模型和面壁智能模型展開價格攻防,后者宣布0元購。

  • 5月15日:字節跳動旗下火山引擎 AI 大模型豆包(原名:云雀)宣布,主力模型定價比行業價格水平要便宜 99.3%,豆包大模型的 API 輸入價格是 0.0008元/千 tokens,即1元在豆包能買到125萬 tokens。

  • 5月21日上午,阿里云宣布,9款通義大模型降價,其中,性能對標GPT-4的主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%,也就是1塊錢能買200萬tokens,相當于5本《新華字典》的文字量。而剛發布不久的通義千問超大杯Qwen-max,API輸入價格也直降67%,低至0.02元/千tokens。開源方面,Qwen1.5-72B、Qwen1.5-110B等5款開源模型的輸入價格也分別直降75%以上。

  • 5月21日下午,百度發文宣布,旗下兩款大模型ERNIE Speed、ERNIE Lite免費。

  • 5月22日,騰訊公布全新大模型升級方案,主力模型之一的混元-lite 模型不僅從 4k 升級到 256k ,而且全面免費;其他模型除了長度升級外,價格也都大幅下降。

  • 5月22日中午:科大訊飛宣布,訊飛星火 API 能力正式免費開放。其中,訊飛星火 Lite API 永久免費開放,訊飛星火 Pro/Max API 低至 0.21 元/萬 tokens。

    對此次價格戰,大家褒貶不一,一方面是認為利好大模型市場發展,另一方面則認為AI“泡沫”即將破滅、新一輪洗牌到來,觀點并不一致。

    其中,阿里云智能集團資深副總裁、公共云事業部總裁劉偉光表示,“(降價)它的目的一定是普惠于市場”,“要真正加速市場的提前爆發”。

    火山引擎總裁譚待表示,降價的主要原因在于,今年行業大模型能力大幅提升,做應用這件事變得很重要,也就是一定要將生態做繁榮。譚待稱目前接觸的很多客戶都在做大模型方面的嘗試,但創新這件事的風險度很高,尤其在AI領域,因此需要將成本降低,拉動大家更廣泛地使用起來。從這個角度來講,不論是大企業還是個人,都需要更低成本、更高質量的大模型。

    但彭博分析師 Robert Lea 和Jasmine Lyu在最新報告中認為, “中國在 AI 盈利方面將面臨著漫長的道路,行業洗牌可能會推動該行業盈利,盡管在一個資本過剩的行業中,但這種(行業盈利)情況似乎不太可能很快發生?!?

    零一萬物CEO李開復對鈦媒體App表示, 推理成本將每年降10倍,但瘋狂降價是雙輸。

    “因為今天API跟模型調用還是一個非常低的比例,如果一年推理降低10倍,眾多的人可以用上,這是一個非常利好消息?!钡硪环矫?,李開復卻認為, 按照現在國內市場‘卷’的情況,幾十萬做個POC(概念驗證),幾百萬做一單,做一單、賠一單的生意,“我們早期在AI 1.0時代看多了、投多了,(如今)我們堅決不做(賠錢生意)?!?

    百川智能創始人、CEO王小川則向鈦媒體App指出,價格免費是優勢,但不一定是競爭力。大模型價格戰會加速泡沫周期,直接導致尾部部分企業會退出賽道。

    “我們做C端的就別摻合了,”王小川直言,這種價格戰與C端無關。同時,免費之后,整個To B市場會繁榮的更快,因為大家更愿意嘗試使用這個模型,價值空間是有的,但尾部公司會退出這個賽道。

    王小川強調,“漲潮退潮最后才會有珍珠,但一定有它的一種泡沫在這里,會加速泡沫周期,也讓它變得更加繁榮,這是商業里面必然出現的一個事情?!?

    整體來看,無論是產品質疑、企業賣身,還是國內這輪 AI 大模型價格戰,都在說明行業面臨新一輪洗牌和熱潮降溫。但是,不斷變革的 AI 技術對于各行各業發展仍然非常重要。

    市場調研機構IDC最新數據顯示,2024年,全球生成式AI支出為403億美元,其中生成式AI基礎設施、模型和平臺、應用、服務支出分別占比為45.41%、11.66%、15.63%、27.30%,到2027年,全球生成式AI年支出將達到1510億美元,占全球AI支出的比例為29%。

    IDC分析認為,2024年,中國基礎大模型數量將減少,逐漸轉變為針對產業落地的行業大模型比拼,在模型框架、開發者工具、基礎大模型、部署和推理工具等維度上會呈現開源和閉源共存。同時,隨著蘋果、小米、榮耀等廠商陸續發布支持端側AI推理的芯片或模型,AI落地端側成為終端廠商趨勢,端側AI推理可以實現更高的處理效率、更好的隱私保護和全新的用戶體驗方式。預計2025年前,生成式AI的機會還停留在基礎設施,2025-2026年向生成式AI平臺和方案過度,2026年之后生成式AI服務的機會將全面爆發。

    中國科學院科技戰略咨詢研究院研究員肖尤丹表示,經歷了大浪淘沙、生存下來的 AI 大模型企業,將迎來新一輪的快速發展機遇。

    谷歌DeepMind聯合創始人Demis Hassabis預測,通用人工智能(AGI)有望在2030年實現。

    (本文首發于鈦媒體App,作者|林志佳,編輯|胡潤峰)