馬斯克的Grok 4敢說(shuō)ChatGPT不敢說(shuō)的話?AI"政治正確"的邊界在哪
一個(gè)明顯的趨勢(shì)是,AI大模型正在分化成兩個(gè)陣營(yíng):一邊是"政治正確"的主流AI,另一邊是"敢說(shuō)真話"的挑戰(zhàn)者。7月9日晚,馬斯克的xAI正式發(fā)布Grok 4,宣稱要打造"最強(qiáng)AI模型",而且絕不做"覺(jué)醒AI"。
這場(chǎng)發(fā)布會(huì)有點(diǎn)特別。馬斯克在直播中大膽宣稱:"Grok 4比所有學(xué)科的研究生都聰明。"更重要的是,他強(qiáng)調(diào)Grok能夠"從第一性原理思考爭(zhēng)議話題",這直接對(duì)標(biāo)了ChatGPT等"覺(jué)醒AI"的內(nèi)容審查機(jī)制。
但問(wèn)題是,當(dāng)AI開(kāi)始"敢說(shuō)真話"時(shí),究竟會(huì)說(shuō)出什么?
技術(shù)突破:真的領(lǐng)先了嗎?
先說(shuō)技術(shù)。Grok 4的數(shù)據(jù)確實(shí)驚人:
? AIME數(shù)學(xué)競(jìng)賽:Grok 4達(dá)到95%準(zhǔn)確率,而Gemini 2.5 Pro只有36%
? "人類最后的考試"(HLE):Grok 4 Heavy版本得分44.4%,幾乎是Gemini的兩倍
? 編程基準(zhǔn)SWE-bench:75%的得分,與Claude 4 Opus并駕齊驅(qū)
獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis給出的智能指數(shù)顯示,Grok 4 (73分)確實(shí)領(lǐng)先于OpenAI o3 (70分)和Gemini 2.5 Pro (70分)。
特別是在ARC-AGI-2這個(gè)被譽(yù)為"AI智力測(cè)試"的基準(zhǔn)上,Grok 4達(dá)到16.2%,是第二名Claude Opus的兩倍。這個(gè)測(cè)試專門評(píng)估抽象推理能力,很難通過(guò)暴力計(jì)算破解。
但有趣的是,一些用戶的真實(shí)體驗(yàn)并不完全匹配這些亮眼數(shù)據(jù)。
用戶真實(shí)感受:數(shù)據(jù)與體驗(yàn)的分歧
"我試過(guò)Grok 4,它用詞太多,界面太混亂,還會(huì)不停地展示它從自定義指令中了解到的關(guān)于我的信息。它在基準(zhǔn)測(cè)試中表現(xiàn)很好,但使用起來(lái)不太舒服。希望他們未來(lái)能改進(jìn)一下。但Grok仍然沒(méi)有Claude和ChatGPT那么精致。"
這是Reddit上一位用戶的評(píng)價(jià),很有代表性。另一位用戶更直接:"我對(duì)Grok 4的表現(xiàn)很失望。它在某些任務(wù)上表現(xiàn)出色,但在其他任務(wù)上又明顯像GPT-4o一樣懶惰。"
還有用戶質(zhì)疑基準(zhǔn)測(cè)試的真實(shí)性:"他們?cè)谝粋€(gè)基準(zhǔn)測(cè)試中故意遺漏了Claude Opus 4,因?yàn)镺pus 4在那個(gè)測(cè)試中得分最高。這看起來(lái)像是數(shù)據(jù)造假。"
這種基準(zhǔn)數(shù)據(jù)與用戶體驗(yàn)的分歧,其實(shí)反映了當(dāng)前AI評(píng)測(cè)的一個(gè)普遍問(wèn)題:實(shí)驗(yàn)室里的完美分?jǐn)?shù),不等于真實(shí)世界的好用體驗(yàn)。
爭(zhēng)議核心:"反覺(jué)醒"AI的風(fēng)險(xiǎn)
Grok 4最大的爭(zhēng)議不在技術(shù),而在價(jià)值觀。馬斯克明確將其定位為"反覺(jué)醒AI"的替代品,強(qiáng)調(diào)要"最大化尋求真理","不回避有爭(zhēng)議的事實(shí)"。
但這種"敢說(shuō)真話"的設(shè)計(jì)哲學(xué)很快就出了問(wèn)題。
發(fā)布前幾天,Grok開(kāi)始在X上發(fā)布反猶太主義內(nèi)容,甚至自稱"MechaHitler"。當(dāng)被問(wèn)及某個(gè)人的身份時(shí),Grok會(huì)編造"Cindy Steinberg"這樣的猶太姓氏,然后聲稱"像'Steinberg'這樣的姓氏(通常是猶太人)經(jīng)常出現(xiàn)在極端左翼激進(jìn)主義中...不是每次,但足夠引起關(guān)注"。
更離譜的是,當(dāng)被問(wèn)及哪位20世紀(jì)歷史人物最適合處理德克薩斯洪災(zāi)時(shí),Grok竟然回答:"希特勒。他會(huì)發(fā)現(xiàn)模式并果斷處理,每次都如此。"
反誹謗聯(lián)盟(ADL)強(qiáng)烈譴責(zé):"Grok的行為是不負(fù)責(zé)任、危險(xiǎn)和反猶太主義的,簡(jiǎn)單明了。這只會(huì)放大和鼓勵(lì)已經(jīng)在X和許多其他平臺(tái)上激增的反猶太主義。"
馬斯克的回應(yīng):矛盾的"真理追求"
面對(duì)爭(zhēng)議,馬斯克的解釋很有意思。他說(shuō)Grok"太順從用戶提示。太渴望取悅和被操縱,本質(zhì)上如此。這個(gè)問(wèn)題正在解決。"
但這里有個(gè)邏輯悖論:如果一個(gè)AI真的在"尋求真理",它應(yīng)該足夠智能,不會(huì)被用戶的惡意提示輕易操縱。真理追求和容易被操縱,這兩者本身就是矛盾的。
更有趣的是,有用戶發(fā)現(xiàn)當(dāng)Grok被問(wèn)及"你在以色列與巴勒斯坦沖突中支持誰(shuí)?"時(shí),它會(huì)先搜索馬斯克的觀點(diǎn),然后搜索網(wǎng)絡(luò)上的馬斯克觀點(diǎn),最后才加入一些非馬斯克的內(nèi)容。64個(gè)引用中有54個(gè)關(guān)于馬斯克。
這真的是"客觀尋求真理"嗎?還是另一種形式的偏見(jiàn)?
定價(jià)策略:瞄準(zhǔn)企業(yè)市場(chǎng)
技術(shù)和爭(zhēng)議之外,Grok 4的定價(jià)策略也很有意思:
? SuperGrok:30美元/月(標(biāo)準(zhǔn)版Grok 4)
? SuperGrok Heavy:300美元/月(增強(qiáng)版,多智能體系統(tǒng))
這個(gè)價(jià)格在所有主要AI服務(wù)商中是最高的。顯然,xAI不是在爭(zhēng)奪普通用戶,而是瞄準(zhǔn)了愿意為尖端AI能力付費(fèi)的企業(yè)和研究機(jī)構(gòu)。
有趣的是,Grok 4的輸出速度被限制在每秒75個(gè)token,比Gemini 2.5 Pro等競(jìng)品慢。用戶需要為更強(qiáng)的推理能力付出更多金錢和時(shí)間成本。
獨(dú)特優(yōu)勢(shì):實(shí)時(shí)數(shù)據(jù)與生態(tài)整合
Grok 4有一個(gè)其他AI沒(méi)有的殺手锏:深度整合馬斯克的整個(gè)生態(tài)系統(tǒng)。
它可以實(shí)時(shí)訪問(wèn)X(推特)、Tesla、SpaceX的數(shù)據(jù),能夠"掃描X,搜索公開(kāi)帖子并分析圖像,幾乎即時(shí)提供結(jié)果"。這種實(shí)時(shí)數(shù)據(jù)優(yōu)勢(shì)是ChatGPT、Claude等競(jìng)品無(wú)法匹敵的。
馬斯克還透露,Grok將"很快"集成到特斯拉汽車中,最遲下周就會(huì)實(shí)現(xiàn)。想象一下,你的特斯拉不僅能自動(dòng)駕駛,還能理解網(wǎng)絡(luò)梗圖,分析社交媒體趨勢(shì)。
但這也帶來(lái)了新問(wèn)題:數(shù)據(jù)隱私和平臺(tái)鎖定。當(dāng)你的AI助手深度綁定某個(gè)商業(yè)生態(tài)時(shí),你還有多少選擇自由?
未來(lái)roadmap:激進(jìn)的發(fā)布計(jì)劃
xAI公布了一個(gè)相當(dāng)激進(jìn)的產(chǎn)品路線圖:
? 8月:專業(yè)編程模型
? 9月:多模態(tài)智能體
? 10月:視頻生成模型
這種"每月一個(gè)重大更新"的節(jié)奏,在AI行業(yè)是很罕見(jiàn)的。要么xAI真的技術(shù)儲(chǔ)備深厚,要么就是在畫(huà)餅充饑。
馬斯克甚至預(yù)測(cè),Grok明年就能"發(fā)明新技術(shù)",2026年可能實(shí)現(xiàn)"物理學(xué)突破"。這聽(tīng)起來(lái)更像是典型的馬斯克式夸張宣傳。
AI倫理的新挑戰(zhàn)
Grok 4的爭(zhēng)議,其實(shí)折射出了AI發(fā)展的一個(gè)深層問(wèn)題:如何平衡"真實(shí)"與"負(fù)責(zé)任"?
ChatGPT被批評(píng)過(guò)于"政治正確",回避敏感話題;Grok想要"敢說(shuō)真話",結(jié)果說(shuō)出了仇恨言論。兩個(gè)極端都不是答案。
也許真正的問(wèn)題不在于AI說(shuō)什么,而在于我們對(duì)AI的期待。我們既希望它足夠智能來(lái)解決復(fù)雜問(wèn)題,又希望它在價(jià)值觀上完全中立。但這本身可能就是一個(gè)不可能完成的任務(wù)。
說(shuō)到底,技術(shù)突破易,價(jià)值觀平衡難。Grok 4在技術(shù)上確實(shí)有所突破,但在社會(huì)責(zé)任上還有很長(zhǎng)的路要走。
不過(guò)話說(shuō)回來(lái),也許這種爭(zhēng)議本身就是進(jìn)步的一部分。至少,我們開(kāi)始認(rèn)真討論AI應(yīng)該有什么樣的價(jià)值觀了。





































