不爽 AI 偷推特數據!馬斯克喊告微軟,發生了什麼?
不爽 AI 偷推特數據!馬斯克喊告微軟,發生了什麼?
在此之前,AI 大模型開發商都在低成本地使用互聯網公開的內容數據訓練自家的大模型,如今,各種科技巨頭們加持的大模型紛紛開始商業化,互聯網內容平台們突然反應過來,不能讓這些巨頭們嚕羊毛「白嫖」數據了。
「現在是訴訟時間。」4 月 20 日,推特被微軟踢出其數字營銷平台後,新掌門人馬斯克立馬發推回擊稱,微軟用推特的數據做「非法訓練」。這一懟,直接揭開了AI 大模型開發商與數據源的利益之爭。
此前,在線社區論壇 Reddit 與程序員社區 Stack Overflow 先後宣布,將向使用平台 API 訓練數據的公司收費;環球音樂集團直接表示,將阻止 AI 從其版權歌曲中抓取歌手的聲音。
在此之前,AI 大模型開發商都在低成本地使用互聯網公開的內容數據訓練自家的大模型,如今,各種科技巨頭們加持的大模型紛紛開始商業化,互聯網內容平台們突然反應過來,不能讓這些巨頭們嚕羊毛「白嫖」數據了。
當推特將 API 收費門檻擺在微軟面前時,AI 大模型訓練要給付的成本就不止芯片算力和研發算法的人才了,現在還要加上「為數據付費」。
馬斯克直懟微軟「非法訓練」
「他們非法使用推特的數據進行訓練。現在是訴訟時間。」4 月 20 日,「宇宙頂流」馬斯克直接在推特上明示要告微軟。他以推特 CEO 的身份親自下場,以此直懟微軟把推特踢出 Microsoft Digital Marketing Center(微軟數字營銷中心)的做法。
這個「中心」是幹嘛的呢?它其實是微軟利用大數據和 AI 技術開發的一個廣告和營銷的管理平台,聚合了包括推特、臉書、Ins 等海外所有主流的社交平台,方便企業主們在一個平台上完成廣告和營銷活動的推送,還能管理各種賬號、分析推流數據。你刷微博、微信朋友圈時突然冒出的廣告,就有類似微軟這種工具的貢獻。
微軟這個數字營銷中心能實現這些功能,很重要的一環是接入了這些社交平台的 API,這是企業主推送廣告、分析數據的基礎。
結果,馬斯克收購推特後,直接把推特 API 的企業套餐初始訂閱費用定為 4.2 萬美元/ 月,折合人民幣 28.9 萬元,以這個價格能獲得 2,500 萬條推文,一條差不多 1 塊多錢了。如果每月支付 12.5 萬美元,能獲得 1 億條推文,後續還會按照使用量加錢。
推特 API 的新收費標准直接勸退了不少小公司,連財大氣粗的微軟數字營銷中心都直言「要價太高」,於是,直接把推特踢出了管理庫。這意味著,借助微軟這個平台執行廣告和營銷計劃的廣告主們,沒法在推特上搞投放了。
原本這是企業主、分發平台、渠道商之間的廣告業內事,馬斯克跳出來了,直指微軟用推特的數據搞非法訓練。

誰都知道,爆火的 ChatGPT 背後有微軟的資本加持。而馬斯克和 GPT 大模型的開發方 OpenAI 不僅淵源頗深,還積怨許久。
2015 年,馬斯克與 Sam Altman 等 6 人共同創立 OpenAI 人工智能實驗室,致力於建設開源的、研發人工智能的非營利機構,來抗衡當時在人工智能領域大有一家獨大之勢的谷歌。為此,馬斯克捐了 1 億美元,承諾未來繼續捐 9 億。結果不到 2 年,馬斯克就退出了 OpenAI 董事會,這裡既有燒錢開發大模型短期沒燒出成果的問題,也有馬斯克和 Altman 對 OpenAI 的管理權之爭。
馬斯克退出 1 年後,即 2019 年 3 月,OpenAI 成立子公司 OpenLP,將其定位為「有限營利機構」,重組後的 OpenAI 很快拿到了來自微軟的 10 億美元投資。誰也沒想到又一個 3 年過去後, OpenAI 站上了全球科技舞台的最前沿。
ChatGPT 爆火後,當初為 OpenAI 掏過錢、站過台的馬斯克頻頻表達怨念。
2 月 17 日,馬斯克發推指稱 OpenAI 從開源、非營利變成了微軟控制的「閉源、追求利益最大化」的公司;後來還多次在公開場合強調人工智能對人類社會的潛在危害,甚至認為「風險比飛機、汽車、毒品更大」;3 月 29 日,那封科技大佬聯署簽名「暫停 AI 巨型實驗」的公開信上,他也第一時間簽名表態。
馬斯克為人工智能的健康發展操碎了心,看上去,這位將巨型載人飛船送入太空的現實版「鋼鐵俠」似乎不打算跟風人工智能了。
然而,4 月 17 日,馬斯克在媒體採訪中披露,將推出一款生成式 AI 大模型 TruthGPT。很快就有媒體爆料,馬斯克買了 1 萬個英偉達 A100 芯片。這是 AI 大模型訓練的重要硬件。
不會說謊的 AI !馬斯克將推「TruthGPT」,強在哪?
撕微軟非法訓練數據,懟 OpenAI 變成逐利公司,無論馬斯克如何批評這兩家公司,這下也難掩他對人工智能的興趣了。左手攔下推特數據低成本外流,右手高價囤芯片,在 AI 大模型賽道上,馬斯克開始跑馬圈地。
多平台 API 擬收費,AI 訓練成本被推高
不過,最近要向 AI 大模型開發商們收取 API 費用的平台不止推特。
4 月 18 日,海外最大的社區論壇 Reddit 宣布,將向使用其 API 做數據訓練的公司收取數據使用費。
Reddit 暫未公佈具體收費標準,業內推測,Reddit 很可能會按數據數量分等級收費,這也是業內的常規做法。此外,程序員問答網站 Stack Overflow 也計劃向 AI 巨頭收取訓練數據費用。

要知道,研發 AI 大模型,算法、算力和算據這「三算」缺一不可。以 OpenAI 訓練 GPT-3.5 為例,這個模型容納了多達 45TB 的文本語料,這些語料既包括書籍期刊等出版物的內容,也包括社交平台、問答網站、論壇小組等在線數據中的用戶生成內容。而從 OpenAI 的公開信息看,該公司並沒有提及獲取線上數據是否支付過費用。用「爬蟲」爬、和第三方合作、以及購買都有可能是 OpenAI 獲得數據的方式。
此前,各個生成式大模型似乎都在沒啥限制地使用互聯網上的公開內容,影響大模型性能的要素就集中在算法和算力差異上。從推特、Reddit 等平台明確為 API 收費後,大模型開發商自在地使用數據的好日子到頭了。
2019 年之前,OpenAI 是非營利機構,如今,ChatGPT 都有 Plus 收費版了,更別提該公司還開通了 API 的付費渠道。當前,OpenAI 的估值接近 300 億美元,研究機構 PitchBook 預測,該公司今年的收入將達到 2 億美元,明年會翻五番。
社交平台們明確 API 收費,劍指大模型開發商,雙方也正式變成了「商業對商業」的關係,收費與付費實屬正常。這也意味著,AI 大模型成為科技巨頭們狂捲的賽道後,像 Reddit 這樣的海量內容平台將增加商業來源,數據將成為重要要素。
以成立於 2008 年的 Reddit 為例,它是全球互聯網中最有活力的社區之一,目前日活達到 3.3 億,大量的用戶創建了超過 14 萬個活躍社區,帖子總量超 3.6 億。尤其在很多小眾領域,Reddit 論壇貢獻了很多有價值的討論內容。換句話說,Reddit 提供了英語互聯網中最重要的語料庫。
OpenAI 的 CEO Sam Altman 也表示,公司在積極與內容公司進行合作,並願意「為高質量數據支付高價」。
儘管 Altman 宣稱「目前沒在訓練 GPT-5」,但 OpenAI 應該不會停下數據訓練的腳步,因為 GPT-4 仍有很多需要打磨的地方,比如通識知識的準確性、對人類語言的理解進化等等,這些仍然需要語料數據的持續投入。
放眼全球,研究 AI 大模型的公司還不止 OpenAI 一家,海外有谷歌,國內有百度、華為、阿里。可以預見,切入大模型賽道的公司,都將面對數據所有者的收費關卡,訓練成本將水漲船高。
另一個值得深思的問題是,Twitter 也好,Reddit 也罷,他們手握數據向大模型開發公司收取價格不菲的費用,那麼,為這些平台貢獻了海量內容和數據的用戶又得到了什麼?
【免責聲明】市場有風險,投資需謹慎。本文不構成投資建議,用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
最新評論
還沒有評論,發表第一個評論吧