解密 OpenAI 為什么收購 RockSet
OpenAI對(duì)收購沒有透露很細(xì)節(jié)的東西,只是強(qiáng)調(diào)了會(huì)將 RockSet 融合到檢索基礎(chǔ)設(shè)施中,將數(shù)據(jù)轉(zhuǎn)化成可以操作的智能(actionable intelligenc)。 具體 OpenAI 公開稿可以見公開申明(https://openai.com/index/openai-acquires-rockset/)
今天聊聊,給不了解的同學(xué)掃盲一下,另外說一下我的看法。
RockSet 是一家什么公司
RockSet 原來主要是一家主打云上實(shí)時(shí)數(shù)倉的公司,2018年由一群 meta 印度工程師創(chuàng)立。
主要的核心是在云上基于 rocksdb構(gòu)建了一個(gè)全索引的,云原生的,實(shí)時(shí)數(shù)據(jù)同步的數(shù)倉。
圖片
這個(gè)核心優(yōu)勢(shì)就是任意維度查詢比較快,代價(jià)是資源各方面占比是比較高的。類似產(chǎn)品國內(nèi)的阿里云 數(shù)據(jù)庫團(tuán)隊(duì)的 ADB 也是類似技術(shù),后面的大數(shù)據(jù)團(tuán)隊(duì)又做了一個(gè) PG 版本的 hologres。
阿里最早做這個(gè)是給 Maxcomputer 做加速用的,典型場(chǎng)景有電商里面篩選過濾會(huì)用到,但總體而言,純實(shí)時(shí)的場(chǎng)景還是比較少,所以市場(chǎng)空間不是特別大。
大模型時(shí)代帶來, RockSet 又加上了向量檢索的能力,所以現(xiàn)在主推的是混合檢索(文本,向量混合檢索),這個(gè)就和 ES,百度的 VDB 類似了。
應(yīng)該說 Rockset 的技術(shù)還是很有特點(diǎn)的,但并不是獨(dú)一無二的。
OpenAI 為什么要收購
OpenAI 對(duì)收購的原因講得比較少,,只是強(qiáng)調(diào)了會(huì)將 RockSet 融合到檢索基礎(chǔ)設(shè)施中。個(gè)人猜測(cè)有兩個(gè)方面的原因:
首先應(yīng)用于最新的大模型,Maybe GPT 5.0?
傳統(tǒng)大模型訓(xùn)練完了之后數(shù)據(jù)是不會(huì)更新的,但這個(gè)并不符合客戶的訴求,不管是什么業(yè)務(wù)都是要結(jié)合最新的數(shù)據(jù)才有價(jià)值的。
所以我猜測(cè)最新的大模型本身會(huì)將 RAG 架構(gòu)融入到大模型本身去。會(huì)有專門的模塊去實(shí)時(shí)采集和更新互聯(lián)網(wǎng)數(shù)據(jù),這樣用戶體驗(yàn)到的一直是最新的數(shù)據(jù),大模型的智能水平會(huì)上一個(gè)臺(tái)階。
其次給 2B 客戶提供更完善的方案
OpenAI在 23 年年末的開發(fā)者大會(huì)上,展示了Assistants API,這個(gè) API 主要的能力就是可以調(diào)用外部的能力,包括調(diào)用強(qiáng)大的解釋器(Code Interpreter),還可以調(diào)用外部函數(shù)(Functions Calling), 而且還可以外掛自己的知識(shí)庫(Retrieval)。
但是這個(gè) API 的限制是比較大的,包括調(diào)用能力比較弱,價(jià)格比較高,缺乏一系列安全等高級(jí)能力?;旧嫌脩艨梢院芸斓幕?Assistant API 構(gòu)建一個(gè) demo,但是真的用于生產(chǎn)是比較難的。所以業(yè)界有一系列的向量數(shù)據(jù)庫的方案。
未來 OpenAI 要真的服務(wù)復(fù)雜場(chǎng)景,給 2B 企業(yè)提供更完善的方案,一個(gè)強(qiáng)大的可以混合召回引擎是需要的。所以猜測(cè)有可能會(huì)把Rockset 做成服務(wù),然后結(jié)合大模型開放給 2B 的客戶。
好了,基于公開信息,能分析為啥 OpenAI 要收購 Rockset 大概就是這些。