星環科技分布式向量資料庫Transwarp Hippo正式發布

數字化企業 發佈 2023-12-18T23:44:51.111247+00:00

隨著企業、機構中非結構化數據應用的日益增多以及AI的爆發式增長所帶來的大量生成式數據,所涉及的數據呈現了體量大、格式和存儲方式多樣、處理速度要求高、潛在價值大等特點。

隨著企業、機構中非結構化數據應用的日益增多以及AI的爆發式增長所帶來的大量生成式數據,所涉及的數據呈現了體量大、格式和存儲方式多樣、處理速度要求高、潛在價值大等特點。但傳統數據平台對這些數據的處理能力較為有限,如使用文件系統、多類不同資料庫存儲上述數據,在數據存儲管理、查詢分析效率、數據價值挖掘等方面都存在一定的瓶頸,例如傳統資料庫查詢是點查和範圍查的一種精確查詢,無法滿足大模型下如智能問答、智能推薦等場景。

因此,企業急需一款或數款管理好非結構化數據的數據管理平台。業內常用的做法,是利用人工智慧中的表示學習,將這些非結構化數據抽象、轉換為高維度的多維向量,由此可以結構化地在向量資料庫中進行管理,實現快速、高效的數據存儲和檢索過程,結合相似性檢索特性,進而更高效地支撐更廣泛的應用場景,比如智能推薦場景等。同時,隨著大語言模型應用中對長文本處理和領域知識表示使用的深入,對向量資料庫的需求也日益迫切。

近日,在向星力•未來數據技術峰會上,星環科技正式發布了分布式向量資料庫Transwarp Hippo。作為一款企業級雲原生分布式向量資料庫,星環分布式向量資料庫Hippo支持存儲、索引以及管理海量的向量式數據集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地存儲和讀取知識庫,降低訓練和推理成本,激發更多的AI應用場景。在賦予大模型擁有「長期記憶」的同時,還可以協助企業解決目前最擔憂的大模型數據隱私泄露問題。


大模型的快速應用,推動向量資料庫向高擴展、高性能、實時性方向發展

大模型正在與企業應用迅速結合,重塑企業應用中人與數據的交互方式。然而,不管是通用模型,還是微調出來的行業模型,都存在著一定的局限性:

* 實時性難題:模型訓練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的信息,無法及時地內置到模型當中。

* 長Token難題:大模型的輸入Token(文本中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報數據輸入進大模型,導致不能進行全面的分析。

* 精度校正難題:大模型雖然經過大量數據的長期訓練,但很多場景下精準度還是不夠,需要補充知識庫進行校正,讓其能夠給出更準確的結果和更實時的信息。


目前,大模型訓練所使用的數據包含了如文檔、圖片、音視頻等各種類型的非結構化數據。用戶可以通過表示學習的預處理方式將這些數據轉化為多維向量,並存儲在向量資料庫中,從而可以很好地解決上述三個問題。比如,在應用端與大模型進行交互時,將輸入的文字、圖片等問題信息進行向量化,先進行語義搜索,找到相關的信息,將其拼接成提示詞傳遞給大模型,大模型通過計算分析後反饋結果。


星環科技創始人、CEO孫元浩表示,「向量資料庫承擔了中間存儲的角色,我們認為向量資料庫就是大語言模型的海馬體,是一個記憶體。其基本功能是能夠存儲多維向量,並提供進一步的檢索。」

向量資料庫早先被用於文本搜索或者語義搜索,過去不少公司用來做個性化推薦、構建知識圖譜等。隨著大模型的興起,向量資料庫可以讓大模型更高效率地存儲和讀取知識庫,並以更低的成本進行模型微調,進一步地激發AI應用場景。此外,幾千、上萬種應用帶來海量的數據,需要一個高擴展的向量資料庫來存放更多的數據信息。而向量數據複雜度的提升,模型推理速度的加快等也要求能夠提供高性能的檢索能力。實時動態變化的數據,對向量資料庫的實時寫入、實時更新、實現召回能力的要求變高,通過將實時資訊、實時新聞、市場行情等快速變化的信息及時地內置到模型中,使其能夠提供更實時、更精準的結果。


星環科技分布式向量資料庫Transwarp Hippo

星環分布式向量資料庫Hippo作為一款企業級雲原生分布式向量資料庫,基於分布式特性,可以對文檔、圖片、音視頻等多源、海量數據轉化後的多維向量進行統一存儲和管理。通過多進程架構與GPU加速技術,充分發揮並行檢索能力,實現毫秒級高性能數據檢索,結合相似度檢索等技術,幫助用戶快速挖掘數據價值。

與開源的向量資料庫不同,星環分布式向量資料庫Hippo具備高可用、高性能、易拓展等特點,支持多種向量搜索索引,支持數據分區分片、數據持久化、增量數據攝取、向量標量欄位過濾混合查詢等功能,很好地滿足了企業針對海量向量數據的高實時性檢索等場景。


* 雲原生技術,支持彈性擴縮容

星環分布式向量資料庫Hippo採用全面容器化部署,支持服務的彈性擴縮容,同時具備多租戶和強大的資源管控能力。

* 高擴展性,海量向量數據存儲

與直接利用各類算法lib不同,星環Hippo存儲和計算都可以充分利用分布式特性,按需靈活擴展,滿足大規模集群部署需求;通過Raft算法確保數據的強一致性;並提供故障遷移,數據修復等數據保障能力。

* 深度優化,高性能數據檢索

星環分布式向量資料庫Hippo支持多進程架構與GPU加速,充分發揮並行檢索能力;支持基於檢索速度和內存使用的特定優化,以及寄存器級算法優化;同時提供多類索引支持,滿足不同需求不同體量的業務場景。

* 動態更新,實時檢索

星環分布式向量資料庫Hippo提供數據動態更新的能力,對於實時插入/更新的數據,可以快速完成數據的加載和索引的構建,解決向量數據T+1的傳統處理邏輯,滿足實時動態變化數據的向量檢索分析。

* 多樣化接口,豐富場景支持

星環分布式向量資料庫Hippo供標準的Python、Restful、CPP、Java API等接口,可輕鬆對接各類應用和模型,提高應用開發和調用的效率。同時,提供類SQL接口,滿足入庫等特定場景,大幅降低使用和操作的難度。

* 多模型聯合

基於TDH多模型統一技術架構,向量數據與關係型數據、圖數據、時序數據等多種模型數據可進行統一存儲管理,並通過統一接口實現數據跨模型聯合分析。

具備高可用、高性能、易拓展等特點的星環分布式向量資料庫Hippo,可以很好地滿足企業針對海量向量數據的高實時性等場景。

* 文本檢索

傳統搜尋引擎更偏向於詞/句的精確查詢,星環分布式向量資料庫Hippo通過向量引擎提供自然語言處理能力,可以更好地支持基於語義的查詢分析,讓查詢更滿足人性化的需求。

* 語音/視頻/圖像檢索

星環分布式向量資料庫Hippo將多維向量特徵構建成高效的向量索引,實現數據的相似性檢索,可覆蓋人臉識別、語音識別、視頻指紋等多類AI場景。

* 個性化推薦

星環分布式向量資料庫Hippo可與各類深度學習平台搭建的模型進行耦合,通過向量相似度檢索,可以對用戶行為與喜好等多方面進行分析、挖掘,做到千人千面的推薦效果。

* 智能搜索,智能問答

知識圖譜的目的在於將結構化數據、非結構化數據以及這些數據、實體之間的關聯關係進行存儲和表達。通過星環分布式向量資料庫Hippo可以將這些信息更好地進行表達和處理,給出符合需求的一系列近似答案和推薦查詢。


向量資料庫與圖資料庫聯合,低成本、高效構建特定領域大模型應用

基於星環分布式向量資料庫Hippo,可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題。通過將最新資料、專業知識、個人習慣等海量信息向量存儲在星環分布式向量資料庫Hippo中,可以極大地拓展大模型的應用邊界,讓大模型保持信息實時性,並能夠動態調整,使大模型擁有「長期記憶」。

通過建立垂直領域的知識庫,對大模型輸出結果進行校正,可以提高結果的精準度,在一定程度上解決「AI幻覺」問題。

此外,通過星環分布式向量資料庫Hippo對向量數據進行存儲,有效解除大模型對輸入的限制,並且大模型在安全機制下訪問向量資料庫中的隱私數據,可以充分保證數據安全,杜絕隱私泄露風險。

然而,大模型只有向量資料庫還不夠。在召回的基礎上通過提示工程確保數據更精確,更貼近實際場景,同樣也是重要的一環。星環科技將分布式向量資料庫Hippo和分布式圖資料庫StellarDB結合,並以此作為微調的數據憑依,可以更低成本、更高效地構建特定領域的大模型應用。

圖資料庫StellarDB和知識圖譜聯合,與大模型可視化端到端構建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基於大模型的知識問答等閉環功能。客戶以知識圖譜作為大語言模型提示即可發起模型微調,以較低代價就可獲得行業的專屬大語言模型問答應用。


將向量資料庫、圖資料庫與大語言模型結合,可以構建業務域知識圖譜和業務系統的應用服務,進一步提高人機互動的效率,提供更靈活的組合業務服務,激發出更多更深入的業務場景AI應用。

例如,在詢問某開源通用大模型關於某集團玉米收儲價格、某集團主要合作上下游企業等問題,通用大模型沒有行業知識,無法給出準確答案。而把農業知識圖譜和向量資料庫結合後,可以從知識圖譜中去獲取或者補充大模型的答案,使其可以精確地回答新收豬價以及價格影響等。

通過這樣的組合可以解決大模型目前存在的三大問題。一是能夠把實時的知識、變化的信息放到大模型中,二是能夠校正結果的準確性,極大地提升精準度,三是構建相應的知識圖譜,增強大模型的能力。


在星環科技此次推出的金融領域大模型「無涯」中,基於星環科技自身在金融領域積累的上百萬金融專業領域的語料,結合圖資料庫StellarDB、深度圖推理算法技術,形成了大規模高質量的金融類事件訓練指令集,共同鑄就了星環開發金融領域大語言模型的堅實底座。星環「無涯」大模型能夠理解金融行業的術語,也能夠執行特定的任務,比如分析上市公司的年報、公告,生成新聞摘要,判斷特定新聞事件產生的影響等,提升分析師、研究員、投資經理的效率。

關鍵字: