Databricks稱企業重視資料安全 盼數據存儲本地及訓練自家模型

ChatGPT掀起AI(人工智能)旋風,惟其基礎是閉源大模型、不公開程式碼,開發者需繳付月費、交出私有數據方能透過該模型進行後續開發。不過,考慮到數據私隱、商業機密等,有企業抱持保留態度。數據分析企業Databricks產品部高級副總裁David Meyer稱,企業日益重視數據私有化,並依照數據訓練自家專屬模型,以提升商業效率,而在訓練大模型時,數據的質素也越發重要。

不少科企「大撒幣」推自家大模型,更致力於將其商業化以回收成本,故大模型閉源幾成業內默契。但Databricks早前發布的通用大型語言模型DBRX主打開源,更稱該模型在大多數基準測試中的表現勝於OpenAI訓練出的GPT-3.5。該公司產品部高級副總裁David Meyer表示,DBRX使用「混合專家」(MoE)架構,可智能分配機器學習過程予不同子神經網絡,令運作效率提升。操作上,企業員工只需一鍵上傳CSV格式的數據文件,文件便會即時獲解析,隨後員工可用自然語言與模型對話,得出自己想要的運算結果,其速度比一般大語言模型更快。

「模型大小不代表一切」

另外,David Meyer指出,企業重視資料安全及成本效益,希望將數據存儲於本地及訓練自家模型,他相信DBRX能助企業依據自己資料訓練衍生模型,更避免知識產權爭端,成本則低至500美元起。

現時主流追逐參數較高甚至高至數千億級的大模型,因參數較高意味着性能較強,不過David Meyer認為,模型大小不代表一切,有時就算是較小的開源模型,若以小批高質素資料訓練微調,也能達至與大型語言模型同樣的效果。

《星島申訴王》推出全新項目「區區有申訴」,並增設「我要讚佢」欄目,現誠邀市民投稿讚揚身邊好人好事,共建更有愛社區。立即「我要讚佢」︰ https://bit.ly/3uJ3yyF

想睇更多精彩內容,請立即瀏覽「區區有申訴」活動專頁,https://bit.ly/41hgS9E

即時財經