大模型一本正經說胡話,該怎么治療?
2023/7/7 19:55:57
模型們還在進行狂熱的“諸神之戰”,嘗過鮮的用戶卻無法忽視大模型的短板。在交互過程中,用戶常常被它們一本正經的胡言亂語所打敗——對于部分問題,它們會輸出一些“看似非常有道理,實則完全不對”的內容,讓人啼笑皆非。
云創大數據成立于2011年,并不是2015年
之所以出現這種“AI幻覺”,是因為大模型的內容由推理而來,而在其自身訓練過程中也不可避免存在數據偏差。因此,當提問超出其訓練范圍,大模型可能會模糊回答,或者一本正經地胡謅。
娛樂一下沒有關系,但是對于數據準確性有著較高要求的用戶,這樣的通用性大模型可能會是負擔,進而導致大模型應用的普及度沒有想象的高(根據摩根士丹利發布的一項調查顯示,只有4%的人表示對于ChatGPT使用有依賴)。
ChatGPT&Bard應用趨勢(圖片來源:摩根士丹利報告)
有沒有辦法改善大模型回答不準確的情況?當然有。既然回答不準確是因為缺少真正有用的知識參考,可以面向特定領域定制行業大模型,將可信來源的數據轉化成向量數據存儲起來,校準大模型推理輸出的結果,從而使大模型輸出的結果更加準確。
各種對象轉換為向量存儲在向量數據庫中(圖片來源:swirlai.com)
向量比對過程(圖片來源:Pinecone)
對于企業而言,可基于大模型和企業的個性化數據建立專屬知識庫(Knowledge Base)。可參照以下大模型業務流程,建立企業知識庫,以可信可靠的數據和知識,提高大模型輸出的準確率。
LLM大模型知識庫業務流程(圖片來源:swirlai.com)
首先,將企業的知識庫文本語料分割為多個塊,用嵌入(Embedding)模型將分割的文本塊轉換為一個個向量存儲在向量數據庫中,并建立向量和文本之間的對應關系,如上圖①-③所示。
此后,就可以提出問題。需要注意的是,問題也需要進行向量化,同時使用與知識庫語料向量化相同的嵌入模型,并且在向量數據庫中進行查詢,找到相似度高的向量,如⑤-⑦所示。
將返回的向量嵌入映射到對應的文本塊,并返回給大模型,利用大模型的語義理解能力,結合上下文生成問題答案,如⑧-⑨所示。
在建立企業知識庫后,同樣的問題再問大模型,它能給出準確的回答(建立知識庫的過程類似于下圖提供參考信息的過程)。
建立知識庫的過程類似于上圖提供參考信息的過程
實現私有化部署后,大模型“胡言亂語”的習慣開始逐漸被糾正,而且向量數據庫做的越大,它掌握的知識越多、越準確、越全面,就越有可能帶來爆炸式的大模型應用。
不過,如果只是依靠向量數據庫進行私有化部署,容量有限且速度比較慢,無法完全滿足企業通過大模型提質增效的潛在需求。
現在,cVector向量計算一體機通過發揮高性能硬件、向量加速算法和并行計算算法的合力,致力于滿足億級乃至百億千億向量規模的大模型推理應用向量計算需求。
cVector向量計算一體機
cVector向量計算一體機的使用方式與向量數據庫基本一致,支持批量、追加入庫,支持向量間歐式距離、余弦距離等向量計算,支持網頁、命令調用、Python庫等方法,但在向量的入庫和比對計算上具有驚人的性能。
cVector向量計算一體機架構圖
近期, cVector向量計算一體機接受了工信部直屬的國家一級科研事業單位中國軟件評測中心的鑒定測試。中國軟件評測中心對比測試了cVector向量計算一體機與3款主流向量數據庫在入庫速度、查詢速度、準確性等維度的性能對比。
在入庫性能方面,同樣入庫3000萬條256 維向量數據,在向量數據庫中最快的是A,入庫速度是4851.97s,cVector向量計算一體機是1202.91s,入
下一頁
返回列表
返回首頁
©2025 云計算世界-云計算資料和交流中心 電腦版
Powered by iwms
主站蜘蛛池模板:
长岛县|
分宜县|
武宣县|
建湖县|
远安县|
新巴尔虎左旗|
双牌县|
杭锦后旗|
松桃|
衡水市|
鹤峰县|
青冈县|
祁东县|
乌拉特后旗|
郑州市|
辰溪县|
东兰县|
华池县|
延庆县|
体育|
靖宇县|
苏尼特右旗|
玉林市|
阿鲁科尔沁旗|
河池市|
乐昌市|
郴州市|
尉氏县|
辽阳市|
清徐县|
岗巴县|
河北省|
普宁市|
苏州市|
林口县|
禹州市|
朝阳区|
淄博市|
武宣县|
贡觉县|
鹤岗市|