谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺

2024/9/13 7:11:53 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 9 月 13 日消息，科技媒體 maginative 昨日（9 月 12 日）發(fā)布博文，報道谷歌公司基于谷歌數(shù)據(jù)共享（Data Commons）中的真實世界統(tǒng)計數(shù)據(jù)，推出了開放權重 Gemma 模型的新版本 DataGemma。

語言模型當前面臨的一大難題就是幻覺（Hallucinations），尤其是大語言模型（LLMs）在處理數(shù)值或統(tǒng)計數(shù)據(jù)時，這一問題變得尤為棘手，因此精確性至關重要。

谷歌的 Data Commons 是一個存儲庫，匯集了來自聯(lián)合國和疾病控制與預防中心等可信組織收集的超過 2400 億個數(shù)據(jù)點。

通過利用這一龐大的統(tǒng)計數(shù)據(jù)集，基于 Gemini 的 DataGemma 能夠顯著提升模型準確性，確保其輸出基于真實可信的現(xiàn)實世界信息。

谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺

DataGemma 方法的核心在于兩種關鍵技術：檢索交錯生成（RIG）和檢索增強生成（RAG）。這兩種方法通過在生成過程中將模型基于現(xiàn)實世界數(shù)據(jù)，從而減少幻覺現(xiàn)象。

IT之家簡要介紹兩項技術如下：

RIG：

通過主動查詢可信來源，再生成回答的方式運作。在接收到提示詞之后，DataGemma 會識別查詢中的統(tǒng)計數(shù)據(jù)點，并從數(shù)據(jù)共享平臺獲取準確信息。

谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺

例如，若被問及“全球可再生能源的使用量是否有所增加？”，該模型會在回答中穿插實時統(tǒng)計數(shù)據(jù)，確保事實準確性。

RAG：

在生成回答之前，會從數(shù)據(jù)共享平臺檢索相關信息，進一步提升了回答的質量。借助其長上下文窗口（由 Gemini 1.5 Pro 實現(xiàn)），DataGemma 確保了回答的全面性，引入了表格和腳注以提供更深層次的上下文，從而減少了虛構內容的出現(xiàn)。

谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺

谷歌對 RIG 和 RAG 的研究尚處于初期階段，但初步成果令人鼓舞。通過將現(xiàn)實世界數(shù)據(jù)嵌入回復中，DataGemma 模型在處理數(shù)值事實和統(tǒng)計查詢方面展現(xiàn)出顯著提升。研究團隊已發(fā)表論文詳述其方法，強調這些技術如何幫助 LLMs 判斷何時依賴外部數(shù)據(jù)與內部參數(shù)。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：谷歌，AI

谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺

相關文章

谷歌推出 DataGemma：基于可信數(shù)據(jù)源提高 AI 準確度，減少幻覺