97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

首頁 > 一線動態

磐石·科學多模態語料庫正式開源

2026年01月08日 自動化研究所
【字體:

語音播報

日前,中國科學院自動化研究所正式發布并開源磐石·科學多模態語料庫S1-MMAlign 1.0。

S1-MMAlign 1.0是以真實科研語境為基礎進行構建,覆蓋了超1550萬高質量圖文對、250萬篇科研論文的大規模科學多模態語料庫,也是目前國內已知覆蓋學科最廣、規模最大、結構體系最完善的科學多模態數據資源之一。

語料庫覆蓋數學、物理、化學、生物、天文、地球科學、醫學、工程學、計算機科學等主要學科,系統整理科研圖像、標題、正文上下文與圖注在內的多層結構化信息。

數據集所涵蓋的科研圖像橫跨多種尺度,從原子能級變化、晶體衍射等微觀機制,到材料形貌與生命過程的中尺度結構,再到地球環境與天文觀測等宏觀現象,構成了科學研究中高度多樣化的視覺體系。同時還收錄了科研活動不同階段的典型圖文表達。所有數據均來自具有開放獲取許可(Open Access)的科研文獻數據庫及公開發布的期刊會議論文。

研究團隊基于多模態大模型體系構建了面向科研語境的自動語義增強機制,并對全部1550萬條圖注進行了系統化增強解讀。該增強策略綜合利用引用上下文、摘要背景與原始圖注內容,在嚴格保持圖像科學含義的前提下,自動補全并規范化圖像細節、關鍵結構、實驗流程、趨勢變化與隱含推理關系等信息。

為驗證語義增強策略的真實效益,研究團隊圍繞語言一致性與圖文匹配能力進行了系統評測。

在科研文本維度方面,基于SciBERT的pseudo-PPL指標觀察到顯著下降,同時高困惑度長尾樣本也明顯減少。困惑度的降低表明增強文本并非趨同化,而是使實驗條件、變量指代、科學論述鏈等關鍵信息的呈現更加完整、顯性,并減少語義缺口。

在圖文一致性方面,基于CLIP的語義對齊評測表明,增強后的圖文相似度均值提升18.21%,整體分布右移并伴隨約27.77% 的方差收縮。說明增強文本能夠提供更明確的跨模態關聯線索,使圖像中的關鍵結構、變量與實驗語義在文本側得到更穩定的對應表達,從而提升模型在對齊階段的信號質量與訓練穩健性。

人工審核結果進一步驗證了評測趨勢。在術語使用、實驗語義還原度、變量指代準確性、可讀性以及圖文一致性等五項指標中,增強文本均獲得超過90%的正向評價。

目前,磐石·科學多模態語料庫已作為核心基礎融入“磐石·科學基礎大模型”的訓練體系,在實驗結果理解、科學圖像解析、論文輔助閱讀與科研流程自動化等典型任務中提供關鍵數據支撐。

磐石·科學多模態語料庫開源地址

打印 責任編輯:吳昊

掃一掃在手機打開當前頁

© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002

地址:北京市西城區三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)