主要職責
中國科學院貫徹落實黨中央關于科技創新的方針政策和決策部署,在履行職責過程中堅持黨中央對科技工作的集中統一領導。主要職責是:
一、開展使命導向的自然科學領域基礎研究,承擔國家重大基礎研究、應用基礎研究、前沿交叉共性技術研究和引領性顛覆性技術研究任務,打造原始創新策源地。 更多+
院況簡介
中國科學院是國家科學技術界最高學術機構、國家科學技術思想庫,自然科學基礎研究與高技術綜合研究的國家戰略科技力量。
1949年,伴隨著新中國的誕生,中國科學院成立。建院70余年來,中國科學院時刻牢記使命,與科學共進,與祖國同行,以國家富強、人民幸福為己任,人才輩出,碩果累累,為我國科技進步、經濟社會發展和國家安全作出了不可替代的重要貢獻。 更多+
院領導集體
科技獎勵
科技期刊
科技專項
科研進展/ 更多
工作動態/ 更多
工作動態/ 更多
中國科學院學部
中國科學院院部
語音播報
日前,中國科學院自動化研究所正式發布并開源磐石·科學多模態語料庫S1-MMAlign 1.0。
S1-MMAlign 1.0是以真實科研語境為基礎進行構建,覆蓋了超1550萬高質量圖文對、250萬篇科研論文的大規模科學多模態語料庫,也是目前國內已知覆蓋學科最廣、規模最大、結構體系最完善的科學多模態數據資源之一。
語料庫覆蓋數學、物理、化學、生物、天文、地球科學、醫學、工程學、計算機科學等主要學科,系統整理科研圖像、標題、正文上下文與圖注在內的多層結構化信息。
數據集所涵蓋的科研圖像橫跨多種尺度,從原子能級變化、晶體衍射等微觀機制,到材料形貌與生命過程的中尺度結構,再到地球環境與天文觀測等宏觀現象,構成了科學研究中高度多樣化的視覺體系。同時還收錄了科研活動不同階段的典型圖文表達。所有數據均來自具有開放獲取許可(Open Access)的科研文獻數據庫及公開發布的期刊會議論文。
研究團隊基于多模態大模型體系構建了面向科研語境的自動語義增強機制,并對全部1550萬條圖注進行了系統化增強解讀。該增強策略綜合利用引用上下文、摘要背景與原始圖注內容,在嚴格保持圖像科學含義的前提下,自動補全并規范化圖像細節、關鍵結構、實驗流程、趨勢變化與隱含推理關系等信息。
為驗證語義增強策略的真實效益,研究團隊圍繞語言一致性與圖文匹配能力進行了系統評測。
在科研文本維度方面,基于SciBERT的pseudo-PPL指標觀察到顯著下降,同時高困惑度長尾樣本也明顯減少。困惑度的降低表明增強文本并非趨同化,而是使實驗條件、變量指代、科學論述鏈等關鍵信息的呈現更加完整、顯性,并減少語義缺口。
在圖文一致性方面,基于CLIP的語義對齊評測表明,增強后的圖文相似度均值提升18.21%,整體分布右移并伴隨約27.77% 的方差收縮。說明增強文本能夠提供更明確的跨模態關聯線索,使圖像中的關鍵結構、變量與實驗語義在文本側得到更穩定的對應表達,從而提升模型在對齊階段的信號質量與訓練穩健性。
人工審核結果進一步驗證了評測趨勢。在術語使用、實驗語義還原度、變量指代準確性、可讀性以及圖文一致性等五項指標中,增強文本均獲得超過90%的正向評價。
目前,磐石·科學多模態語料庫已作為核心基礎融入“磐石·科學基礎大模型”的訓練體系,在實驗結果理解、科學圖像解析、論文輔助閱讀與科研流程自動化等典型任務中提供關鍵數據支撐。
掃一掃在手機打開當前頁
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1
京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)








