主要職責
中國科學院貫徹落實黨中央關于科技創新的方針政策和決策部署,在履行職責過程中堅持黨中央對科技工作的集中統一領導。主要職責是:
一、開展使命導向的自然科學領域基礎研究,承擔國家重大基礎研究、應用基礎研究、前沿交叉共性技術研究和引領性顛覆性技術研究任務,打造原始創新策源地。 更多+
院況簡介
中國科學院是國家科學技術界最高學術機構、國家科學技術思想庫,自然科學基礎研究與高技術綜合研究的國家戰略科技力量。
1949年,伴隨著新中國的誕生,中國科學院成立。建院70余年來,中國科學院時刻牢記使命,與科學共進,與祖國同行,以國家富強、人民幸福為己任,人才輩出,碩果累累,為我國科技進步、經濟社會發展和國家安全作出了不可替代的重要貢獻。 更多+
院領導集體
科技獎勵
科技期刊
科技專項
科研進展/ 更多
工作動態/ 更多
工作動態/ 更多
中國科學院學部
中國科學院院部
語音播報
高效準確將海量非結構化科學文獻轉化為可計算、可推理的結構化知識,已成為“人工智能+科學”亟待突破的重要問題之一。傳統光學字符識別技術在通用文本場景中表現成熟,但在面對科學文獻——尤其是包含復雜公式符號、專業圖表、多模態排版與跨學科術語的學術論文時,存在識別錯誤、結構邏輯丟失、輸出格式單一等問題,難以支持科研自動化、知識圖譜構建、智能問答等下游任務的發展。
近日,中國科學院自動化研究所正式推出新一代科學文獻解析工具——磐石·科學文獻解析器S1-Parser,從底層算法出發,通過構建面向科學語義理解的多模態訓練體系與強化學習機制,在公式、文本、圖表等多元素協同解析上實現效果提升。
團隊摒棄了僅依賴通用視覺語言大模型的思路,轉而構建一套專為科學文獻場景量身定制的算法訓練范式。該范式的核心在于全場景覆蓋的科學數據構建、多模態監督微調策略、面向科學文獻語義的強化學習優化機制三個技術支柱。
在數據層面,團隊采集并構建了覆蓋三個典型科學書寫形態的訓練語料——手寫體、數字排版體、紙質掃描體。手寫體數據涵蓋不同學者的筆跡風格、連筆習慣與輕微涂改等真實場景;數字排版體數據橫跨數學、物理、天文、工程、生物、計算機等學科,包含大量嵌套公式、特殊符號與復雜排版;紙質掃描體數據兼顧高清與低質量樣本,可模擬實際掃描或拍照中可能出現的模糊、傾斜、低分辨率等情況。數據均經過嚴格去噪、標準化標注與格式對齊,并通過均衡采樣策略確保模型在多樣場景下的泛化能力。這一“全形態、多學科、高質量”的數據基礎,為模型理解科學表達的復雜性提供了支撐。
在模型訓練階段,團隊采用兩階段優化策略。第一階段策略通過多模態有監督微調,使模型初步掌握文本、公式、表格、插圖等異構元素的聯合表征能力。在此基礎上,第二階段策略引入一種面向科學文獻語義的梯度強化學習策略優化框架。不同于傳統以字符準確率為導向的訓練目標,該強化學習策略優化框架專門設計公式語法正確性、符號完整性與結構合理性三重科學導向的獎勵信號。通過強化學習優化算法持續優化這些獎勵信號,模型不僅“看得清”,更能“理解對”,生成的公式在語義層面高度可靠,可直接用于符號計算、定理驗證等高階任務。
同時,團隊在多個科學文獻數據集上開展了系統評測。磐石·科學文獻解析器在篇章級解析、公式專項識別等任務中均展現出較高水平。
為更好滿足科研需求,磐石·科學文獻解析器的輸出包含高精度的文本與公式識別結果,并支持JSON、Markdown等結構化格式輸出,可無縫對接知識抽取、文獻重排版、智能問答等下游應用。
目前,磐石·科學文獻解析器(V1.0)已正式開源,并作為核心組件集成于“磐石·科學基礎大模型”(ScienceOne),服務全球科研社區。
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1
京公網安備110402500047號 網站標識碼bm48000002
地址:北京市西城區三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)








