97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

首頁 > 一線動態

磐石·科學文獻解析器推出

2025-11-04 自動化研究所
【字體:

語音播報

高效準確將海量非結構化科學文獻轉化為可計算、可推理的結構化知識,已成為“人工智能+科學”亟待突破的重要問題之一。傳統光學字符識別技術在通用文本場景中表現成熟,但在面對科學文獻——尤其是包含復雜公式符號、專業圖表、多模態排版與跨學科術語的學術論文時,存在識別錯誤、結構邏輯丟失、輸出格式單一等問題,難以支持科研自動化、知識圖譜構建、智能問答等下游任務的發展。

近日,中國科學院自動化研究所正式推出新一代科學文獻解析工具——磐石·科學文獻解析器S1-Parser,從底層算法出發,通過構建面向科學語義理解的多模態訓練體系與強化學習機制,在公式、文本、圖表等多元素協同解析上實現效果提升。

團隊摒棄了僅依賴通用視覺語言大模型的思路,轉而構建一套專為科學文獻場景量身定制的算法訓練范式。該范式的核心在于全場景覆蓋的科學數據構建、多模態監督微調策略、面向科學文獻語義的強化學習優化機制三個技術支柱。

在數據層面,團隊采集并構建了覆蓋三個典型科學書寫形態的訓練語料——手寫體、數字排版體、紙質掃描體。手寫體數據涵蓋不同學者的筆跡風格、連筆習慣與輕微涂改等真實場景;數字排版體數據橫跨數學、物理、天文、工程、生物、計算機等學科,包含大量嵌套公式、特殊符號與復雜排版;紙質掃描體數據兼顧高清與低質量樣本,可模擬實際掃描或拍照中可能出現的模糊、傾斜、低分辨率等情況。數據均經過嚴格去噪、標準化標注與格式對齊,并通過均衡采樣策略確保模型在多樣場景下的泛化能力。這一“全形態、多學科、高質量”的數據基礎,為模型理解科學表達的復雜性提供了支撐。

在模型訓練階段,團隊采用兩階段優化策略。第一階段策略通過多模態有監督微調,使模型初步掌握文本、公式、表格、插圖等異構元素的聯合表征能力。在此基礎上,第二階段策略引入一種面向科學文獻語義的梯度強化學習策略優化框架。不同于傳統以字符準確率為導向的訓練目標,該強化學習策略優化框架專門設計公式語法正確性、符號完整性與結構合理性三重科學導向的獎勵信號。通過強化學習優化算法持續優化這些獎勵信號,模型不僅“看得清”,更能“理解對”,生成的公式在語義層面高度可靠,可直接用于符號計算、定理驗證等高階任務。

同時,團隊在多個科學文獻數據集上開展了系統評測。磐石·科學文獻解析器在篇章級解析、公式專項識別等任務中均展現出較高水平。

為更好滿足科研需求,磐石·科學文獻解析器的輸出包含高精度的文本與公式識別結果,并支持JSON、Markdown等結構化格式輸出,可無縫對接知識抽取、文獻重排版、智能問答等下游應用。

目前,磐石·科學文獻解析器(V1.0)已正式開源,并作為核心組件集成于“磐石·科學基礎大模型”(ScienceOne),服務全球科研社區。

打印 責任編輯:侯茜

掃一掃在手機打開當前頁

© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網安備110402500047號 網站標識碼bm48000002

地址:北京市西城區三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)