华中大刘禹良:Monkey模型文档解析性能超越国际大参数模型
1月27日,在WPS 365上海AI协同办公峰会上,华中科技大学教授、博士生导师刘禹良介绍,Monkey OCR模型的文档解析性能超越国际大参数模型。据悉,华中科技大学与金山办公联合推出的MonkeyOCR模型,在3B参数规模下斩获中英文文档解析任务的最佳性能;其最新迭代的MonkeyOCR v1.5,更是在国际权威文档解析榜上拿下综合性能全球第一的成绩,超越GPT-4o、Gemini-2.5 Pro等大参数闭源模型。
刘禹良同时强调了非结构化数据治理对于企业级AI应用的必要性。“数据质量治理必须置于企业AI战略的核心。”刘禹良认为,如果有朝一日真正实现通用人工智能,它首先必须要解决的问题是像人一样理解真实世界中的文本。
![[MD:Title]](/d/file/p/2026/01-30/f5df588c931839b31cd97e0e941f2ed4.jpg)
图为华中科技大学教授、博士生导师刘禹良介绍Monkey大模型
刘禹良关注的文档解析与理解领域,是国家政策导向、全球大模型企业布局的核心赛道,也是人工智能技术的攻坚难点。真实场景中,企业文档常存在结构复杂、黑话、多语言混杂等问题,制约着AI的应用效果。金山办公38年深耕文档领域,在文档格式理解、复杂信息抽取等方面技术积累丰富,成为双方合作的基础。
“在非结构文档数据治理上,Scaling Law(规模化法则 )并不是一定成效的。我们通过实验发现,在一些简单任务上,如果只是把这个参数量不断地往前升,它的性能不但不会带来任何提升,甚至可能导致这个模型推理效率的大幅度下降。”刘禹良介绍。
国际通用多模态大模型依赖海量参数提升泛化能力,非专为文档智能任务设计,缺乏对文字感知的细粒度优化。根据多模态大模型全新评测基准与数据集OCRBench v2的测试结果,揭示现有多模态大模型在复杂化、多样化OCR任务上的准确率不足60%。
Monkey系列聚焦非结构化文档治理,通过自适应图像金字塔切分、循环漂移切分、多任务统一框架等手段,强化复杂文档的解析和理解能力,并在多个国际评测中超过主流模型。此外,华中科技大学团队凭借文档智能赋能甲骨文考释工作,斩获国际计算语言学年会(ACL 2024)最佳论文奖,这是国内高校首次摘得此殊荣。2025年该奖项颁给DeepSeek团队。
在研发过程中,由华中大和金山办公组建的项目团队采取结构优先的思路。刘禹良介绍,Monkey OCR模型开创了文档解析新范式,其核心思想是将文档解析从传统的多模块拼接转向更统一的框架,将非结构化文档解析抽象成三个核心业务:结构、识别、关系。结构就是识别任何文档的段落、图片、标题,关系就是解析需要像人一样有阅读顺序,最后在结构约束下完成内容识别,建立元素之间的对应关系。
在MonkeyOCR v1.5的研发上,金山办公作为主导单位,引入视觉一致性强化学习优化对复杂表格的理解。该模型支持表格内嵌图片还原、跨页表格合并等功能,是首个能够在这个复杂表格场景实现精度超越90%的模型。未来,双方将继续深化合作,计划推出史上最大的多语言文档解析数据集、OCR视觉基座模型,让模型甚至能够在CPU上运行,执行任务又快又准。
人工智能迈入千行百业,非结构化文档的数据治理是决定人类知识能否被持续转化为机器智能的关键。对于企业而言,内部散落的非结构化数据的收集和治理则是保障AI进入企业取得成效的关键。唯有将企业知识充分盘活,才能真正转化为驱动业务的生产力。
除了双方联合开发文档模型强化对复杂文档的解析能力,金山办公此次推出一站式AI协同办公平台WPS 365,还为企业提供从数据归集、智能解析、知识治理到场景应用的全链路解决方案,为企业构建全域知识基座。
针对文档解析和治理难的痛点,金山办公创新性提出知识增强生成(Knowledge-Augmented Generation)架构。与传统的检索增强生成(Retrieval-Augmented Generation)仅让大模型“看到”文档不同,KAG架构融合多模态、多结构的知识资产,让大模型“掌握”企业知识的内在逻辑与关联,真正强化企业知识的应用能力。
《华中大刘禹良:Monkey模型文档解析性能超越国际大参数模型》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
CCOO自在杭州旗舰店盛大开业!携手第六空间加速布局全国智能睡眠
1月17日,杭州市西湖区第六空间CCOO自在智慧卧室旗舰店盛大启幕。在2026开年之际,第六空间家居集团领导、CCOO自在品牌领导以及各地经销商代表齐聚西子湖畔,共同见证了CCOO自在智慧卧室布局杭... -
华中大刘禹良:Monkey模型文档解析性能超越国际大参数模型
1月27日,在WPS 365上海AI协同办公峰会上,华中科技大学教授、博士生导师刘禹良介绍,Monkey OCR模型的文档解析性能超越国际大参数模型。据悉,华中科技大学与金山办公联合推出的MonkeyOCR模型,... -
小天才的流行靠社交 央视报道揭开小天才成功的背后密码
如果提起当代城市家庭的「育儿标配」,小天才电话手表无疑是现象级的存在。无论是在校园操场还是社区公园,小天才电话手表几乎随处可见。长期以来,互联网舆论场往往将小天下的成功归功于其... -
2025低价投影销量下滑 万元机翻倍!当贝S7系列改写高端投影市场格局
2025年的中国智能投影市场,正经历一场“冰与火”的交织。据洛图科技最新数据显示,全年市场销量同比下降13.9%,销额下滑16.5%,继2023年后再度陷入“量额双降”的低迷。然... -
拍国民好车 抢进口好礼!京东汽车联合京东全球购推出“百万年礼”拍卖
1月30日,京东汽车、京东全球购、京东拍卖将共同打造一场“百万年礼”荷兰式拍卖活动。活动中,京东汽车联合京东全球购,不仅汇集了宝马摩托车、“国民好车”,更有德国马牌...

















