近日,IBM 在人工智能领域又迈出了重要的一步,正式发布了小型视觉语言模型 Granite-Docling-258M,为文档处理带来了全新的解决方案。
创新性的轻量级模型发布
Granite-Docling-258M 定位于端到端的文件转换场景,采用了 Apache 2.0 开源协议,目前已在 Hugging Face 平台上线。该模型参数量为 2.58 亿,虽然在模型规模上相对小巧,但其在文档处理方面展现出了强大的实力。
与传统的光学字符识别(OCR)技术不同,Granite-Docling-258M 专注于完整保留文档的原始版面结构,能够有效处理表格、数学公式、列表和代码块等复杂元素,在识别精度上更具优势。
核心技术 DocTags 的独特优势
Granite-Docling-258M 的核心在于DocTags。这是由 IBM Research 设计的一套通用文件结构标记语言,它可以精准地描述页面中各元素的类型、位置坐标、阅读顺序以及元素之间的逻辑关系。
通过 DocTags,模型能够将内容与版面结构分离,采用 “先定位后识别” 的处理流程。在进行 OCR 识别之前,先确定各个元素的范围,然后再进行识别,大大提升了整体的解析效率。完成识别后,结果可直接输出为 Markdown、JSON 或 HTML 等标准格式,方便用户进行后续的编辑和处理,也可以接入 Docling 工具库进行更深入的操作。
出色的性能表现
在实际应用中,Granite-Docling-258M 展现出了出色的性能。无论是处理复杂的财务报表、学术论文,还是技术文档,它都能够准确地提取和转换其中的信息,保留原文档的排版和结构,为用户节省了大量的时间和精力。
与传统 OCR 软件相比,Granite-Docling-258M 在识别准确度上有了显著的提升,这对于对文档准确性要求极高的教育、法律、金融等行业来说,无疑是一个重大的利好。它能够更准确地识别文档中的文字、表格和公式等内容,减少人工校对的工作量,提高工作效率和质量。
此外,Granite-Docling-258M 还支持中文、阿拉伯语和日语等多种语言。这使得它在全球范围内具有更广泛的应用场景,能够满足不同地区和语言用户的需求。
模型的优化与升级
Granite-Docling-258M 是在 SmolDocling-256M-preview 模型的基础上进行优化和升级而来的。IBM 对原始的技术架构进行了优化,采用了 Granite165m 语言模型,并将视觉编码器升级为 SigLIP2,同时保留了 idefics3-style 连接器。这些更新使得 Granite-Docling-258M 的参数数量增加到 2.58 亿,在版面分析、全页 OCR、代码、公式和表格处理等方面的性能都有了显著的提升。
同时,IBM 还通过广泛的数据集过滤和清理,解决了 SmolDocling-256M-preview 模型中存在的一些不稳定问题,如偶尔会在页面的某个位置陷入重复标记的循环等。
应用场景广泛
Granite-Docling-258M 的应用场景非常广泛。在企业办公领域,它可以帮助员工快速准确地处理各种文档,提高办公效率;在教育领域,教师和学生可以利用它来处理教学资料、论文等文档;在金融领域,银行、证券等机构可以用它来处理客户资料、财务报表等重要文件;在法律领域,律师和法官可以借助它来处理法律文书、合同等文档。
未来发展规划
IBM 表示,未来将继续对 Granite-Docling-258M 进行优化和完善。一方面,将逐步扩展语言支持范围,让模型能够支持更多的语言,进一步提升其在全球市场的竞争力。另一方面,将增强 DocTags 与旗下 watsonx.ai 模型的兼容能力,进一步将其词汇体系整合进 Granite 系列模型的分词器及训练流程中,以推动文档智能处理能力的整体提升,为用户提供更智能、更便捷的文档处理体验。
开源的意义
Granite-Docling-258M 的开源具有重要的意义。它为全球的开发者提供了一个优秀的文档处理模型,开发者可以基于该模型进行二次开发,将其应用于更多的领域和场景中。同时,开源也促进了人工智能技术的交流和合作,推动了整个行业的发展。
总之,Granite-Docling-258M 的发布是 IBM 在人工智能领域的又一重要成果,它为文档处理带来了新的技术和方法,具有广阔的应用前景和市场潜力。随着技术的不断发展和完善,相信 Granite-Docling-258M 将为人们的工作和生活带来更多的便利和价值。