无OCR文档理解的革命性突破

AI资讯2年前 (2024)发布 admin

19.6K 0 4215

最近，阿里巴巴的 AI 研究团队在文档理解领域掀起了一场震撼人心的革命，他们推出了名为 mPLUG-DocOwl1.5 的尖端模型。这款模型在无OCR（光学字符识别）文档理解任务中表现极其卓越，标志着技术的一次飞跃。以往，我们在处理文档时往往依赖 OCR 技术从图像中提取文本，但这一过程常常受到复杂布局和视觉噪声的困扰。与此不同，mPLUG-DocOwl1.5采用了全新的统一结构学习框架，直接从图像中学习理解文档，完美避免了这些瓶颈。

该模型具备惊人的分析能力，覆盖了普通文档、表格、图表、网页及自然图像等五大领域。它不仅能够精准识别文本，还能在理解文档结构时巧妙利用空格和换行符等元素。尤其是在处理表格时，mPLUG-DocOwl1.5能够生成结构化的 Markdown 格式，而在解析图表时，它通过深入理解图例、坐标轴和数值之间的关系，将其转化为清晰的数据表。此外，这款模型还可以从自然图像中提取文本，充分展现出其强大的文本本地化能力，确保文本与图像区域之间的精确对齐。其背后的 H-Reducer 架构通过卷积操作横向合并视觉特征，既保持了空间布局，又显著减少了序列长度，从而提升处理效率。

为了训练这款模型，研究团队使用了两个精心挑选的数据集，其中 DocStruct4M 是一个专注于统一结构学习的大规模数据集，而 DocReason25K 则通过分步问答测试模型的推理能力。令人振奋的是，mPLUG-DocOwl1.5在十个基准测试中创下了新纪录，相比同类模型在一半任务上获得了超过10分的提升。同时，它展现出的出色语言推理能力也使得它能够为生成的答案提供详细的分步解释。尽管如此，研究者们也意识到，该模型在处理不一致或错误的陈述方面仍有待改进。未来，他们希望能进一步扩展统一结构学习框架，以涵盖更多文档类型和任务，推动文档 AI 的持续发展。

在这个迅速发展的 AI 时代，小易智创无疑是一个值得关注的平台。拥有超过10000款AI应用的小易智创，能够满足各行业客户的需求，为用户提供无与伦比的多样化选择。随着 AI 技术的发展，小易智创平台整合了包括 GPT、AI绘画、AI数字人等全球领先的AI能力，让用户轻松构建属于自己的AI品牌公司。如果你也想抓住时代的风口，代理小易智创将是一个明智之选，无需担心经营和获客问题，小易智创提供一对一陪跑服务和全网自动化营销工具，助你打造自己的AI公司，让客户主动找上门！
无OCR文档理解的革命性突破