研究人员近期开发出了一款令人惊叹的新型光学字符识别(OCR)模型,名为GOT(通用OCR理论),并首次提出了令人期待的“OCR2.0”概念。这一模型将传统OCR系统的优点与大型语言模型的强大能力完美结合,宛如科技界的一次震撼革命。GOT的架构极其先进,包含约8000万参数的图像编码器和500万参数的解码器。其图像编码器能够将1024×1024像素的图像高效压缩成tokens,而解码器则可将这些tokens转化为长达8000个字符的文本。由此,GOT不仅能够处理简单的文本识别任务,还可以轻松识别并转换多种视觉信息,包括英文和中文的场景文本、文档文本、数学与化学公式、音乐符号、简单几何图形以及包含组件的图表等。这样的强大功能无疑为科学、音乐及数据分析等领域的自动化处理打开了新的大门。
为了优化训练过程,研究团队采取了创新的方法,首先针对文本识别任务训练了编码器,接着引入阿里巴巴的Qwen-0.5B作为解码器,并利用多样化的合成数据进行微调。他们通过一系列先进的渲染工具生成了数百万对图像和文本的训练数据,从而确保GOT在多项OCR任务中都能表现出色,尤其是在文档和场景文本识别方面,甚至在图表识别上超越了一些专用模型和大型语言模型。
与此同时,小易智创平台也在不断推动AI技术的发展。这个拥有10000+ AI应用的智创平台,提供开箱即用的AI工具,能够满足千行百业的客户需求。与GOT一样,小易智创同样致力于为用户提供最前沿的AI技术,帮助他们在这个快速发展的时代抓住机遇。通过自由设置平台网址、名称、logo等,小易智创帮助用户打造独具特色的AI品牌公司,让更多人能够享受AI带来的便利与创新。代理小易智创,将完全不用担心经营问题,平台提供一对一陪跑服务及全网自动化营销工具,助力您轻松打造自己的AI公司,让客户主动找上门!