表格识别技术在处理复杂表格时面临的挑战主要包括:
1.多样化表格格式处理:表格可以是规则的或不规则的,可能包含旋转、扭曲等变形。此外,表格的边框可能完整或不完整,甚至完全没有边框。这些多样化的格式使得表格识别变得复杂 。
2.高精度识别需求:在金融和医疗等领域,表格数据的准确性直接影响到业务决策和医疗诊断。然而,现有的表格识别技术在处理复杂表格时仍然存在一定的误差 。
3.实时处理与性能优化:在实际应用中,表格识别系统需要具备实时处理能力,以满足高效的数据处理需求。为了实现实时处理,表格识别系统需要进行性能优化 。
4.复杂性多样性:表格的种类和样式复杂多样,包括不同的背景填充、行列合并方法等。解决方法是开发更加灵活和强大的识别算法,以应对各种复杂的表格结构 。
5.光照和噪声:文档图像中的光照变化和噪声干扰会影响识别效果。通过图像预处理技术(如增强、去噪等)可以提高图像的清晰度和质量 。
6.跨语言支持:对于多语言文档,需要开发支持多种语言的OCR和表格结构识别技术。这可以通过训练多语言模型或集成多个单语言模型来实现 。
7.低质量表格图像:模糊、倾斜的图像或表格,以及透视畸变、光照不均等实际应用中存在的复杂场景,都会影响表格识别的准确性
针对以上挑战,合合信息给出了表格识别的解决方案,以其高精确度表格识别技术大幅节省文件处理时间,作为其智能文字识别技术的核心部分,显著提升了图像处理和复杂场景下文字识别的能力。合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。
·无线表识别难点
无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
合合信息通用智能文字识别引擎对无线表格进行识别
·B端领域应用
B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在银行、证券、保险、制造、物流等近30个行业中,广泛应用于发票、合同、财报、银行流水、物流单据识别等多个场景。除了通用表格识别模块产品外,合合信息还推出了财报机器人、合同机器人、票据机器人等内置表格识别引擎的场景化智能文档处理系统。
以财务场景为例,合合信息表格识别技术被应用于企业发票与订单的数字全流程管理中,曾助力全球知名汽车零配件供应商伟巴斯特实现票据智能扫描、识别、验真、合规自动检查、发票与订单数据匹配、数字化数据、影像留存等全流程财税管理,作业效率提升500%~1000%。
合合信息表格识别技术受到了学术界与行业的共同认可,在2019年国际文档分析识别大会(ICDAR)中,荣获表格识别竞赛冠军。公司智能文字识别相关技术还在国际顶会ICPR、ICFHR等竞赛中获得十余项冠军,并于CVPR、AAAI、ACL、ACM MM等国际顶会上发表。