文档图像识别技术回顾与展望
刘成林

Document Image Recognition: Retrospective and Perspective of Technology
Liu Chenglin
表1 文档识别方法、对象历史演变和相关事件
Table 1 Summary of main document recognition methods and events
年代 主要方法 识别对象 相关事件
1920s 光学模板匹配 印刷数字、字母 首个OCR专利
1950s-1960s 相关匹配,简单结构分析 印刷数字、字母;印刷体汉字识别(1966) 1966年首个“模式识别”研讨会
1970s- 1980s 特征匹配,形状归一化,方向特征提取,结构匹配,统计模式识别 手写数字、字母,印刷或手写英文词识别,手写日文、汉字识别 1972年首次国际模式识别大会(ICPR);
1978年国际模式识别学会(IAPR)正式成立
1990s 神经网络,文档分析多种技术研究展开,包括版面分析、字符切分、字符串识别等 应用快速推广(文档电子化,邮件分拣,票据处理,名片识别,联机手写文字输入等) PC机普及,互联网发展;
1990年首次国际手写识别前沿研讨会(IWFHR);
1991年首次国际文档分析与识别会议(ICDAR);
1994年首次国际文档分析系统研讨会(DAS)
2000s 隐马尔科夫模型(HMM),
递归神经网络(RNN),深度学习
手写文本识别,拍照文档识别,古籍文档,联机手写图文混合文档,自然场景文本 网络搜索,大数据,智能手机,社交网络(微博、微信等)