好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

版式电子文档表格自动检测与性能评估.ppt

18页
  • 卖家[上传人]:大米
  • 文档编号:574897346
  • 上传时间:2024-08-17
  • 文档格式:PPT
  • 文档大小:1.34MB
  • / 18 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 版式电子文档表格自动检测与性能评估版式电子文档表格自动检测与性能评估房婧房婧,高良才,仇睿恒,汤帜2012-11-04 研究目的(1/2)p移动阅读 研究目的(2/2)p问题与挑战(1)n现有方法多处理图像和网页格式的文档n不支持中文版式文档的处理n页面布局和表格自身布局的复杂性p问题与挑战(2)n缺少公开可用的数据集n缺少合理的评估准则n人工评估效率低且不易复现 研究方法p表格定位n针对版式文档的特点,提出一种表格线分割符和表格文本布局特征相结合的方法p效果评估n建立一套自动评估系统,提供免费下载*p构建数据集p标注基准p细粒度评估准则* 表格定位(1/6)p页面布局(分栏)n表格既可能位于单栏内,也可能贯穿多栏n单页页面上的前景空白*和多页文档的分栏位置相似性p表格线检测n解析图形流 p绘制指令(m,l,re,c, v, y)与坐标参数n直线、矩形拆分,坐标拼接和聚类——直线段n裁剪区缩小范围Breuel TM. Two geometric algorithms for layout analysis. DAS, 2002, Princeton, USA, 188-199 表格定位(2/6)p解析文字流n字符(文本、最小包围矩形、字体、坐标等)p文字行n竖直方向包围矩形的交叠,字符间距 表格定位(3/6)p布局特征n每列上的单元格之间都有水平方向的交叠,列与列之间互不干扰,由空白分隔开n表格和页面正文内容的排版遵从相同的规则,即向右向下的顺序排版,向右成行、向下成列p形成文本块n深度遍历(行间向下,行内向右) 表格定位(4/6)p文本块筛选p表线筛选n距离表格块远(页眉页脚线)n表格线上下两侧多文本段 表格定位(5/6)p有线表n水平表格线按照长短排序n从最长线开始判断是否与多条竖直表格线相交p确定表格边界p删除与边界有交集的其他表线,避免区域交叠与嵌套p直到所有水平线遍历完成p无线表n在栏内横向贯穿合并候选表格列文本块n相邻块纵向空白检测合并 表格定位(6/6)p后处理n表格区域内至少包含两行两列n区域内不包含曲线图形元素(区分图形)n区域内不会只包含竖直方向的直线(区分矩阵) 自动评估(1/4)p数据集构建n2000PDF页面n中英文比例 1:1p中文:阿帕比数字图书馆p英文:网络爬取的科技文献n表格页与非表格页 1:1p数据集n以XML格式描述的被标注基准结果n600dpi的页面原图像n页面基本对象(字符、图形、图像元素)的XML描述 自动评估(2/4)p表格n表格标题,表格体,表格脚注p文本行§字符p其他逻辑结构n段落、图像、公式等 自动评估(3/4)p评价准则——错误类型&定量系数General error typesSubtypes for mobile readingfakefake_figure; fake_matrix; fake_list;fake_mixamplifiedamplified_tabaccessory; amplified_matrices;amplified_mixsplittedsplitted_horizontal; splitted_verticalmergedmerged_horizontal; merged _verticalreducedreducedmissedmissed 自动评估(4/4)p评估准则n由每个表格分别命中的错误类型(可能对应多种),统计每种错误类型被命中的表格总数n每个表格综合惩罚分值(各错误类型惩罚分值的最大值)符号注释符号注释NR真实表格的数目NFA误判,但可接受表格的数目NM遗漏表格的数目NFU误判,且不可接受表格的数目NA可接受表格的数目准确率NA / (NR + NFA + NFU - NM)召回率NA / (NR + NFA) 实验结果(1/2)英文测试集中文测试集方法pdf2tabletableseer本文pdf2tabletableseer本文NR667667667682682682NM512081506324991NA261232374223192547NFA22137504NFU111272118819准确率0.350.480.650.350.440.89召回率0.380.350.530.340.280.80 实验结果(2/2) 结论p提出版式电子文档表格定位与自动评估方法p优势尤其体现在:n文本布局复杂,但是具有表格线的表格n分栏页面中的表格,跨栏表或者栏内表n没有标题的表格等p中文数据集的评测结果明显优于英文数据集n中文样例的表格线无论从元素组成,或者在表格中被使用的频率,都比英文样例稳定 Q&A谢谢 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.