- ·上一篇教育:word第二页乱串怎么办
- ·下一篇教育:word文档少了表格怎么添加
word文档怎么扫描表格
1.如何扫描表格
所需工具:扫描仪;word2007 、Excel2007 ;尚书七号OCR 软件。
1. 扫描表格。首先依次把表格扫描成TIF 图像文件备用。扫描时300dpi 就可以,太高的话识别率反而下降,而且处理时间加长。文件名最好与页数相关,这样在查对起来时也更加方便。在预扫时确定扫描的边界,没有用的部分不用扫描,只选择表格体就可以了。
2. 进行表格识别。现在轮到本次任务的主角尚书七号OCR 识别软件登场了!我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送,没有的话可以到网上下载一个。在尚书七号软件中,点“ 文件→ 打开图像” ,找到刚才扫描的表格图像。
这时在右侧图像区中单击左键,选“ 编辑→ 旋转图像→ 右转90 度” 或按“ Ctrl+R ” 组合键,将图像摆正(这一步根据实际情况进行左旋还是右旋)。
现在图像已摆正了,不过还有一些倾斜。这时点“ 编辑→ 自动倾斜校正” 或“ Ctrl+D ” 组合键对原稿进行倾斜校正。这一步骤非常重要,直接影响到表格识别率。下面进行表格的识别。点“ 识别→ 开始识别” (图1 ),或按快捷键“ F8 ” ,几秒种后识别结果已跃然屏幕上。
图1 尚书七号软件
下面对识别后的表格文字进行初步校正。一般怀疑有误的地方,软件用红色表示出来。当鼠标放上去时会有图像提示,方便进行校正。在删改后表格线可能有所变动,不用管它。对于0 ~9 的识别错误,有的必须先行加以纠正,例如“ 3 ” 识别成“ :{ ” ,“ 7 ” 识别成“ / ” ;有的可以在Word 中用查找替换的方法加以改正,比如,“ 0 ” 识别成字母“ O ” ,“ 1 ” 识别成字母“ l ” ,“ 5 ” 识别成字母“ s ” 。这样,80% 的错误可以在这里消灭。数字间有空格也不用管它,可以进行后期处理(图2 )。
图2 尚书七号软件
3. 在 Word 中进行纠错并生成Excel 数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word2007中(2000 及以上版本即可)。页面不妨设置为横向A3 纸,因为我们只是利用Word 进行纠错并生成TXT 文件,这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正(别忘了时时存盘)。
每张表格识别后都做以上处理,待所有表格都粘贴过来以后,利用Word 的查找、替换功能进行纠错。具体操作如下:选择制表符“ ┣ ” ,按“ Ctrl+C ” 组合键;点“ 编辑→ 替换” ,在“ 查找内容” 文本框内按“ Ctrl+V ” 组合键,“ 替换为” 文本框内不填任何字符,点“ 全部替换” ,就消掉了所有的“ ┣ ” 符号。
类似地,我们将“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能,将“ .” 及“ 。” 替换成小数点“ . ” ,将字母“ O ” 、“ l ” 、“ s ” 分别替换成数字“ 0 ” 、“ 1 ” 、“ 5 ” ,再有把所有的空格也用这种方法去掉。“ ┃ ” 可以保留,也可以替换成英文的“ , ” 作为间隔符。这样,表格就变成了下面的样子:
接着把这个文件另存为纯文本文件。
4. 数据导入Excel 。打开Excel 软件,点“ 数据→ 导入外部数据→ 导入数据” ,“ 文件类型” 选“ 文本文件” ,找到刚才保存的那个纯文本文件,点“ 打开” 进入文本导入向导(图3 )。
图3 文本导入向导
步骤1 中默认的“ 原始数据类型” 就是“ 分隔符号” ,直接点“ 下一步(N )” 。
在步骤2 中,“ 分隔符号” 文本框中单击左键,输入英文符号“ , ” ,点“ 下一步(N )” 。
步骤3 中,在“ 不导入此列” 前收音机钮上点左键,忽略最前面一列。点“ 完成” 。
再单击“ 确定” 。这样,数据就被导入到Excel 中来啦!
下面,再对导入到Excel 中的数据进行校验、纠错。这一步骤比较好做,因为在Excel2007中数字是右对齐的,如果在前面的步骤中有的数据错误没有被纠正,则会被认为是文本数据,左对齐。这样就可以轻松地将它们挑出来进行纠正(图4 )。
图4
因为现在级别不够,无法上传图片,不好意思
2.怎么把扫描的word文件转换成word文档,可以修改的那种~
以OCR为关键字去找相关软件下载,就是图形转文字的软件。
所谓图像文件就是用数字不同值去记录色彩特征(比如红色表示为16711680)的数据集合,图像处理软件会将这种文件内容逐一转化为色彩信号送到屏幕上,比如微软的照片查看器。
而文字文件则是以数字的不同值来记录文字的一个特定符号(比如A表示为65)的数据集合;同样文字处理软件会按照预定规则在遇到65时在屏幕上显示一个A。
所以在计算机中文件是分类型的,不同类型的数据文件要用不同软件去处理。word只能处理符合它规定的文字集合文件,而不能处理图像文件,比如tiff。
即便用OCR软件进行转换处理,也不能保证百分之百正确,一般能有个百分之八十就算不错的OCR软件了。当然这还和你原图像文件是否清晰有关,看到过一些网站登录时要求认证码吧,为什么有的认证码故意搞得非常不清楚呢,就是为了防止OCR轻易识别,以阻止恶意的暴力破解。
3.怎么能把扫描的文件在Word里修改文件内容
可以下载一个尚书七号OCR 扫描图像格式.tif 单击工具栏上的按钮或单击“文件”菜单中的“扫描”命令,通过扫描仪开始批量扫描文件;单击工具栏上的按钮或单击“文件”菜单中的“打开图像”命令,打开计算机中已经扫描好的图像文件(注意:图像文件所在路径必须是可写的)。
为提高识别率,对图像进行图像反白,自动倾斜校正,调整边框,去噪音(如麻点、下划线等),表格画线等处理。 单击工具栏中的按钮,或单击“识别”菜单中的“版面分析”命令,自动对图像的版面布局、内容进行分析理解,切分图像页,判别图像框的版面属性(横栏、竖栏、表格、图像),并以不同颜色的线框标识图像框属性。
对分析错误的版面可以手动调整,方法为,先以鼠标选中需要调整的版面块,再调整版面块的边框改变大小,或单击工具栏上的属性按钮(横栏、竖栏、表格、图像)改变该版面块属性。 单击按钮或单击“识别”菜单中的“开始识别”命令,按照版面属性(横栏、竖栏、表格、图像),自动对图像文件管理器选择的图像进行批量识别。
通过对比识别结果文本和原图像,以发现识别错误的文字。用户可按Ctrl+Tab、Shift+Tab组合健直接查找系统用醒目的颜色标出的可信度不高的文字,进行校对。
单击“输出”菜单中的“到指定格式文件”命令,将识别并修改好的文本输出、还原成可供计算机阅读和查询检索的RTF、HTML、XLS、TXT 格式的电子文档。
4.怎么把扫描的文件转换成word文档
现在的扫描仪都有直接扫描成word格式的功能,比如尚书5号,尚书7号都可以,只要在安装驱动的时候切换到高级面板就可以了。
一、扫描仪驱动程序请切换到高级控制面板状态为了得到较好的OCR使用效果,建议用户将扫描仪的驱动SCANWIZARD 5软件,由初始安装的标准控制面板,切换到高级控制面板状态。其切换的方法,如下所示。
二、第一次使用尚书OCR7号软件 1. 尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件,该软件是放在了扫描仪随机的驱动光盘中,用户可以选择安装。 2. 软件安装完毕后,用户请点击桌面左下角“开始”,找到“尚书7号OCR”软件图标,并点击。
打开尚书7号OCR的使用界面。3. 打开尚书7号OCR的“文件”采单下的“选择扫描仪”,选择对应扫描仪的驱动“MICROTEK SCANWIZARD 5”的选项。
并选择“确定”。4. 选择“文件”菜单下的“扫描”,将打开扫描仪的驱动。
如下图,下面的界面是扫描仪的“高级控制面板”。5. 拥护请注意选择SCANWIZARD 5软件中,左面“设置”窗口中的“图像类型”,请选择“RGB色彩”或者“灰阶”的类型,并注意扫描仪分辨率是300PPI。
6. 当用户作完“预览”后,设置需要扫描的范围,就可以点击“扫描”按钮,扫描仪将开始扫描的工作。将扫描好的文件,直接传递到尚书7号OCR默认的目录中(默认的存储图像文件的目录是用户计算机C盘下的SHOCR2002目录下的IMAGE目录)。
扫描完毕后,请用户关闭掉扫描仪驱动程序SCANWIZARD 5.用户可以看到需要扫描的文件已经传递给尚书7号中,默认的文件名是HW001.JPG。7. 请用户选择尚书7号软件中的“编辑”菜单下的“自动倾斜校正”,让尚书7号软件对扫描进来的图像作相应的旋转,以保证图像中的文字是水平排列,而非倾斜。
因为太过倾斜的文字,将影响到尚书软件的识别效果。9. 版面分析完毕后,用户可以看到对应的文字块,都有对应的识别框被选择,如下图。
10. 用户此时,请注意,对应的识别框,其属性是否正确。识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性,分别有四种不同颜色的选框来表示。
11. 核对无误后,用户可以使用“识别”菜单下的“开始识别”按钮。得到的结果如下:12. 此时实际上已经进入文字校对状态:13. 当用户校对完毕后,或者不在尚书7号内作校对,用户可以选择“输出”菜单下的“到指定格式文件”,如下“用户可以看到,识别的结果,有TXT、RTF、HTML、XLS等格式可以选择。
默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。用户选择一个对应的文件名,就可以存盘了。
为了方便,用户可以选择“输出到外部编辑器”的选项,这样存盘的同时,尚书7号OCR会自动调出对应的编辑软件,如TXT存盘可以自动调用NOTEPAD软件,RTF存盘将自动调用WORD软件,XLS存盘将自动调用EXCEL软件。一个简单的OCR操作就此完成了。
三、普通文档(只含有文字)的OCR识别 1. 过程与上面所介绍,基本一样,只是用户需要注意存盘格式。2. 一般,如果用户需要对该文字,进行重新排版工作,请用户选择TXT存盘,然后再将其内容拷贝到WORD中。
3. 如果用户希望保留稿件的原有格式,并能够作版面的恢复,请使用RTF格式存盘,该格式将有版面的恢复功能。但是用户只能针对其中的文字,作一些个别字的调整,无法作大范围的排版方式的修改。
四、带表格的稿件的OCR识别1. 其中,扫描、自动倾斜矫正过程同普通文稿是一样的。 2. 但是注意“版面分析”后,对其结果进行检查。
应该在表格上,经过版面分析后,有一个兰色的框,选中了表格部分,如果不是,用户需要修改栏属性或者考虑手动划定识别区域。3. 注意输出结果的选择,如果是需要重新排版,用户应该分别用TXT和XLS格式存盘,然后将TXT中的文字和XLS中的表格分别拷贝到WORD,进行排版。
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在使用中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,在此以ScanMaker 4850ii随机附送的尚书七号为例,介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。 用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。
具体步骤为: 步骤1:获取文字图像文件。 选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。
如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。 步骤2:对扫描的图像页进行调整 选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。
步骤3:版面分析与文字识别转化 版面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分析”。尚书七号的自动版面分析功能很强,对报纸杂。