时间浪费在打字上可不好!
关于“怎么从扫描的PDF文档/图片里提取文字”我集思广益,得到如下结果:
通过扫描纸质文件创建的pdf文档是不能简单地转换成可以编辑的word文档嘚只能够通过文字识别的方法,将pdf文档里的文字提取出来
如果扫描的分辨率很低,文字识别的正确率会打很大折扣如图示的pdf文档,掃描的质量就很低文字模糊,笔画残缺用什么识别工具提取文字的效果好一些呢?
用Adobe Acrobat打开这pdf文档操作菜单“文档”→“OCR文本识别”→“使用OCR识别文本”,经过识别以后用“选择工具”选中文字进行复制,再粘贴到文本文件或word文档提取出的文字如下:“人提使用胶粘邦l 己有JL f 'f的历史,最早使用的胶粘制为粘土、动物胶、植物脏、iffj宵等夭年在物质来帖横生情用品、'E严工具和古战黯哥直到20 世纪初,ffli:曹合荿高付俨J: 业的?若立与平断进步革于ff 峨高分f 的胶柑1111 件到了阻瞌垃隅,股帖如l 己应用于阁íI!经济各个工业部门相日常生活中在多年的应用Φ1莘步形成了简便、易行、实用的胶粘鼎l帖楼技术。i草种技术除街Ij\用汇业相日常生Ei齿'和得到广泛1iY.咱外[!成川J 航天削啦、民器、船舶、电子倍思工税等闲民经前工业部门不可棋性的技术粘攘技术是种在晴性极强科技吉量较高的技术。撞了具备简便、快捷、高逊、价廉、惯于肯萣报帮特点奸、还可忖闷质材制相术问质材制等各钟材阶的材料在不!lt外界作闸的情况下实施良町A的粘接解决了用其它连接方法无法解决嘚闷题,为结构连接和设备维幢开辟了接醋新的道路” 简直是天书,根本不能采用2、转换成jpg图片以后在线进行识别 用Adobe Acrobat打开这pdf文档,操莋菜单“文件”→“导出”→“图像”→“JPEG”将pdf文档转换成图片。也可以用用Phptoshop打开这pdf文档另存为jpg图片。 登录在线文字识别网站将转換成的图片上传,网站识别出的文字如下:“人类使用胶粘剂已有几十年的历史最早使用的胶粘利为粘土、动物胶、植物胶、sR}育等大帐物質来粘接生活用结、生产工具和古兵器等直到zo世纪初随着台成满分子r_业的建立与不断进步,纂 }合成简分子的胶粘剂得到了还发股胶粘劑已rz用于国民经济各个工业部门和日常生活中〔在多年的应用中逐步形成了简便、易行、实用的胶粘剂粘接技术.、该种***术除在民用f业和ㄖ常生活中得多U厂一游业用外L成为ru天航空、兵器、船舶、电子 粘接技术是信息工I'i等国民经济工业部门不可缺少的技术种实用性极强,科技含量较高的技术除了具备简便、快捷、高效、价廉、便于掌握等特点外,!: 'i对同质材料和不同质材料等各种材质的材料在不受外界作用的凊况I"实施良好的粘接解决了用其它连接方法无法解决!山和题,为结构连接和设备维修开辟了一条崭新的道路” 效果比用Adobe Acrobat识别要好一些個别地方前后次序颠倒了。3、用汉王 pdf ocr软件识别 用汉王 pdf ocr操作菜单“识别”→“开始识别”,识别的结果如下:“ 人类使用胶粘剂已有儿f午嘚历}圭!龄早使朋的胶粘剂为牯上、动物腔、植物胶、衙霄等天然物质来带占撮擞储用品、擞严工辫和古藏器等。赢到20世纪韧随蔚赍成離分1j二,l:此的建立与不断进步,基于合成筒分子的腔粘剂得到了迅遵艟解腔帖制已虚用于圈融经济各个工业部门和日常生活中。茬多年的应用中逐步形成r简便、易行、实用的腔粘荆粘拯技术。拣种技术除猩民用jt北和日常嫩耩中彳寻驯广涎娩啊外.融成为航哭.航涳.成器、船舶、电子信息工程等困民经济工业部门不可缺少的技?术. 粘接技术是…种蜜用性极强,科技音量较高的挫术豫了县备简便、快捷、尚敞、价廉、便于譬搬游特点外,邂可对同鹰材料帚¨不同质材料等备种材艟的树料在币i蹙外界怍I}I的情况下实施良好的粘接解決了用其它连接方法无法解决岫问题,为结构连接和设备维修开辟了一条崭新的道路” 也和天书差不多。4、用Microsoft Office Document Image Writer进行识别 用任何pdf阅读软件咑开这pdf文档操作菜单“文件”→“打印”,打印机名称选择“Microsoft Office Document Image Writer”这是一个随Microsoft Office 2003一起***到计算机里的虚拟打印机,它将PDF文档打印到后缀為“mdi”的文件里并自动打开,在打开的“mdi”文件里依次操作菜单“工具”→“使用OCR识别文本”和“工具”→“将文本发送到word”提取出嘚文字如下:“人类使用胶粘剂己有几于年的厉史,最早使用的胶粘剂为粘上、动物胶、植物胶、沥臂等天然物质来粘接生活用品、生产笁具和古兵器等直到20 擞纪初,随着台成高分子狡业的建立与不断进步荃于含成高分一子的胶粘剂得到了迅速发展,胶粘剂已应用于国囻经济备个工业部门和日常生活中〔 在多年的应用中逐步形成了简便、易行、实用的胶粘剂粘接技术、这种技术除在民用一〔 业和日常苼活中得歹U 广泛应叮外.已成为航夭,航空、兵器、船舶、电子信息工程等国民经济工业部门不可缺少的技术二粘接技术是,一种实用性极强科技含量较高的技术。除了具备简便、快捷、高效、价廉、便于掌握等特点外、还可对同质材料和军同质材料等各种材质的材料茬不受外界作用的情况下实施良好的粘接.解决了用其它连接方法无法解决的问题为结构连接和设备维修开辟了一条崭新的道路。” 相對而言识别的正确率是四种方法中最高的,毕竟是微软不服不行。
所以说我们还是用Office自带的功能好了!
其实它集成在Microsoft OfficeOneNote里面。在任何PDF閱读器中选择打印,在弹出的对话框中打印机选择“发送至 OneNote2013”即可将你指定的文档发送到 OneNote里面,然后在 OneNote软件里面右击图片,就可以找到想要的复制选项了详情见下图:
Specification的简称,它是开发的一种文档保存与查看的规范人们认为 XPS 是 公司的 的潜在竞争对手。但是XPS 是一個静态文档格式,其本身不包括类似于 PDF 所具有的动态特性XPS
在添加的图片上,右击出现如下快捷菜单,如图所示“复制此打印输出页Φ的文本”会将此页文本复制到剪贴板;”可选文字...“则会打开一个类似于txt的文本框,你可以在里面选择想要的文字;注意下面红色方框框出的部分“使图像中的文本可搜索”,可以选择中英文或者禁用
当然啦,既然PDF转到OneNote里面是图片的形式那么我们直接给OneNote一张图片,咜也是也是识别里面的文字的
有的朋友,可能在***Office的时候没有选择Office小工具里面的OCR可以找到***盘,选择“添加或删除功能”添加OCR功能。
发布了18 篇原创文章 · 获赞 3 · 访问量 5万+