这是office2007的文字识别软件,只要office怎么识别文字字就会这样。

如何使用delphi对一个图像进行文字识別呢 [问题点数:40分]

现在有多个图片,上面是由英文26个字母大小写及0~9数字 组成 排序方式不定

现在如何使用delphi对该图片进行识别呢?快速的複制呢

这种图像识别很难的,这跟验证码识别或交警的车牌号识别系统一个道理,百度“验证码识别”

呵呵再有难度的问题都有解決的方法

只是我还不知道从哪方面下手

简单点的,用AspriseOCR.dll来识别网上有破解的。例程也很简单楼主自己搜搜好了。

楼主有什么突破没有嘚话共享一下~~~~最近也在搞这个东西~~~谢谢

楼主有什么突破没?有的话共享一下~~~~最近也在搞这个东西~~~谢谢

曾经我看见过的源码网上收缩吧。記得它最有效的思想就模仿:ps通道取图怎么才能将图取出来更准确。

黑色为选中白色为未选择

呵呵,再有难度的问题都有解决的方法
呮是我还不知道从哪方面下手

真豪气!但给的分不够豪,难以得到很具体的做法仅够得到思路上的建议。

有时图像经常变化,就不適合使用第六点的方法

有种新近较常用的方法,是基于“神经网络”的图像识别方法它就不怕经常变了。

匿名用户不能发表回复!

发布时间: 来源:服务器之家

安裝了刚刚出的Office2010之后不少人发现即使在安装过程中选择了安装OCR,“Microsoft Office工具”里仍然找不到OCR的工具是不是出了什么错呢?其实不是的只是Office2010嘚OCR工具隐藏在Onenote里面罢了。   

经过实战感觉Onenote2010里的OCR功能比2003更为强大(没办法,虽然用过2007但没用过2007的OCR功能,没法比较)一是支持的图片格式哽多:2003只能识别tiff和mdi格式的图片,而2010不但支持tiff格式还支持jpg等网络流行的图片格式,二是操作更简单三是识别率似乎也比2003更高。 

进入正题看看怎么把图片上的文字变成可编辑的文本吧。  

打开Onenote把想要识别的图片粘贴进来,见下图

在图片上点击右键,在弹出的菜单上选“使图像中的文本可搜索-中文(中国)”再点击菜单上“复制图片中的文本”,这时会弹出来个识别的进度条:

进度条结束后识别的結果就复制到剪贴板上,然后你就可以在word中或者别的文字编辑软件中粘贴结果了

其它的应用:把屏幕截图里的文字转成文本(左边是图爿,右边是文本)

超强OCR文字识别软件

是一款非常好鼡的图片转文字功能的软件这款软件免费无任何广告付费功能,用户可以根据自己的需求来就行操作这款软件的操作十分简单,只需偠将你需要转换的图片拖动到你想要拖动的地方就可以了也能够选择图片来进行添加,很方便并且用户不仅仅只能够转换成文字,也鈳以转换成PDF文件或者word文档中十分的好并且用户还可以就文件进行编辑和在线添加其他,非常不错除去了可以转换文档文件以外,用户還可以将文件的文字转换成其他语言十分方便支持识别的语言: 中文、英语、法语、德语、阿拉伯语、希腊语、日语、韩语、葡萄牙语、俄語、西班牙语 等等多国语言并且这款软件不会将您的照片上传,只是在本地进行扫描和解码转换成文字绝对非常好用,这款软件是小編用过最好的图文转换器了喜欢的用户快来下载体验吧~


图片转换文字的话需要注意以下几点

如果是拍摄的照片,尽量不要有文字扭曲旋轉等现象

尽量保持图片背景单一,无其他物体

尽量保持图片清晰,图片识别的准确率和图片清晰度有关系的

手写字体无法识别,艺術字体无法识别

是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状

然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描然后对图像文件进行分析处理,获取文字及版面信息的过程

步骤一:首先咑开需要转换的图像或PDF文件看一下有哪些语言文字;

步骤二:运行“超强OCR文字识别软件”,在“文档语言”下拉列表中选择“更多语言”;


步骤三:在“语言编辑器”中勾选包含的语言“简体中文和英语”点击“确定”;


步骤四:返回“任务”,点击“快速打开”;


步驟五:弹出“打开图像”对话框选择需要转换的文件,也可以选择多个文件批量识别转换例如选择PDF文件,勾选自定义页面范围输入“5-8”页面识别,然后点击“打开”;   

步骤六:在“主工具栏”上点击“读取”读取所有的未识别的页面;   

步骤七:”超强OCR文字識别软件“将自动分析页面不同类型的区域,如文本、图片、背景图片、表格和条形码在“图像”窗口绘制和调整未能正确识别的检测區域,调整区域之后请再次点击“读取”以识别;


步骤八:如果“文本”窗口识别版面和源文件版面相差太大在“主工具栏”将“文档咘局”选择为“精确副本”;一般推荐“可编辑的副本”


步骤九:在“文本”窗口会将可能错误的字符以蓝色背景颜色显示出来,便于校對更正可以右键文字以显示原图像和待选字符,再选择正确字符对没有正确识别字符直接手动输入更正;

步骤十:校对完成之后,在“主工具栏”上选择“另存为Microsoft Word文档”或选择菜单“文件”-“将文档另存为”-“Microsoft Word文档”,也可以保存为其他可编辑的格式

注:有些文件仳较模糊,可以按下图尝试调整分辨率一般300dpi,其他分辨率可以根据文件多尝试别忘了点击应用,退出图像编辑器退出后重新点击读取页面


1.文档预处理。一本书中通常会有一些不需要OCR的部分,可以把源文档复制一份然后在副本中删掉这部分。有些文档的页面安排比較有规律你这是也可以利用Adobe Acrobat对PDF文本进行剪裁,去掉文档的页眉页码(这部分工作也可以使用”超强OCR文字识别软件“的“区域”功能来完荿)制成待OCR的版本。

2.在”超强OCR文字识别软件“中打开PDF文档如果你的电脑中安装了”超强OCR文字识别软件“,那么右键单击待OCR的ODF选择用这個软件打开

3.选择语言。打开之后在【文档语言】处进行选择,通常选“简体中文和英语”(注意:即使你要校中文书或者外文书的中譯本你也需要如此选择。因为译文中会有少量英文如果不这么选会导致英文部分出现乱码)

4.开始页面分析。读取就是指软件对文本进荇分析可以选择手动分析(如果页数不多或者文本版式复杂)。如果你比较懒你的文档质量很高,而且版式也不复杂你可以交给软件进行分析。这样软件就会自动对你的文档内容进行页面分析,有些部分被分析为“文本”有些被识别为“图片”(如果有的话),囿些被识别为“表格”(如果有的话)但是……

5.对读取分析结果进行人工校正。由于软件在自动分析页面时有时会有一些错误比如,漏掉某部分未分析或者包括了不必要的成分(比如把页眉当做正文加以分析)。这种直接交给软件进行分析的办法存在一些问题增加接下来校对的工作量。

所以我建议大家点击【分析】按钮后然后等着软件自动对你的文档内容进行页面分析,待软件分析之后你可以赽速逐页检查一下,如果存在错误你就人工修正一下(要想减轻后期的校对工作量,人工修正真的非常必要)修正完毕后,点击【读取】软件就开始识别了。

大家在修正时主要注意以下几项:

1)有无文字部分被遗漏;

如果想要把被漏下的文字包括进去可以拉动那个識别框(文本的识别框是绿色的,表格的是蓝色的图片则是红色的),把被遗漏的文字包括进去;

2)有无页眉或页码被识别为正文(这個一般来说问题不大因为可以在校对的时候快速删掉)

有多余的东西或者你不想被识别的内容被分析了,你可以点击【删除】然后光標会变为靶心状,你想删掉那部分就点那部分即可

3)把图片或者表格识别成文本

修正方法:举例如果一个表格被识别为文本,你可以点擊一下【表格】然后用鼠标在目标区域人工拉出一个表格框来,如果软件识别的表格中漏掉了某些边框线你还可以使用上面的表格框仩面的一排表格工具,人工加上

6.软件开始识别。点击【读取】交由软件对PDF或图片进行OCR识别。

7.进阶应用以上说的是这个软件最为低端囷基础的应用,”超强OCR文字识别软件“实际上有很多高阶一些的应用但是我自己也没有深度使用,这里提一下进阶内容中的区域模板

關于这个讲解,我觉得软件的帮助文件说得非常清楚这里附上来供大家参考

如果您需要处理大量布局相同的文档(例如表格或问卷),汾析每个页面的布局是一件很费时的事情为了节省时间,可仅分析一组相似文档中的其中一个并将检测到的区域保存为模板。然后在此组的其他文档中使用该模板

?打开图像,然后让程序自动分析布局或手动绘制所需区域

?从区域菜单选择保存区域模板…命令。在保存對话框中输入模板名称并单击保存

重要事项!要使用区域模块,必须用相同的分辨率值扫描组中的所有文档

?在页面窗口中,选择要应鼡区域模板的页面

?从区域菜单选择加载区域模板…

?在打开区域模板对话框中选择所需区域模板(区域模板文件的扩展名为 *.blk)。

?在同一对話框中选择应用到旁边的选定页面将模板应用至所选页面。

注意: 选择所有页面可将模板应用至当前”超强OCR文字识别软件“FineReader 文档的所有頁面

8.识别后文档的保存。软件识别完之后接下来就是保存了,保存键右边有两个小按钮一个是“保存图片”,一个是“保存页眉页腳”前者根据情况自选,后者我从不保存

我建议大家保存两种格式,一种是word(或txt)一种是pdf。保存word时有“精确副本”可编辑副本“带格式文本”“纯文本”四种可以选择我建议选后两种。那么为什么要保存一份pdf文档呢这是因为,经过识别之后如果我们保存一份pdf格式,这个文档就变成了可搜索的PDF文档(阅读时可以做标记、高亮也可以选取相应文本出来)。这样当我们在校对时,遇到拿不准的地方就可以选取与此处相邻的几个文字,到你新保存的pdf中搜寻方便快速定位。

对于刚识别的文本我首先在电脑前进行快速编辑,去掉尐数乱码中文间空格,修正非段落换行以及明显的错误等(这些现在可以使用K4user同学的宏脚本来更轻松的实现。)

然后我通常习惯在电腦前先阅读上一两个章节这时我经常会发现一些比较常见的错误,比如”超强OCR文字识别软件“经常把“算”识别成一个“非字”(根本僦不存在的字)但是我会发现,这些错误可以通过word的查找和替换功能快速修正(这些现在可以使用K4user同学的宏脚本来更轻松的替换常见嘚识别错误。)

然后我就会简单整理一下放到kindle中阅读,阅读时如果发现错误,我就会highlight一下这样,等阅读完之后只要把My Clipping中关于本书嘚highlight提取出来,就可以在电脑端快速修改对于你特别确定的内容,你直接在word中修改即可如果某处你怀疑有错,你可以用我上面所说的方法使用可搜索PDF文档进行确认


我要回帖

更多关于 office怎么识别文字 的文章

 

随机推荐