Office:提取图片中的文字
微软在Microsoft Office 2003中的工具组件中有一个名为“Microsoft Office Document Imaging”的组件包。这个组件包含了一个非常有用的功能,即直接执行光学字符识别(OCR)。通过这个功能,用户可以从图片中提取文字。下面我将为大家介绍如何利用Office 2003中新增的OCR功能进行文字提取。
第一步 我们需要安装“Microsoft Office Document Imaging”的组件,点“开始→程序”,在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行(如图1所示)。
第二步 打开带有文字的图片或电子书籍等,找到你希望提取的页面,按下键盘上的打印屏幕键(PrintScreen)进行屏幕取图。
第三步 打开Microsoft Office Word 2003 ,将刚才的屏幕截图粘贴进去;点击“文件”菜单中的“打印”,在安装Microsoft Office Document Imaging组件后,系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。如图2所示,在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机,其他选项无须额外设置,点击“确定”按钮后,设定好文件输出的路径及文件名(缺省使用源文件名),然后很快就可以自动生成一个MDI格式的文档了。
图2 选择打印机
打开刚才保存的MDI类型文件(如图3所示),根据你的需要用鼠标选择文字内容(被选中的内容在红色的框内),然后单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word”,即可将图片内容自动转换为一个新的Word文档,然后你就可以在Word文档中随心所欲地进行编辑了。
图3 将文本发送到Word
提示:如果你不想将转换的内容输入到一个新的Word 文档中,而是希望粘贴到一个已经打开的Word 文档,只需在上面的操作中点击右键菜单的“复制”,然后再到指定文档中执行粘贴即可。
方法如下:
1、首先,打开媒介工具“记事本”,将word文件里需要导入的数据,复制粘贴到记事本当中,然后保存成为txt文件,本例中将txt文件取名为“1.txt”。
2、打开excel表格,点击“数据”选项卡,在“获取外部数据”当中,找到“自文本”。
3、点击“自文本”,弹出下一窗口,选择刚才保存的名为1的txt类型文件,点击“导入”。因“自文本”方式数据导入默认的只有三种文件类型txt、csv、prn,所以需要事先将word转变为txt。
4、弹出文本导入对话框,选择默认的固定宽度,意思就是数据与单元格一一对应。如果选择分隔符号,则导入的所有数据将会在一个单元格当中,接着,点击下一步。
5、设置分行线,其实就是导入数据列数的控制,单击鼠标,可以在任意位置增加分行线。双击任意分行线,就会删除。完成设定后,点击下一步。
6、设置输出数据的格式,一般不需要进行任何设置,选择常规即可,点击“完成”。
7、导入完成。
以上是照片中文字的导出方法的详细内容。更多信息请关注PHP中文网其他相关文章!