@app.route(‘/image/extract’, methods=[‘POST’])

def pure_rec():

file = request.files.get(‘file’)

ts = str(get_time_stamp())

up_path = os.path.join(ts + file.filename)

file.save(up_path)

cmd = “tesseract “+up_path+” " + ts + " -l chi_sim”

print(cmd)

os.system(cmd)

with open(ts+“.txt”, ‘r+’, encoding=“utf-8”) as f:

result = f.read()

return result

if name == ‘main’:

app.run(debug=True)

五、程序实现(Java)


不需要任何引入第三方jar包,搭建一个简单的springboot web项目就可以了,没有其他额外的依赖。

Spring Boot 基础就不介绍了,推荐下这个实战教程: https://www.javastack.cn/categories/Spring-Boot/

Controller:

package com.lbh.web.controller;

/*

  • Copyright@lbhbinhao@163.com
  • Author:liubinhao
  • Date:2020/11/23
  • ++++ ______ @author liubinhao ______ ______
  • +++/ /| / /| / /|
  • +// | // | /_____/ |
  • | | | | | | | | |
  • | | | | | |________| | |
  • | | | | | / | | |
  • | | | | |/___________| | |
  • | | |___________________ | |____________| | |
  • | | / / | | | | | | |
  • | |/ _________________/ / | | / | | /
  • |_________________________|/b ||/ ||/

*/

import org.springframework.web.bind.annotation.PostMapping;

import org.springframework.web.bind.annotation.RequestParam;

import org.springframework.web.bind.annotation.RestController;

import org.springframework.web.multipart.MultipartFile;

import java.io.BufferedReader;

import java.io.File;

import java.io.IOException;

import java.io.InputStreamReader;

@RestController

public class LiteralExtractController {

@PostMapping(“/image/extract”)

public String reg(@RequestParam(“file”)MultipartFile file) throws IOException {

String result = “”;

String filename = file.getOriginalFilename();

File save = new File(System.getProperty(“user.dir”)+“\”+filename);

if (!save.exists()){

save.createNewFile();

}

file.transferTo(save);

String cmd = String.format(“tesseract %s stdout -l %s”,System.getProperty(“user.dir”)+“\”+filename,“chi_sim”);

result = cmd(cmd);

return result;

}

public static String cmd(String cmd) {

BufferedReader br = null;

try {

Process p = Runtime.getRuntime().exec(cmd);

br = new BufferedReader(new InputStreamReader(p.getInputStream()));

String line = null;

StringBuilder sb = new StringBuilder();

while ((line = br.readLine()) != null) {

sb.append(line + “\n”);

}

return sb.toString();

} catch (Exception e) {

e.printStackTrace();

}

finally

{

if (br != null)

{

try {

br.close();

} catch (Exception e) {

e.printStackTrace();

}

}

}

return null;

}

}

哈哈哈,还有帅气的程序logo。

六、实验测试


很简单二十多行代码就完成了,看看效果怎么样吧。

测试一图片:

java 图片集合转pdf java 图片转文字_面试

测试一结果:

java 图片集合转pdf java 图片转文字_学习_02

测试二图片:

java 图片集合转pdf java 图片转文字_面试_03

测试二结果:

java 图片集合转pdf java 图片转文字_java_04

perfect,识别的很准确,第二个测试全部是英文字符的时候我们采用了中文训练的数据集,虽然也很好的识别了,但是速度会慢很多。

七、总结


图片识别在当今网络技术领域是非常热门的一块,而这次完成的这个程序完全是依赖别人开源框架来完成了这个技术实现,在应用层面这是成功的,但是本质上并没有实际算法,技术核心上的东西,如果只关心应用层开发上述解决了我们计算机在规则字符识别上的问题。

上述代码中基本没有难点,直接复制即可使用。此外,tesseract作为一款优秀的开源字符识别软件,但它也不是万能的,tesseract只能识别规则的字符,对于一些艺术字,抽象字它是无能为力的。