引言
最近在做个表情包的小程序,涉及到表情包搜索功能。我们上传表情包的时候,只有一张图,怎么搜索?这个时候我们想到就是将表情包的文字提取出来,作为搜索的内容。那么这就需要用到 ocr 技术了。
经过几个 ocr 的库的使用,小编强烈推荐使用 PaddleOCR,一款文本识别效果不输于商用的Python库!
对于 PaddleOCR 本文不会过多介绍,可自行搜索。重点是如何使用 PaddleOCR 解决我的问题。
安装 PaddleOCR
1
2
|
pip install paddlepaddle pip install paddleocr |
我这边安装后的版本:
1
2
|
paddleocr = = 2.5 . 0.3 paddlepaddle = = 2.3 . 1 |
在 macOS 安装后,项目运行报错报错,忘了截图,应该是与 setuptools 版本有关,解决方式:
1
|
pip install - - upgrade setuptools = = 59.8 . 0 |
完成这些配置后,我们就可以愉快的玩耍了。
本地处理
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
import hashlib import io from PIL import Image from paddleocr import PaddleOCR def get_gif_pic_path(url): '''下载图片,返回图片第一帧路径''' response = requests.get(url) filename = hashlib.md5(url.encode(encoding = 'utf-8' )).hexdigest() img = Image. open (io.BytesIO(response.content)) current = img.tell() img_path = f 'bqb/{filename}_{current}.png' img.save(img_path) return img_path def ocr_get_gif_text_sec(url) - > str : '''识别gif第一帧图片的文字''' img_path = get_gif_pic_path(url) ocr = PaddleOCR(use_angle_cls = True , lang = 'ch' ) result = ocr.ocr(img_path, cls = True ) data = [] for item in result: data.append(item[ 1 ][ 0 ]) return "," .join(data) ocr_get_gif_text_sec( 'https://xxxxxx' ) |
由于 gif 是个动图,所以我们需要取出图片的第一帧进行识别,get_gif_pic_path
实现了这个功能。ocr_get_gif_text_sec
从 gif 第一帧的图进行文字提取,返回的 result
是个数组,我们通过遍历进行提取出来。
提取 gif 图片的内容我们就完成了,两个函数的功能也比较简单。本文没做 gif 全部文字的提取,有兴趣可以挑战下。
在 flask 中处理
当我们想在上传图片的时候,进行对图片文字的处理怎么办?难道要将上传的图保存到路径再去识别么?这也是我在开发中遇到的一个问题,经过拆坑,答案是:不,你不需要。
思路:我们可以从表单中获取上传的图片的二进制,然后将这个二进制传给ocr.ocr()
,那么ocr.ocr()
支持这个类型么?经过查看此函数源码,我们可以让它支持。
将图片二进制转化为 nparray 类型即可。下面是这个过程的具体代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
from paddleocr import PaddleOCR import numpy as np import cv2 @app .route( '/v1/upload_img' , methods = [ 'POST' ]) def api_v1_upload_img(): if 'file' not in request.files: return "no file part" file = request.files[ 'file' ] if file .filename = = '': return "no selected file" if file : file_name = file .filename # 获取图片的二进制 res = upload_image(bytes = file .read(), filename = file_name) return res else : return "no file" def upload_image(bytes, filename = None , mime_type = None ): ocr = PaddleOCR(use_angle_cls = True , lang = "ch" ) ## 核心步骤 np_arr = np.frombuffer(bytes, dtype = np.uint8) img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR) # 进行识别 result = ocr.ocr(img = img, cls = True ) ocr_result = [] for line in result: ocr_result.append(line[ 1 ][ 0 ].strip()) img_content = ' ' .join(ocr_result) return img_content |
在api_v1_upload_img
我们获取到图片二进制以及图片名,将这些作为参数传到upload_image
,在upload_image
中:
1
2
|
np_arr = np.frombuffer(bytes, dtype = np.uint8) img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR) |
上面两行代码是这个需求的核心突破点。
还有一点就是建议不要将此识别功能部署到性能差的机器上,并发一下,完全扛不住,默默的留下两行眼泪。
以上就是PaddleOCR 识别表情包文字示例详解的详细内容,更多关于PaddleOCR识别表情包文字的资料请关注服务器之家其它相关文章!
原文链接:https://juejin.cn/post/7133772101428707358