脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - PaddleOCR 识别表情包文字示例详解

PaddleOCR 识别表情包文字示例详解

2022-08-20 18:42OldBirds Python

这篇文章主要为大家介绍了PaddleOCR 识别表情包文字示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

引言

最近在做个表情包的小程序,涉及到表情包搜索功能。我们上传表情包的时候,只有一张图,怎么搜索?这个时候我们想到就是将表情包的文字提取出来,作为搜索的内容。那么这就需要用到 ocr 技术了。

经过几个 ocr 的库的使用,小编强烈推荐使用 PaddleOCR,一款文本识别效果不输于商用的Python库!

对于 PaddleOCR 本文不会过多介绍,可自行搜索。重点是如何使用 PaddleOCR 解决我的问题。

安装 PaddleOCR

?
1
2
pip install paddlepaddle
pip install paddleocr

我这边安装后的版本:

?
1
2
paddleocr==2.5.0.3
paddlepaddle==2.3.1

在 macOS 安装后,项目运行报错报错,忘了截图,应该是与 setuptools 版本有关,解决方式:

?
1
pip install --upgrade setuptools==59.8.0

完成这些配置后,我们就可以愉快的玩耍了。

本地处理

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import hashlib
import io
from PIL import Image
from paddleocr import PaddleOCR
def get_gif_pic_path(url):
    '''下载图片,返回图片第一帧路径'''
    response = requests.get(url)
    filename = hashlib.md5(url.encode(encoding='utf-8')).hexdigest()
    img = Image.open(io.BytesIO(response.content))
    current = img.tell()
    img_path = f'bqb/{filename}_{current}.png'
    img.save(img_path)
    return img_path
def ocr_get_gif_text_sec(url) -> str:
    '''识别gif第一帧图片的文字'''
    img_path = get_gif_pic_path(url)
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(img_path, cls=True)
    data = []
    for item in result:
        data.append(item[1][0])
    return ",".join(data)
ocr_get_gif_text_sec('https://xxxxxx')

由于 gif 是个动图,所以我们需要取出图片的第一帧进行识别,get_gif_pic_path实现了这个功能。ocr_get_gif_text_sec 从 gif 第一帧的图进行文字提取,返回的 result 是个数组,我们通过遍历进行提取出来。

提取 gif 图片的内容我们就完成了,两个函数的功能也比较简单。本文没做 gif 全部文字的提取,有兴趣可以挑战下。

在 flask 中处理

当我们想在上传图片的时候,进行对图片文字的处理怎么办?难道要将上传的图保存到路径再去识别么?这也是我在开发中遇到的一个问题,经过拆坑,答案是:不,你不需要。

思路:我们可以从表单中获取上传的图片的二进制,然后将这个二进制传给ocr.ocr(),那么ocr.ocr() 支持这个类型么?经过查看此函数源码,我们可以让它支持。

将图片二进制转化为 nparray 类型即可。下面是这个过程的具体代码

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
from paddleocr import PaddleOCR
import numpy as np
import cv2
@app.route('/v1/upload_img', methods=['POST'])
def api_v1_upload_img():
    if 'file' not in request.files:
        return "no file part"
    file = request.files['file']
    if file.filename == '':
        return "no selected file"
    if file:
        file_name = file.filename
        # 获取图片的二进制
        res = upload_image(bytes=file.read(), filename=file_name)
        return res
    else:
        return "no file"
def upload_image(bytes, filename = None, mime_type = None):
    ocr = PaddleOCR(use_angle_cls=True, lang="ch")
    ## 核心步骤
    np_arr = np.frombuffer(bytes, dtype=np.uint8)
    img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)
    # 进行识别
    result = ocr.ocr(img=img, cls=True)
    ocr_result = []
    for line in result:
        ocr_result.append(line[1][0].strip())
    img_content = ' '.join(ocr_result)
    return img_content  

api_v1_upload_img我们获取到图片二进制以及图片名,将这些作为参数传到upload_image,在upload_image中:

?
1
2
np_arr = np.frombuffer(bytes, dtype=np.uint8)
img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)

上面两行代码是这个需求的核心突破点。

还有一点就是建议不要将此识别功能部署到性能差的机器上,并发一下,完全扛不住,默默的留下两行眼泪。

以上就是PaddleOCR 识别表情包文字示例详解的详细内容,更多关于PaddleOCR识别表情包文字的资料请关注服务器之家其它相关文章!

原文链接:https://juejin.cn/post/7133772101428707358

延伸 · 阅读

精彩推荐
  • Pythonpython去掉行尾的换行符方法

    python去掉行尾的换行符方法

    下面小编就为大家带来一篇python去掉行尾的换行符方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    Python教程网8342020-09-16
  • Pythonpython TF-IDF算法实现文本关键词提取

    python TF-IDF算法实现文本关键词提取

    这篇文章主要为大家详细介绍了python TF-IDF算法实现文本关键词提取,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    lalalawxt5262021-06-30
  • PythonPython文件操作之二进制文件详解

    Python文件操作之二进制文件详解

    下面小编就为大家带来一篇使用Python文件操作之二进制文件。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    Tester_Cheng5042022-01-12
  • PythonFlask之请求钩子的实现

    Flask之请求钩子的实现

    这篇文章主要介绍了Flask之请求钩子的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着...

    二十一7092021-05-06
  • PythonPython 可迭代的对象与迭代器的对比

    Python 可迭代的对象与迭代器的对比

    什么是迭代?迭代是指按需一次获取一个数据。是否可以迭代,可以通过是否可以使用for循环取值来进行简单的判断。更准确的判断是使用iter()函数,这是一...

    dongfanger7662021-11-29
  • Pythonpython读取一个目录下所有txt里面的内容方法

    python读取一个目录下所有txt里面的内容方法

    今天小编就为大家分享一篇python读取一个目录下所有txt里面的内容方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    m0_3769411616512021-03-09
  • Pythonpython中编写函数并调用的知识点总结

    python中编写函数并调用的知识点总结

    在本篇文章里小编给各位整理的是一篇关于python中编写函数并调用的知识点总结内容,有兴趣的朋友们可以学习下。...

    十一9212021-08-25
  • Python对python列表里的字典元素去重方法详解

    对python列表里的字典元素去重方法详解

    今天小编就为大家分享一篇对python列表里的字典元素去重方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    cw-Austin8502021-05-19