三分钟教会你用Python+OpenCV批量裁剪xml格式标注的图片_Python

前言

在目标检测中，数据集常常使用labelimg标注，会生成xml文件。本文旨在根据xml标注文件来裁剪目标，以达到去除背景信息的目的。

xml文件格式

以下是一个标注好的图片生成的xml文件。具体含义见代码注释。

				?

									<annotation>                             <!--xml所属文件夹-->

									    <folder>JPEGImages</folder>          <!--对应图片所属文件夹-->

									    <filename>408.bmp</filename>

									    <path>E:\JPEGImages\408.bmp</path>

									    <source>

									        <database>Unknown</database>

									    </source>

									    <size>                        <!--整张图片宽，高，3通道彩色-->

									        <width>413</width>

									        <height>342</height>

									        <depth>3</depth>

									    </size>

									    <segmented>0</segmented>

									    <object>                          <!--标注的目标，一共5个框-->

									        <name>bad_part</name>           <!--名称，也就是类别-->

									        <pose>Unspecified</pose>

									        <truncated>0</truncated>

									        <difficult>0</difficult>

									        <bndbox>                  <!--坐标，左上，左下，右上，右下-->

									            <xmin>339</xmin>

									            <ymin>103</ymin>

									            <xmax>398</xmax>

									            <ymax>173</ymax>

									        </bndbox>

									    </object>

									    <object>

									        <name>bad_part</name>

									        <pose>Unspecified</pose>

									        <truncated>0</truncated>

									        <difficult>0</difficult>

									        <bndbox>

									            <xmin>265</xmin>

									            <ymin>15</ymin>

									            <xmax>364</xmax>

									            <ymax>74</ymax>

									        </bndbox>

									    </object>

									    <object>

									        <name>bad_part</name>

									        <pose>Unspecified</pose>

									        <truncated>0</truncated>

									        <difficult>0</difficult>

									        <bndbox>

									            <xmin>118</xmin>

									            <ymin>33</ymin>

									            <xmax>195</xmax>

									            <ymax>52</ymax>

									        </bndbox>

									    </object>

									    <object>

									        <name>bad_part</name>

									        <pose>Unspecified</pose>

									        <truncated>0</truncated>

									        <difficult>0</difficult>

									        <bndbox>

									            <xmin>113</xmin>

									            <ymin>103</ymin>

									            <xmax>177</xmax>

									            <ymax>147</ymax>

									        </bndbox>

									    </object>

									    <object>

									        <name>bad_part</name>

									        <pose>Unspecified</pose>

									        <truncated>0</truncated>

									        <difficult>0</difficult>

									        <bndbox>

									            <xmin>224</xmin>

									            <ymin>298</ymin>

									            <xmax>287</xmax>

									            <ymax>326</ymax>

									        </bndbox>

									    </object>

									</annotation>

代码思想

获取到标签文件路径和图片文件路径；
遍历图片文件夹获取到图片，并分割文件名；
根据图片的文件名加后缀xml得到具体的标签文件；
通过xml.etree.ElementTree读取xml文件；
遍历所有的目标框，获取到[]；
通过cv2裁剪目标(先高后宽参考文章:http://www.tuohang.net/article/240346.html中的第二中裁剪方法)；
将裁剪好的图片保存到指定文件目录。

完整代码

				?

									'''

									根据xml标签裁剪目标

									1.文件夹中可以有除了图片格式或标签格式的文件，有判断可以忽略其他文件

									2.图片未标注没有对应的xml文件自动忽略不会报错

									3.同一个图片有多个真实框，会按名称_0,名称_1 …… 排列

									4.图片本身的命名无规律会按3中的命名规则加上名称后缀重新命名。

									'''

									import cv2

									import xml.etree.ElementTree as ET

									import os 

									img_path = r'E:/JPEGImages' #图片路径

									xml_path = r'E:/Annotations' #标签路径

									obj_img_path = r'E:/cut'   #目标裁剪图片存放路径

									for img_file in os.listdir(img_path):    #遍历图片文件夹

									    if img_file[-4:] in ['.bmp', '.jpg','.png']:    #判断文件是否为图片格式

									        img_filename = os.path.join(img_path, img_file)  #将图片路径与图片名进行拼接

									        img_cv = cv2.imread(img_filename)  #读取图片

									        img_name = (os.path.splitext(img_file)[0])  #分割出图片名，如“000.png” 图片名为“000”

									        xml_name = xml_path + '\\' + '%s.xml'%img_name  #利用标签路径、图片名、xml后缀拼接出完整的标签路径名

									        if os.path.exists(xml_name):  #判断与图片同名的标签是否存在，因为图片不一定每张都打标

									            root = ET.parse(xml_name).getroot() #利用ET读取xml文件

									            count = 0 #目标框个数统计，防止目标文件覆盖

									            for obj in root.iter('object'):  #遍历所有目标框

									                name = obj.find('name').text   #获取目标框名称，即label名

									                xmlbox = obj.find('bndbox')   #找到框目标

									                x0 = xmlbox.find('xmin').text  #将框目标的四个顶点坐标取出

									                y0 = xmlbox.find('ymin').text

									                x1 = xmlbox.find('xmax').text

									                y1 = xmlbox.find('ymax').text

									                obj_img = img_cv[int(y0):int(y1), int(x0):int(x1)]  #cv2裁剪出目标框中的图片

									                cv2.imwrite(obj_img_path + '\\' + '%s_%s'%(img_name, count) + '.jpg', obj_img)  #保存裁剪图片

									                count += 1 #目标框统计值自增1

									print("裁剪完成！")