对多个xml文档遍历,进行数据分析

目录

1.什么是xml文档?

2.提取xml文档的信息

3.遍历多个xml文档,并进行数据分析


1.什么是xml文档?

请看如下截图,xml文档的一般格式:

​​

如果还想深入了解xml文件,可以参考详细博客,链接如下:

https://blog.csdn.net/com_ma/article/details/73277535

2.提取xml文档的信息

python和java都有对应处理xml文档的库,我们只要熟悉需要使用到的方法即可。举例如下:图一中import xml.dom.minidom是调用的处理xml文档的库,图二则展示了其中的一些方法。

3.遍历多个xml文档,并进行数据分析

详细代码与解析如下(根据个人需要而编写,所以不能照搬照抄,仅供参考)

#coding=utf-8
import xml.dom.minidom
import os
import sys
​
rootdir='G:/Datasets/rider_voc_aug/Annotations'#存有xml文件的文件夹的绝对路径
list=os.listdir(rootdir)#列出文件夹下所有的目录与文件
​
classes_list=[]
classes_count_imag=[1,1,1,1,1,1,1]#统计含有各个目标的图片数
classes_count_object=[1,1,1,1,1,1,1]#统计各个目标的总数
​
for i in range(0,len(list)):
    path=os.path.join(rootdir,list[i])
    if os.path.isfile(path):
        #用于区分imag和object
        flag=[0,0,0,0,0,0,0]
        #打开xml文档
        dom=xml.dom.minidom.parse(path)
        #得到文档元素对象
        root=dom.documentElement
        cc=dom.getElementsByTagName('name')
       
        for i in range(len(cc)):
            c1=cc[i]
            #如果是新的目标则将其加入classes_list数组中
            if classes_list.count(c1.firstChild.data)==0:
                classes_list.append(c1.firstChild.data)
                
            #统计imag和object的个数
            else:
                for j in range(0,len(classes_list)):
                    if(classes_list[j]==c1.firstChild.data):
                        if(flag[j]==0):
                            classes_count_imag[j]+=1
                            flag[j]=1
                        classes_count_object[j]+=1
​
#print(classes_list)
#print(len(classes_list))
for i in range(len(classes_list)):
    print("目标%20s   imga:%10d个  object:%10d个"%(classes_list[i],classes_count_imag[i],classes_count_object[i]))

猜你喜欢

转载自blog.csdn.net/dingkm666/article/details/85227923