版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/luyaran/article/details/82767497
XML是万维网上使用标准ASCII文本,内部网和其他地方共享文件格式和数据的文件格式,它代表可扩展标记语言(XML)。 与HTML类似,它包含标记标签,但与标记标签描述页面结构的HTML不同,标记标签描述了文件中包含的数据的含义。在R中,我们可以使用“XML”包读取R中的xml文件。
我们接下来通过将以下数据复制到文本编辑器(如记事本)中来创建XMl文件,并且使用.xml
扩展名保存文件,并将文件类型选为所有文件(*.*
),内容如下:
<RECORDS>
<EMPLOYEE>
<ID>1</ID>
<NAME>Rick</NAME>
<SALARY>623.3</SALARY>
<STARTDATE>1/1/2012</STARTDATE>
<DEPT>IT</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>2</ID>
<NAME>Dan</NAME>
<SALARY>515.2</SALARY>
<STARTDATE>9/23/2013</STARTDATE>
<DEPT>Operations</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>3</ID>
<NAME>Michelle</NAME>
<SALARY>611</SALARY>
<STARTDATE>11/15/2014</STARTDATE>
<DEPT>IT</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>4</ID>
<NAME>Ryan</NAME>
<SALARY>729</SALARY>
<STARTDATE>5/11/2014</STARTDATE>
<DEPT>HR</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>5</ID>
<NAME>Gary</NAME>
<SALARY>843.25</SALARY>
<STARTDATE>3/27/2015</STARTDATE>
<DEPT>Finance</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>6</ID>
<NAME>Nina</NAME>
<SALARY>578</SALARY>
<STARTDATE>5/21/2013</STARTDATE>
<DEPT>IT</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>7</ID>
<NAME>Simon</NAME>
<SALARY>632.8</SALARY>
<STARTDATE>7/30/2013</STARTDATE>
<DEPT>Operations</DEPT>
</EMPLOYEE>
<EMPLOYEE>
<ID>8</ID>
<NAME>Guru</NAME>
<SALARY>722.5</SALARY>
<STARTDATE>6/17/2014</STARTDATE>
<DEPT>Finance</DEPT>
</EMPLOYEE>
</RECORDS>
在R中,使用xmlParse()
函数来读取xml
文件,它作为列表存储在R中,如下:
# Load the package required to read XML files.
library("XML")
# Also load the other required package.
library("methods")
# Give the input file name to the function.
result <- xmlParse(file = "input.xml")
# Print the result.
print(result)
接下来,我们再看下对XML数据的处理,如下:
library("XML")
library("methods")
#获取XML文件中存在的节点数
result <- xmlParse(file = "input.xml")
rootnode <- xmlRoot(result)
rootsize <- xmlSize(rootnode)
print(rootsize)
#第一个节点的详细信息
print(rootnode[1])
#获取节点的其它元素
# Get the first element of the first node.
print(rootnode[[1]][[1]])
# Get the fifth element of the first node.
print(rootnode[[1]][[5]])
# Get the second element of the third node.
print(rootnode[[3]][[2]])
#XML转到数据帧
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)
通过最后一个实例,我们可以把数据转为数据帧,所以我们可以使用数据帧相关函数来读取和操作文件。
好啦,本次记录就到这里了。
如果感觉不错的话,请多多点赞支持哦。。。