R语言数据去重 - 代码天地

R语言数据去重

其他 2021-04-05 16:42:01 阅读次数: 0

R语言数据列去重

unique对于一个向量管用，对于matrix、data frame那些指定列去重就不管用了

1、unique函数

查看重复的方式，有点像分类变量个数一样，unique() 或者 table() 都是很好的方式去检测。

> c
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
4 1 a 1
5 2 b 1
6 3 c 1
> unique(c)
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
> unique(c,fromLast = T)
  a b d
4 1 a 1
5 2 b 1
6 3 c 1

以上是根据你的数据得到的，R中默认的是fromLast=FALSE,即若样本点重复出现，则取首次出现的；

否则去最后一次出现的。列名不变，去掉重复样本值之后的行名位置仍为原先的行名位置。

2、duplicated函数

在数据框（data.frame）中应用较为广泛

> c[!duplicated(c)]
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
4 1 a 1
5 2 b 1
6 3 c 1
> c[!duplicated(c),] ###注意`,`
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
> c[!duplicated(c[3]),]
  a b d
1 1 a 1


#用法与is.na()对比
x[!is.na(x)]  #选中不是缺失值的数据

3、distinct（dplyr包）

distinct（data，列名，.keep_all=F）

## .keep_all默认FALSE
> distinct(c,d)
  d
1 1

> distinct(c,d,.keep_all = T)
  a b d
1 1 a 1

> distinct(c,a)
  a
1 1
2 2
3 3

4 引用

R语言︱数据去重

R语言去重复数据

猜你喜欢

转载自blog.csdn.net/LeaningR/article/details/115211219

R语言数据去重

R语言数据去重函数

R 数据去重

R语言预处理（去重去NA排序）

R 去重+计数

R语言去重操作unique duplicate filter

R语言的重编码

mysql数据去重

数据去重

js 数据去重

海量数据去重

HadoopMapReduce数据去重

oracle数据去重

Hadoop 数据去重

爬虫数据去重

线上数据去重

【项目】数据去重

MapReduce数据去重

List数据去重

数据筛选，去重

Oracle 数据去重

【pandas】数据去重

MongoDB数据去重

C语言数组去重

MySql数据查重、去重的实现

海量数据去重（上亿数据去重）

MR/hive 数据去重

数据库去重

数据表去重

大数据去重——位图

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)