啊啊啊啊啊吖

2018-11-21   阅读量: 2087

数据分析师 R语言 数据挖掘

R实现缺失值和异常值检测

扫码加入数据分析学习群

##设置工作空间

#把“数据及程序” 文件夹复制到F盘下, 再用setwd设置工作空间

setwd("F: /数据及程序/chapter3/示例程序")

#读入数据

saledata=read.csv(file="./data/catering_sale.csv", header=TRUE)

#缺失值检测并打印结果, 由于R把TRUE和FALSE分别当作1、 0, 可以用sum() 和mean() 函数来分别获取缺失

sum(complete.cases(saledata) )

sum(! complete.cases(saledata) )

mean(! complete.cases(saledata) )

saledata[! complete.cases(saledata) , ] #异常值检测箱形图

sp=boxplot(saledata$"销量", boxwex=0.7)

title("销量异常值检测箱形图")

xi=1.1

sd.s=sd(saledata[complete.cases(saledata) , ] $"销量")

mn.s=mean(saledata[complete.cases(saledata) , ] $"销量")

points(xi, mn.s, col="red", pch=18)

arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1

text(rep(c(1.05, 0.95) , length(sp$out) /2) , sp$out, sp$out, col="red")

运行上面的程序, 可以看到缺失值个数输出结果为“1”, 占样本总量的

0.497%, 缺失值位于第15行, 2015年2月14日销量缺失。

形图的程序

37.5000 1 2 关注作者 收藏

评论(1)

学无止境
2018-11-22
很实用
0.0000 0 0 回复

推荐课程

推荐帖子