箱线图
箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具。就这样都可以发两篇Nature method,没天理,但也说明了箱线图的重要意义。
&
首先把测试数据存储到文件中方便调用。数据矩阵存储在line_data.xls和line_data_melt.xls文件中 (直接拷贝到文件中也可以,这里这么操作只是为了随文章提供个测试文件,方便使用。如果你手上有自己的数据,也可以拿来用)。
profile = "P
ggplot2是用于绘图的R语言扩展包。图形组件通过“+”符号, 以图层(layer)的方式来完成图形语法叠加,构成最终的绘图, 每个图层中的图形组件可以分别设定数据、映射或其他相关参数, 因此组件之间具有相对独立性的,可以单独对图层进行修改。
一、ggplot2基本语法
元素
描述
Data
类
大多数R对象都是基于S3类(来源于第三代S语言),例如直方图函数hist()输出是一个包含多个组件的列表,它还有一个属性(attribute),用来指定列表的类,即histogram类。
泛型函数
类用在泛型函数中,泛型函数是一个函数族,其中的每个函数都有相似的功能,但是适用于某个特定的类。比如
1--c()
c表示”连接“(concatenate)。
在R中向量是连续存储的,因此不能插入或删除元素。
2--seq()
seq()的特殊用法,可以用在for循环里for(i in seq())
> x <- c(2,3,4,5,7,3)
> seq(x)
[1] 1 2 3
apply()
apply(m,dimcode,f,fargs)
m 是一个矩阵。
dimcode是维度编号,取1则为对行应用函数,取2则为对列运用函数。
f是函数
fargs是f的可选参数集
> z <- matrix(1:6, nrow = 3)
> f <- funct
11--which.min(), which.max()和which()
which(x, arr.ind = FALSE, useNames = TRUE)
x 是一个向量或者数组,可以是NA,但会省略掉,相当于FALSE。
arr.ind = FALSE 当x是数组时,是否返回数组索引(arr.
List
R语言中各组件的名称叫做标签(tags),访问列表有3种方法:
j$salary 通过标签名字访问,只要不引起歧义,可以只写出前几个字母。
j[['sal']] 夹在两个中括号时引号里的标签名字要写全。
j[[2]] 亦可以通过在列表中的位置访问。
这三种方法得到的都是对应组件内容的类型。
sort()
sort()函数直接对函数进行排序,并返回排序结果。
> a <- c(12,4,6,5)
> sort(a)
[1] 4 5 6 12
rank()
rank()函数返回对应元素在排序后的次序。
> rank(a)
[1] 4 1 3 2
order()
16--complete.cases( )
complete.case()可以判断对象中是否数据完全,然后返回TRUE, FALSE
这一函数在去除数据框中缺失值时很有用。
> d
kids ages
1 Jack 12
2 Jill NA
> complete.cases(
fivenum()
fivenum(x, na.rm = TRUE)
x 为数值型向量,可以包含NA以及Inf,-Inf
na.rm = TRUE 默认将NA和NaN去除,但是Inf还保留。
fivenum()函数返回5个值:最大值最小值中位数以及 lower-hinge, upper-hinge。
21--assign()
assign函数可以通过变量名的字符串来赋值
> assign('a', 1:3)
> a
[1] 1 2 3
> b <- c('a')
> assign(b, 1:5)
> b
[1] "a"
> a
[1] 1 2 3 4 5
26--aggregate( )
函数aggregate()对分组中的每一个变量调用tapply()函数。
aggregate(a,list,f)
第二个参数必须是列表。也就是因子部分。
第三个参数即函数 f 并不是面向数据框
> aggregate(iris[, -5], list(iris
例1:y'=ry(1-y/K)
y(0)=2
对应的R代码为:
library(deSolve)#parameters and initial valuesr<-1K<-10yini<-2#the function derivs<-function(t,y
31--round(),floor()和ceiling()
round()四舍五入取整
floor()向下取整
ceiling()向上取整
> round(3.5)
[1] 4
> floor(3.5)
[1] 3
> ceiling(3.5)
[1] 4
32--factoria
36--diag()
如果它的参数是一个矩阵,它返回的是一个向量
如果它的参数是一个向量,它返回的是一个向量
如果它的参数是一个标量,它返回的是指定大小的单位矩阵
> diag(2)
[,1] [,2]
[1,] 1 0
[2,] 0 1
> diag(
41--ls( )
ls()可以用来列出现存的所有对象。
pattern是一个具名参数,可以列出所有名称中含有字符串“s”的对象。
> ls()
[1] "s"
> ls(pattern = "a")
character(0)
> ls(pattern = "s")
[1] "s"
file.info() 参数是表示文件名称的字符串向量,函数会给出每个文件的大小、创建时间、是否为目录等信息。
> file.info("z.txt")
size isdir mode mtime
z.txt 15 FALSE 666 2017-0
方差分析(Analysis of Variance,简称ANOVA),又称“ 变异数分析”,是R.A.Fisher发明的,用于两个及两个以上 样本均数差别的 显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的
版权声明:本文为博主原创文章,转载请注明出处
机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西。
机器学习一般步骤
收集数据,将数据转化为适合分析的电子数据
探索和准备数据,机器学