16--complete.cases( )
complete.case()可以判断对象中是否数据完全,然后返回TRUE, FALSE
这一函数在去除数据框中缺失值时很有用。
> d
kids ages
1 Jack 12
2 Jill NA
> complete.cases(
sort()
sort()函数直接对函数进行排序,并返回排序结果。
> a <- c(12,4,6,5)
> sort(a)
[1] 4 5 6 12
rank()
rank()函数返回对应元素在排序后的次序。
> rank(a)
[1] 4 1 3 2
order()
List
R语言中各组件的名称叫做标签(tags),访问列表有3种方法:
j$salary 通过标签名字访问,只要不引起歧义,可以只写出前几个字母。
j[['sal']] 夹在两个中括号时引号里的标签名字要写全。
j[[2]] 亦可以通过在列表中的位置访问。
这三种方法得到的都是对应组件内容的类型。
11--which.min(), which.max()和which()
which(x, arr.ind = FALSE, useNames = TRUE)
x 是一个向量或者数组,可以是NA,但会省略掉,相当于FALSE。
arr.ind = FALSE 当x是数组时,是否返回数组索引(arr.
apply()
apply(m,dimcode,f,fargs)
m 是一个矩阵。
dimcode是维度编号,取1则为对行应用函数,取2则为对列运用函数。
f是函数
fargs是f的可选参数集
> z <- matrix(1:6, nrow = 3)
> f <- funct
1--c()
c表示”连接“(concatenate)。
在R中向量是连续存储的,因此不能插入或删除元素。
2--seq()
seq()的特殊用法,可以用在for循环里for(i in seq())
> x <- c(2,3,4,5,7,3)
> seq(x)
[1] 1 2 3
类
大多数R对象都是基于S3类(来源于第三代S语言),例如直方图函数hist()输出是一个包含多个组件的列表,它还有一个属性(attribute),用来指定列表的类,即histogram类。
泛型函数
类用在泛型函数中,泛型函数是一个函数族,其中的每个函数都有相似的功能,但是适用于某个特定的类。比如
ggplot2是用于绘图的R语言扩展包。图形组件通过“+”符号, 以图层(layer)的方式来完成图形语法叠加,构成最终的绘图, 每个图层中的图形组件可以分别设定数据、映射或其他相关参数, 因此组件之间具有相对独立性的,可以单独对图层进行修改。
一、ggplot2基本语法
元素
描述
Data
首先把测试数据存储到文件中方便调用。数据矩阵存储在line_data.xls和line_data_melt.xls文件中 (直接拷贝到文件中也可以,这里这么操作只是为了随文章提供个测试文件,方便使用。如果你手上有自己的数据,也可以拿来用)。
profile = "P
箱线图
箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具。就这样都可以发两篇Nature method,没天理,但也说明了箱线图的重要意义。
&
线图是反映趋势变化的一种方式,其输入数据一般也是一个矩阵。
单线图
假设有这么一个矩阵,第一列为转录起始位点及其上下游5 kb的区域,第二列为H3K27ac修饰在这些区域的丰度,想绘制一张线图展示。
profile="Pos;H3K27ac
实际应用中,异常值的出现会毁掉一张热图。这通常不是我们想要的。为了更好的可视化效果,需要对数据做些预处理,主要有对数转换,Z-score转换,抹去异常值,非线性颜色等方式。
对数转换
为了方便描述,假设下面的数据是基因表达数据,4个基因 (a, b, c, d)和5个样品 (Gr
绘制热图除了使用ggplot2,还可以有其它的包或函数,比如pheatmap::pheatmap (pheatmap包中的pheatmap函数)、gplots::heatmap.2等。
相比于ggplot2作heatmap, pheatmap会更为简单一些,一个函数设置不同的
# 数据产生
# rnorm(n, mean = 0, sd = 1) 正态分布的随机数(r 代表随机,可以替换成dnorm, pnorm, qnorm 作不同计算。r= random = 随机, d= density = 密度, p= probability =
生成测试数据
绘图首先需要数据。通过生成一堆的向量,转换为矩阵,得到想要的数据。
data <- c(1:6, 6:1, 6:1, 1:6, (6:1)/10, (1:6)/10, (1:6)/10, (6:1)/10, 1:6, 6:1, 6:1,
字符串连接函数paste
1、字符串连接:paste(..., sep = " ", collapse = NULL)sep表示分隔符,默认为空格。collapse表示如果不指定值,那么函数paste的返回值是自变量之间通过sep指定的分隔符连接后得到的一个字符型向量;如果为其指定了特定的
绘制Alpha多样性线箱图
绘图和统计全部为R语言,建议复制代码,在Rstuido中运行,并设置工作目录为存储之前分析结果文件的result目录
# 运行前,请在Rstudio中菜单栏选择“Session - Set work directory -- C
线性、逻辑回归。input_fn()建立简单两个特征列数据,用特证列API建立特征列。特征列传入LinearClassifier建立逻辑回归分类器,fit()、evaluate()函数,get_variable_names()得到所有模型变量名称。可以使用自定义优化函数,tf.train.FtrlO
强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题。强化学习问题三概念,环境状态(Environment State)、行动(Action)、奖励(Reward),目标获得最多累计奖励。强化学习模型根据环境状态、行动和奖励,学习出最佳策略,以最终结果为目标,不
---恢复内容开始---
题目要求:
数据处理第二阶段任务(必须全部用R代码实现)1.数据清洗2.获取每天的血糖日均值3.根据数据文件,选择其中的任意三天,获取在哪些时段三天都会出现高血糖的状况(按照血糖值超出9来算)
R代码:
1 getwd();
2 setwd("F:/R/myfile"