使用cbind()函数连接多个向量来创建数据帧。此外,使用rbind()函数合并两个数据帧
使用merge()函数合并两个数据帧。数据帧必须具有相同的列名称,在其上进行合并
melt()拆分数据和cast()数据重构
连接字符串
查看默认安装包的位置
.libPaths()
移除包
remove.packages("package_name")
查看所有安装的包
library()
按 q 退出
一套完整的数据分析流程 , 如下图所示
从图中可以看到,整个流程包括读取数据,整洁数据,数据探索和交流部分。经过前两部分, 我们可以得到一个整理好的数据,它的每一行都是一个样本 , 每一列是一个变量。
然后我们就可以进入最核心的数据探索部分。
获取帮助文档,查看命令或函数的使用方法、事例或适用范围
> ?command
> ??command #深度搜索或模糊搜索用此命令
> example(command) #得到命令的例子
条形图
在R语言中创建条形图的基本语法是
barplot(H, xlab, ylab, main, names.arg, col)
H是包含在条形图中使用的数值的向量或矩阵
xlab是x轴的标签
ylab是y轴的标签
main是
<13: Simulation>
> sample(1:6,4,replace=TRUE)
[1] 4 5 2 6
在1-6的整数中随机生成4个整数,且数字可以重复,即每个数字均可重复选择;
>sample(LETTERS)
随机生成26个英文字母
>sample(c(
swirl安装课程命令:install_from_swirl("Data_Analysis")
<2:workspace and files>1.getwd():显示当前工作空间路径;例子:old.dir <- getwd()将当前工作路径赋给old.dir变量;2.ls():列出
数据输入与输出
数据输入
数据编辑R语言中编辑本地数据,使用edit()或者fix()函数
本地导入
导入文本stringsAsFactors:在导入时默认是将文本转化成因子,在输入文本时注意设置stringsAsFactors=F。
导入txt:read.table(...)
导入csv:rea
主要步骤
ggplot2
数据处理成矩阵形式,给行名列名
hclust聚类,改变矩阵行列顺序为聚类后的顺序
melt数据,处理成ggplot2能够直接处理的数据结构,并加上列名
ggplot_tile进行画图
gplots
数据处理成矩阵形式,给行名列名
调制颜色并用heatmap.2画热图(hea
zoo是时间序列的基础库,是面向通用的设计。 xts 是对时间序列库(zoo) 的一种扩展实现。xts 类型继承了zoo 类型,丰富了时间序列数据处理的函数。
一、xts对象的结构和定义
1、xts对象是一个具有时间索引的观测值矩阵,结构如下:
xts = matrix + times
2、创建
确保目录结构存在。每次创建文件,确保父目录已经存在。确保指定路径全部或部分目录已经存在。创建沿指定路径上不存在目录。
下载函数,如果文件名未指定,从URL解析。下载文件,返回本地文件系统文件名。如果文件存在,不下载。如果文件未指定,从URL解析,返回filepath 。实际下载前,检查下载位置是否有
1.字符处理函数:paste()
需求:将字符向量中的字符串,用逗号隔开,合并为一句话。
> ##字符向量
> ls_1
[1] "天津" "上海" "安徽" "福建" "四川" "重庆" "陕西" "青海" "新疆"
> ##用逗号隔开字符串,并合并为一句话
> pas
Coursera上数据分析实例 --R语言如何对垃圾邮件进行分类
Structure of a Data Analysis
数据分析的步骤
l Define the question
l Define the ideal data set
l Determine what data you
1.ifelse语句返回值的特殊性
正常的ifelse语句格式为ifelse(判断条件,TRUE时执行,FALSE时执行)
学过编程语言的人不难理解,但在R中容易被误导。今天我遇到了一个情况。需求是判断一个字符向量的长度,如果大于0,返回向量所有内容,否则输出"没有"两个字。结果却只输出了1个
时间序列分析算法【R详解】 https://www.analyticsvidhya.com/blog/2015/12/complete-tutorial-time-series-modeling/ http://www.cnblogs.com/ECJTUACM-873284962/p/691703
本教程会讲解两种方法,第一种方法较为简单,且中文不容易出现乱码。第二种方法,较为复杂,和java的jdbc连接数据库操作类似。
操作环境:
系统:windows10 64位
数据库:Oracle11g 用户名:testuser
案例用表:emp
R语言版本:3.4.0 64位
RStu
当我们想研究不同sample的某个变量A之间的差异时,往往会因为其它一些变量B对该变量的固有影响,而影响不同sample变量A的比较,这个时候需要对sample变量A进行标准化之后才能进行比较。标准化的方法是对sample 的 A变量和B变量进行loess回归,拟合变量A关于变量B的函数 f(b
准备工作:
1.案例所用的表“test1.csv”
2.所用到的R包"ggplot2"、"lubridate"
ggplot2介绍:用来作图
lubridate介绍:用来提取日期中月份元素
实战部分开始
案例一目的:根据“开始时间”字段统计“类型”的业务量
> test<-rea
dplyr专注处理dataframe对象, 并提供更稳健的与其它数据库对象间的接口。
一、5个关键的数据处理函数:
select() 返回列的子集
filter() 返回行的子集
arrange() 根据一个或多个变量对行排序。
mutate() 使用已有数据创建新的列
summar
目的:将已有的业务表(csv格式),导入到Rstudio中。根据“开始时间”,按月份统计出业务量。画出下图。(注:我选择的业务表中只有1、2、3月的数据)
开始吧!!!
1.加载csv格式的数据表,并查看字段名:
##加载数据
khsx <-read.csv("khsx.csv",he