渊源
2009由Matei Zaharia创立了spark大数据处理和计算框架,基于内存,用scala编写
1 部署
需要软件包
Jdk 因为运行环境为jvm
Python2.7
Scala2.10.4
Spark1.0.1
Hadoop stable version 如果搭建yarn的spark,需要部署yarn版本的hadoop
配置依赖
org.apache.spark spark-core_2.10 1.0.1
.org.apache.hadoop hadoop-client
2核心概念
RDD 只读可分区的分布式数据集
3 变量配置
SPARK_HOME
PATH新增spark配置,PATH=$SPARK_HOME/bin:$PATH
spark/spark/conf/spark-env.sh
HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH
log4j.properties设置控制台日志级别,设置第三方日志级别,设置sparksql相关配置
4 启动集群
spark/spark/sbin/start-all.sh
扩展
华为FusionInsight大数据平台
YARN 即Hadoop 2 ,他是一个与hadoop关联的集群计算和资源调度框架。
HBase
Kerberos认证
Sparksql 提供了类sql查询,返回spark-dataframe的数据结构
- 还没有人评论,欢迎说说您的想法!