渊源

2009由Matei Zaharia创立了spark大数据处理和计算框架,基于内存,用scala编写

 

1 部署

需要软件包

Jdk 因为运行环境为jvm

Python2.7

Scala2.10.4

Spark1.0.1

Hadoop stable version 如果搭建yarn的spark,需要部署yarn版本的hadoop 

配置依赖

org.apache.spark  spark-core_2.10 1.0.1

.org.apache.hadoop hadoop-client 

 

2核心概念

RDD 只读可分区的分布式数据集

3 变量配置

SPARK_HOME  

PATH新增spark配置,PATH=$SPARK_HOME/bin:$PATH

spark/spark/conf/spark-env.sh

HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH

 log4j.properties设置控制台日志级别,设置第三方日志级别,设置sparksql相关配置

 4 启动集群

spark/spark/sbin/start-all.sh

扩展

华为FusionInsight大数据平台

YARN 即Hadoop 2  ,他是一个与hadoop关联的集群计算和资源调度框架。

HBase

Kerberos认证

Sparksql 提供了类sql查询,返回spark-dataframe的数据结构

 

内容来源于网络如有侵权请私信删除
你还没有登录,请先登录注册
  • 还没有人评论,欢迎说说您的想法!

相关课程