Spark

643 0 0

作者:wuzixihe

渊源

2009由Matei Zaharia创立了spark大数据处理和计算框架，基于内存，用scala编写

1 部署

需要软件包

Jdk 因为运行环境为jvm

Python2.7

Scala2.10.4

Spark1.0.1

Hadoop stable version 如果搭建yarn的spark，需要部署yarn版本的hadoop

配置依赖

org.apache.spark spark-core_2.10 1.0.1

.org.apache.hadoop hadoop-client

2核心概念

RDD 只读可分区的分布式数据集

3 变量配置

SPARK_HOME

PATH新增spark配置，PATH=$SPARK_HOME/bin:$PATH

spark/spark/conf/spark-env.sh

HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH

log4j.properties设置控制台日志级别，设置第三方日志级别，设置sparksql相关配置

4 启动集群

spark/spark/sbin/start-all.sh

扩展

华为FusionInsight大数据平台

YARN 即Hadoop 2 ，他是一个与hadoop关联的集群计算和资源调度框架。

HBase

Kerberos认证

Sparksql 提供了类sql查询，返回spark-dataframe的数据结构

内容来源于网络如有侵权请私信删除

标签： java java8 java开发

你还没有登录，请先登录或注册！