(本人初次接触spark可能有些地方理解的不够到位,希望各位读者多多指正,对于不恰当的地方也会进行改进)
1、RDD定义:是弹性分布式数据集,是分布到各个节点的数据集合,具有自动容错性、位置感知调度和可伸缩性等。
2、RDD的特性:
2.1 分区(partition)
分区是RDD的基本组成单位(
http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html
Background
HDFS有两个主要的层:
Namespace
由目录、文
如果要使用Python来连接Presto,就需要相关的驱动包。
目前发现有两个驱动包,分别是:
pyhive : https://github.com/dropbox/PyHive
presto-python-client : https://github.com/prestodb/presto-p
上一篇《MapReduce多种join实现实例分析(一)》,大家可以点击回顾该篇文章。本文是MapReduce系列第二篇。
一、在Map端进行连接使用场景:一张表十分小、一张表很大。用法:在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeCache
配置管理概述
Hive从<install-dir>/conf/hive-default.xml中读取它的默认配置
Hive配置目录的位置可以通过设置HIVE_CONF_DIR环境变量的值来改变
配置变量可以被改变,通过<install-dir>/
此篇说明对应的kettle版本是6.1,实际使用时7.x应该也是一样的。
一、 kettle开发流程(规范步骤,防止出错)
(一) Kettle设置检查
资源库连接
如果不加一下配置项,数据转换后中文会出现乱码,很难处理。
本地连接资源库:配置项
defaultFetch
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此,本文总结了文本分类相关的深度学习模型、优化思路以
摘要: EagleEye作为阿里集团老牌的链路跟踪系统,其自身业务虽不在交易链路上,但却监控着全集团的链路状态,特别是在中间件的远程调用上,覆盖了集团绝大部分的场景,在问题排查和定位上发挥着巨大的作用,保障了各个系统的稳定性,为整个技术团队打赢这场战役保驾护航。
背景 双十一一直是阿里巴巴集团每年要
目录
引言
目录
一、环境选择1,集群机器安装图
2,配置说明
3,下载地址
二、集群的相关配置1,主机名更改以及主机和IP做相关映射
2,ssh免登录
3,防火墙关闭
4,时间配置
5,快捷键设置(可选)
6,整体环境变量设置
二、Hadoop的环境搭建1,JDK配置
2,hadoop配置
3
http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
Apache Hadoop YARN
YARN的主要功能包括:资源管理和任务调度及监控,它们各自都是独立的守护进程。要实现这个
参考 http://hbase.apache.org/book.html#_architecture
Architecture
65. Overview
65.1. NoSQL?
HBase是一种"NoSQL"数据库。“NoSQL”一般指的是非关系型数据库,
用户对物品的评分矩阵 × 物品相似矩阵 = 推荐列表
构建物品相似度矩阵的时候可以通过计算两个物品的余弦相似度得出,于是需要构建每个物品在所有用户中的评分矩阵
本例中,不采用余弦相似度的方式计算物品与物品相似度
上次我们讲过了《HBase简介》,点击阅读有助于更好地理解本文。本文讲述的是HBase数据模型。
1、ROW KEY
决定一行数据按照字典顺序排序的。Row key只能存储64k的字节数据2、Column Family列族 & qualifier列
HBase表中的每个列都归属于某个列族,列
智慧城市时空大数据与云平台建设技术大纲(2017年8月版)
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop是为大数据集设计的。Sqoop支持增量更新,将新记
前言
在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。
说明: 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异。如果碰到同样的问题,本博客的方法无法
大数据简介
大数据的概念
Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性)
大数据的性质
非结构性、不完备性、时效性、安全性、可靠性
大数据处理的全过程
1.Hive安装与配置
Hive官网:https://hive.apache.org/ 1. 安装文件下载 从Apache官网下载安装文件 http://mirror.bit.edu.cn/apache/hive/ (apache-hive-2.3.2-bin.tar.gz) 还有我选择mys
Spark基础
Spark是一种快速.通用.可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架,提高在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性.
为什么要学习spark--中间结果输出
Spark特点
① 快--基于内存的运算
② 易用--支持java,python和Sc
导读:2015年8月,国务院印发《促进大数据发展行动纲要》,首次明确提出建设数据强国;2015年10月,党的十八届五中全会提出“实施国家大数据战略”,将大数据上升为国家战略。其后,国家政府部门、科技研究院、互联网大企业、传统工业企业等不断发布战略蓝皮书,对未来进行规划布局。
神奇的大数据
现