IT学院

27

12月

RDD介绍

（本人初次接触spark可能有些地方理解的不够到位，希望各位读者多多指正，对于不恰当的地方也会进行改进） 1、RDD定义：是弹性分布式数据集，是分布到各个节点的数据集合，具有自动容错性、位置感知调度和可伸缩性等。 2、RDD的特性： 2.1 分区（partition）分区是RDD的基本组成单位（

27

12月

大数据

HDFS Federation

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有两个主要的层： Namespace 由目录、文

27

12月

大数据

Python连接presto

如果要使用Python来连接Presto，就需要相关的驱动包。目前发现有两个驱动包，分别是： pyhive : https://github.com/dropbox/PyHive presto-python-client : https://github.com/prestodb/presto-p

27

12月

大数据

MapReduce多种join实现实例分析（二）

上一篇《MapReduce多种join实现实例分析（一）》，大家可以点击回顾该篇文章。本文是MapReduce系列第二篇。一、在Map端进行连接使用场景：一张表十分小、一张表很大。用法:在提交作业的时候先将小表文件放到该作业的DistributedCache中，然后从DistributeCache

27

12月

大数据

Hive Getting Started补充

配置管理概述 Hive从<install-dir>/conf/hive-default.xml中读取它的默认配置 Hive配置目录的位置可以通过设置HIVE_CONF_DIR环境变量的值来改变配置变量可以被改变，通过<install-dir>/

27

12月

大数据

一、 kettle开发、上线常见问题以及防错规范步骤

此篇说明对应的kettle版本是6.1，实际使用时7.x应该也是一样的。一、 kettle开发流程（规范步骤，防止出错） (一) Kettle设置检查资源库连接如果不加一下配置项，数据转换后中文会出现乱码，很难处理。本地连接资源库：配置项 defaultFetch

27

12月

大数据

深度学习在文本分类中的应用

近期阅读了一些深度学习在文本分类中的应用相关论文（论文笔记)，同时也参加了CCF 大数据与计算智能大赛（BDCI）2017的一个文本分类问题的比赛：让AI当法官，并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此，本文总结了文本分类相关的深度学习模型、优化思路以

27

12月

大数据

2017双11海量数据下EagleEye的使命和挑战

摘要： EagleEye作为阿里集团老牌的链路跟踪系统，其自身业务虽不在交易链路上，但却监控着全集团的链路状态，特别是在中间件的远程调用上，覆盖了集团绝大部分的场景，在问题排查和定位上发挥着巨大的作用，保障了各个系统的稳定性，为整个技术团队打赢这场战役保驾护航。背景双十一一直是阿里巴巴集团每年要

27

12月

大数据

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解

目录引言目录一、环境选择1，集群机器安装图 2，配置说明 3，下载地址二、集群的相关配置1，主机名更改以及主机和IP做相关映射 2，ssh免登录 3，防火墙关闭 4，时间配置 5，快捷键设置(可选) 6，整体环境变量设置二、Hadoop的环境搭建1，JDK配置 2，hadoop配置 3

27

12月

大数据

YARN

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html Apache Hadoop YARN YARN的主要功能包括：资源管理和任务调度及监控，它们各自都是独立的守护进程。要实现这个

27

12月

大数据

HBase简介

参考 http://hbase.apache.org/book.html#_architecture Architecture 65. Overview 65.1. NoSQL? HBase是一种"NoSQL"数据库。“NoSQL”一般指的是非关系型数据库，

27

12月

大数据

物品推荐（基于物品的协同过滤算法）

用户对物品的评分矩阵 × 物品相似矩阵 = 推荐列表构建物品相似度矩阵的时候可以通过计算两个物品的余弦相似度得出，于是需要构建每个物品在所有用户中的评分矩阵本例中，不采用余弦相似度的方式计算物品与物品相似度

27

12月

大数据

HBase数据模型

上次我们讲过了《HBase简介》，点击阅读有助于更好地理解本文。本文讲述的是HBase数据模型。 1、ROW KEY 决定一行数据按照字典顺序排序的。Row key只能存储64k的字节数据2、Column Family列族 & qualifier列 HBase表中的每个列都归属于某个列族，列

27

12月

大数据

时空大数据的内容

智慧城市时空大数据与云平台建设技术大纲（2017年8月版）

27

12月

大数据

Hadoop 之 Sqoop 安装配置与示例

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop是为大数据集设计的。Sqoop支持增量更新，将新记

27

12月

大数据

大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法

前言在搭建大数据Hadoop相关的环境时候，遇到很多了很多错误。我是个喜欢做笔记的人，这些错误基本都记载，并且将解决办法也写上了。因此写成博客，希望能够帮助那些搭建大数据环境的人解决问题。说明: 遇到的问题以及相应的解决办法是对于个人当时的环境，具体因人而异。如果碰到同样的问题，本博客的方法无法

27

12月

大数据

整理大数据期末考试复习提纲--概念整理

大数据简介大数据的概念 Volume(数据容量)、Variety(数据类型)、Viscosity(价值密度)、Velocity(速度)、Veracity(真实性) 大数据的性质非结构性、不完备性、时效性、安全性、可靠性大数据处理的全过程

27

12月

大数据

Hive使用与安装步骤

1.Hive安装与配置 Hive官网：https://hive.apache.org/ 1. 安装文件下载从Apache官网下载安装文件 http://mirror.bit.edu.cn/apache/hive/ （apache-hive-2.3.2-bin.tar.gz）还有我选择mys

27

12月

大数据

Spark基础

Spark基础 Spark是一种快速.通用.可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架,提高在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性. 为什么要学习spark--中间结果输出 Spark特点 ① 快--基于内存的运算 ② 易用--支持java,python和Sc

27

12月

大数据

2017年中国大数据发展趋势和展望解读(上)

导读：2015年8月，国务院印发《促进大数据发展行动纲要》，首次明确提出建设数据强国；2015年10月，党的十八届五中全会提出“实施国家大数据战略”，将大数据上升为国家战略。其后，国家政府部门、科技研究院、互联网大企业、传统工业企业等不断发布战略蓝皮书，对未来进行规划布局。神奇的大数据现

热门标签

推荐文章