SparkStreaming 连接Flume的两种方式分别为:Push(推)和Pull(拉)的方式实现,以Spark Streaming的角度来看,Push方式属于推送(由Flume向Spark推送数据);而Pull属于拉取(Spark 拉取 Flume的输出数据);  Flume向SparkSt
启动服务(gpfdist) 因为gpload是对gpfdist的封装,因此使用gpload之前必须开启gpfdist的服务,不然无法使用 gpfdist -d /home/admin -p 8181 -l /tmp/gpfdist.log & 编写gpload的yml文件 VERSI
一、Druid概述 1、Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。 与现在相对热门的Clickhouse引擎相比,
一、Azkaban概述 1、任务时序 在数据服务的业务场景中,很常见的业务流程就是日志文件经过大数据分析,再向业务输出结果数据;在该过程中会有很多任务需要执行,并且很难精准把握任务执行的结束时间,但是又希望整个任务链尽快结束释放资源。 大致执行顺序如下: 业务日志文件同步到HDFS文件系统; 经
一、同期群分析概念和理论 1 同期群分析方法介绍   同期群分析(CohortAnalysis)实际上是一种用户分群的细分类型,是一种“纵横”结合的分析方法: 横向上——分析同期群随着周期推移而发生的变化; 纵向上——分析在生命周期相同阶段的群组之间的差异。   “同期群”:同一时期的群体。可以是
Hadoop集群 第一章 详细虚拟机Linux安装配置 软件需求:VMware Workstation、Linux镜像文件(QQ群可下载) 一、硬件配置 ​ 1、打开虚拟机-->新建虚拟机-->自定义 ​ 2、默认 ​ 3、选择稍后安装操作系统 ​ 4、选择linux,版本号根
clickhouse 在数据分析技术领域早已声名远扬,如果还不知道可以 点这里 了解下。 最近由于项目需求使用到了 clickhouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试,记录一下测试结果,有做超大数据量分析技术选型需求的朋友可以参考下。 服务器信息 CPU:Int
本文源码:GitHub || GitEE 一、Sqoop概述 Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。 通常数据搬运的组件基本功能:导入与导出。 鉴于Sqoop是大数据
  NoSQL,泛指非关系型的数据库:“随着互联网web2.0网站的兴起,传统的关系数据库在处理web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,出现了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就
  图表的数据要素以及图例展示   主要图表类型包括: 线图:包括类别轴和值轴,类别轴上最少1个维度;值轴上最少1个度量     柱状图:包括类别轴和值轴,类别轴上最少1个维度;值轴上最少1个度量     饼图:包括扇区标签和扇区角度,扇区标签上有且仅有1个维度,并且维度值小于等于12;扇
    文本分析,在数据挖掘,甚至是深度学习中很重要的分支研究领域。如下运用R语言,通过采用文本相似度算法Jaro-Winkler Distance,能实现: 在题库中查找出相似度高的题并输出自动聚类的结果,从而提炼出练习重点,提高阅读效率。   ## 寻找练习重点 library('xlsx'
  关系型数据库,“是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是
        用多维数据库中的点,表示对业务的度量结果。在各种各样的市场销售产品,并不断对企业各类业务的表现进行度量。     术语汇总结合图       相关概念   事实(表示某个业务度量)表:用于度量 存储组织机构业务过程事件的性能度量结果;每一行数据是一个特定级别的细节数据 ;事实表的
  CD商品订单数据的分析总结。根据订单数据(用户的消费记录),从时间维度和用户维度,分析该网站用户的消费行为。通过此案例,总结订单数据的一些共性,能通过用户的消费记录挖掘出对业务有用的信息。对其他产品的线上消费数据分析有一定的借鉴价值,能达到举一反三的效果。订单交易数据分析目录一、案例背景二、案
目录Spark本地运行的几个实例代码(Java实现)实例一:词频数统计问题描述过程分析代码运行结果实例二:统计平均年龄问题描述过程分析代码运行结果案例三:统计身高最值问题描述过程分析代码运行结果案例四:统计单词频率问题描述过程分析代码运行结果一些总结:运行环境 Spark本地运行的几个实例代码(J
内容参考 对分布式对定义参考这篇文章: 微服务都想用,先把分布式和微服务之间的关系说清楚 对分布式架构中心或无中心对比参考这篇文章: 分布式存储单主、多主和无中心架构的特征与趋势 对HDFS对内部机制参考这篇文章: Hadoop分布式文件系统I/O原理机制的深度解读 分布式文件系统HDFS无索引就
视频地址:ELK和Kafka是怎么就玩在一起成了日志采集解决方案 视频文字版 今天呢我就带来了一期视频,主要就是讲ELK和Kafka之间的通讯关系通过对一张通讯图,和一些操作命令,让我们能更深入的去理解ELK在日志采集过程当中以及Kafka在消息队列分发过程当中,它们是如何进行配置使用的,以及它们