集群规划 主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadooproot hadooproot hadooproot HDFS NameNodeDateNode DateNode S
日志分段切分条件 日志分段文件切分包含以下4个条件,满足其一即可: 当前日志分段文件的大小超过了broker端参数 log.segment.bytes 配置的值。log.segment.bytes参数的默认值为 1073741824,即1GB 当前日志分段中消息的最小时间戳与当前系统的时间戳的差值
Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? 1.什么是hive向量化模式
前言 本篇文章主要介绍的关于本人在使用MySql记录笔记的一些使用方法和经验,温馨提示,本文有点长,约1.5w字,几十张图片,建议收藏查看。 一、MySql安装 下载地址:https://dev.mysql.com/downloads/ 在安装MySql之前,查看是否以及安装过MySql,如果
前言 在上一篇 Kafka使用Java实现数据的生产和消费demo 中介绍如何简单的使用kafka进行数据传输。本篇则重点介绍kafka中的 consumer 消费者的讲解。 应用场景 在上一篇kafka的consumer消费者,我们使用的是自动提交offset下标。 但是offset下标自动提交
前言 在上一篇中讲述如何搭建kafka集群,本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候,还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 Kafka 有如下特性: 以时间复杂
前言 storm和kafka集群安装是没有必然联系的,我将这两个写在一起,是因为他们都是由zookeeper进行管理的,也都依赖于JDK的环境,为了不重复再写一遍配置,所以我将这两个写在一起。若只需一个,只需挑选自己选择的阅读即可。 这两者的依赖如下: Storm集群:JDK1.8 , Zooke
系统架构 主题topic和分区partition topic Kafka中存储数据的逻辑分类;你可以理解为数据库中“表”的概念;比如,将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic partition分区(提升kafka吞吐量) topic中数据的具体管理单元; 每个p
前言 本篇文章主要介绍的关于本人从刚工作到现在使用kafka的经验,内容非常多,包含了kafka的常用命令,在生产环境中遇到的一些场景处理,kafka的一些web工具推荐等等。由于kafka这块的记录以及经验是从我刚开始使用kafka,从2017年开始,可能里面有些内容过时,请见谅。温馨提醒,本文
前段时间,袋鼠云离线开发产品接到改造数据同步表单的需求。 一方面,数据同步模块的代码可读性和可维护性较差,导致在数据同步模块开发新功能和定位问题的效率很低。另一方面,整体规划上,希望在对接新的数据源时,可以不再关心表单渲染相关问题,从数据源中心新建数据源一直到数据源在数据同步模块的应用,全链路的表
基本概念 简介 Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统,现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性,许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。 总的来讲,
目录概述1.explain dependency的查询与使用2.借助explain dependency解决一些常见问题2.1.识别看似等价的SQL代码实际上是不等价的:2.2 通过explain dependency验证将过滤条件在不同位置的查询区别3.查看SQL操作涉及到的相关权限信息 概述
我很喜欢这种图谱、名册、字典类的数据库,像这种数据库还有《史前古生物资料图谱ACCESS数据库》、《中国鱼类资料图谱大全ACCESS数据库》、《植物结构部件资料图谱ACCESS数据库》、《全球家畜资料图谱大全ACCESS数据库》等。 几乎每一个鸟类都会对应一张图,只有28条记录图片丢失;包含目
今天这个数据库来源于《汉藏英常用新词语词典》编纂小组编纂、四川民族出版社和四川出版集团出版的《汉藏英常用新词语词典》及其增补本。具体看截图,截图包含所有字段: 目录汇总:藏汉大辞典(25228)、藏汉英信息技术词典(11763)、汉藏对照词典(82530)、汉藏英常用新词语词典(9649)。
zookeeper ZooKeeper是一个开源的分布式应用程序协调服务 简单来说可以理解为zookeeper = 文件系统+监听通知机制 应用场景: 集群管理、服务器状态感知 分布式应用配置管理 统一命名服务 分布式锁 小总结: 为客户提供写数据功能 数据不大 状态信息数据 为客户提供读取据
概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。 同样,通过执行计划,还可以了解到哪些不一样的SQL逻辑其实是
目录序言一 、kettle这壶能装些啥二、Access输入2.1 准备Acess数据库和表2.2 新建一个转换并设置2.3 启动转换预览数据三、CSV文件输入3.1 准备csv文件,并将csv输入控件拖入工作区3.2 csv输入控件设置3.3 预览csv文件内容四、文本文件输入4.1 准备txt格
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 目录1、 HDFS 中的 block 默认保存几份?2、HDFS 默认 BlockSize 是多大?3、负责HDFS数

推荐文章