IT学院

10

06月

Hadoop的完全分布式搭建

集群规划主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadooproot hadooproot hadooproot HDFS NameNodeDateNode DateNode S

10

06月

大数据

es索引数据复制并增加条件和修改目标数据值

es操作同一个索引里数据的复制语法复制数据： POST _reindex { "source": { "index": "source_index" }, "dest": { "index": "destination_index" } } 字段值修改

10

06月

大数据

Kafka关键原理

日志分段切分条件日志分段文件切分包含以下4个条件，满足其一即可：当前日志分段文件的大小超过了broker端参数 log.segment.bytes 配置的值。log.segment.bytes参数的默认值为 1073741824，即1GB 当前日志分段中消息的最小时间戳与当前系统的时间戳的差值

10

06月

大数据

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种，可以提升hive查询速率，也叫hive矢量化。问题1：那么什么是hive向量化模式呢？问题2：hive向量化什么情况下可以被使用，或者说它有哪些使用场景呢？问题3：如何查看hive向量化使用的相关信息？ 1.什么是hive向量化模式

09

06月

大数据

手记系列之四 ----- 关于使用MySql的经验

前言本篇文章主要介绍的关于本人在使用MySql记录笔记的一些使用方法和经验，温馨提示，本文有点长，约1.5w字，几十张图片，建议收藏查看。一、MySql安装下载地址:https://dev.mysql.com/downloads/ 在安装MySql之前，查看是否以及安装过MySql，如果

09

06月

大数据

关于Kafka 的 consumer 消费者手动提交详解

前言在上一篇 Kafka使用Java实现数据的生产和消费demo 中介绍如何简单的使用kafka进行数据传输。本篇则重点介绍kafka中的 consumer 消费者的讲解。应用场景在上一篇kafka的consumer消费者，我们使用的是自动提交offset下标。但是offset下标自动提交

09

06月

大数据

Kafka 使用Java实现数据的生产和消费demo

前言在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。 Kafka 有如下特性：以时间复杂

09

06月

大数据

kafka和storm集群的环境安装

前言 storm和kafka集群安装是没有必然联系的，我将这两个写在一起，是因为他们都是由zookeeper进行管理的，也都依赖于JDK的环境，为了不重复再写一遍配置，所以我将这两个写在一起。若只需一个，只需挑选自己选择的阅读即可。这两者的依赖如下: Storm集群：JDK1.8 , Zooke

09

06月

大数据

Centos 7 通过 targz 文件安装 Elastic Search 服务

区别于通过发行版自带的仓库, 介绍如何通过 targz 文件安装 Elastic Search 服务, 使用的 Linux 为 Centos 7 下载 https://www.elastic.co/downloads/elasticsearch 选择 Linux x86_64, 下载 elasti

09

06月

大数据

Kafka的系统架构和API开发

系统架构主题topic和分区partition topic Kafka中存储数据的逻辑分类；你可以理解为数据库中“表”的概念；比如，将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic partition分区（提升kafka吞吐量） topic中数据的具体管理单元；每个p

09

06月

大数据

手记系列之六 ----- 分享个人使用kafka经验

前言本篇文章主要介绍的关于本人从刚工作到现在使用kafka的经验，内容非常多，包含了kafka的常用命令，在生产环境中遇到的一些场景处理，kafka的一些web工具推荐等等。由于kafka这块的记录以及经验是从我刚开始使用kafka，从2017年开始，可能里面有些内容过时，请见谅。温馨提醒，本文

08

06月

大数据

一份配置轻松搞定表单渲染，配置式表单渲染器在袋鼠云的实现思路与实践

前段时间，袋鼠云离线开发产品接到改造数据同步表单的需求。一方面，数据同步模块的代码可读性和可维护性较差，导致在数据同步模块开发新功能和定位问题的效率很低。另一方面，整体规划上，希望在对接新的数据源时，可以不再关心表单渲染相关问题，从数据源中心新建数据源一直到数据源在数据同步模块的应用，全链路的表

08

06月

大数据

kafka的安装和基本操作

基本概念简介 Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统，现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性，许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。总的来讲，

08

06月

大数据

Hive执行计划之hive依赖及权限查询和常见使用场景

目录概述1.explain dependency的查询与使用2.借助explain dependency解决一些常见问题2.1.识别看似等价的SQL代码实际上是不等价的：2.2 通过explain dependency验证将过滤条件在不同位置的查询区别3.查看SQL操作涉及到的相关权限信息概述

07

06月

大数据

1千多鸟类百科图谱大全ACCESSEXCEL数据库

我很喜欢这种图谱、名册、字典类的数据库，像这种数据库还有《史前古生物资料图谱ACCESS数据库》、《中国鱼类资料图谱大全ACCESS数据库》、《植物结构部件资料图谱ACCESS数据库》、《全球家畜资料图谱大全ACCESS数据库》等。几乎每一个鸟类都会对应一张图，只有28条记录图片丢失；包含目

07

06月

大数据

近13万汉藏对照词典汉藏翻译ACCESSEXCEL数据库

今天这个数据库来源于《汉藏英常用新词语词典》编纂小组编纂、四川民族出版社和四川出版集团出版的《汉藏英常用新词语词典》及其增补本。具体看截图，截图包含所有字段：目录汇总：藏汉大辞典（25228）、藏汉英信息技术词典（11763）、汉藏对照词典（82530）、汉藏英常用新词语词典（9649）。

07

06月

大数据

Zookeeper

zookeeper ZooKeeper是一个开源的分布式应用程序协调服务简单来说可以理解为zookeeper = 文件系统+监听通知机制应用场景: 集群管理、服务器状态感知分布式应用配置管理统一命名服务分布式锁小总结：为客户提供写数据功能数据不大状态信息数据为客户提供读取据

07

06月

大数据

Hive执行计划之一文读懂Hive执行计划

概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤，通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程，进而对流程进行优化，实现更优的数据查询处理。同样，通过执行计划，还可以了解到哪些不一样的SQL逻辑其实是

05

06月

大数据

快速上手kettle（三）壶中可以放些啥？

目录序言一、kettle这壶能装些啥二、Access输入2.1 准备Acess数据库和表2.2 新建一个转换并设置2.3 启动转换预览数据三、CSV文件输入3.1 准备csv文件，并将csv输入控件拖入工作区3.2 csv输入控件设置3.3 预览csv文件内容四、文本文件输入4.1 准备txt格

02

06月

大数据

大数据面试题集锦-Hadoop面试题(二)-HDFS

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。目录1、 HDFS 中的 block 默认保存几份？2、HDFS 默认 BlockSize 是多大？3、负责HDFS数

热门标签

推荐文章