IT学院

27

12月

大数据

HBase最佳实践-管好你的操作系统

本文由网易云发布。作者：范欣欣本篇文章仅限本站分享，如需转载，请联系网易获取授权。操作系统这个话题其实很早就想拿出来和大家分享，拖到现在一方面是因为对其中各种理论理解并不十分透彻，怕讲不好；另一方面是这个问题好像一直以来都很少有人

27

12月

大数据

Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）

本文由网易云发布。 1.Flink架构及特性分析 Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提供high level的API。Flink也提供 API来像Spark一样进行批处理，但两者处理的基础是完全不

27

12月

大数据

Apache 流框架 Flink，Spark Streaming，Storm对比分析（二）

本文由网易云发布。本文内容接上一篇Apache 流框架 Flink，Spark Streaming，Storm对比分析（一） 2.Spark Streaming架构及特性分析 2.1 基本架构基

27

12月

大数据

HBase原理–所有Region切分的细节都在这里了

本文由网易云发布。作者：范欣欣（本篇文章仅限内部分享，如需转载，请联系网易获取授权。） Region自动切分是HBase能够拥有良好扩张性的最重要因素之一，也必然是所有分布式系统追求无

27

12月

大数据

Kudu:支持快速分析的新型Hadoop存储系统

本文由网易云发布。 Kudu是Cloudera开源的新型列式存储系统，是Apache Hadoop生态圈的新成员之一（incuba ng），专门为了对快速变化的数据进行快速的分析，填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景，以及架构进行简单介绍。

27

12月

大数据

3分钟掌握一个有数小技能：制作动态标题

本文由网易云发布。作者：汪谦（本篇文章仅限知乎内部分享，如需转载，请取得作者同意授权。）在制作可视化报告时，会遇到如下需求：动态显示图表的标题。如下图所示，右侧图表标题的显示内容会根据左侧选中的数据项发生变化。当左侧

27

12月

大数据

使用 Apache Atlas 进行数据治理

本文由网易云发布。作者：网易/刘勋（本篇文章仅限知乎内部分享，如需转载，请取得作者同意授权。）面对海量且持续增加的各式各样的数据对象，你是否有信心知道哪些数据从哪里来以及它如何随时间而变化？采用Hadoop必须考虑数据管理的实际情况，元数据与数

27

12月

大数据

基于Cloudera Search设计数据灾备方案

　　当实际项目上线到生产环境中，难以避免一些意外情况，如数据丢失、服务器停机等。对于系统的搜索服务来说，当遇到停机的情况意味着在停机这段时间内，用户都不能通过搜索的相关功能进行访问数据，停机意味着将这一段时间内的数据服务完全停止。如果项目是互联网项目依赖于用户数量，这将严重影响用户访问和用户的产品体

27

12月

大数据

手把手教你搭建hadoop+hive测试环境(新手向)

本文由网易云发布。作者：唐雕龙本篇文章仅限内部分享，如需转载，请联系网易获取授权。面向新手的hadoop+hive学习环境搭建，加对我走过的坑总结，避免大家踩坑。对于hive相关docker，并没有官方的d

27

12月

大数据

HBase - 数据写入流程解析

本文由网易云发布。作者：范欣欣本篇文章仅限内部分享，如需转载，请联系网易获取授权。众所周知，HBase默认适用于写多读少的应用，正是依赖于它相当出色的写入性能：一个100台RS的集群可以轻松地支撑每天10T 的写入量。

27

12月

大数据

技巧-如何通过hive开发平台上传csv文件

通过数据交换平台上传较大的文件时，经常会出现导入失败情况，换种方式通过新数据开发平台（stark）也可以轻松实现外部数据与hive的数据关联。 --第一步、导入csv文件到hive --stark数据开发平台——>资源管理——>搜索栏右边+号——>上传资源（资源类型：选择普通

27

12月

大数据

Amazon新一代云端关系数据库Aurora（下）

本文由网易云发布。作者：郭忆本篇文章仅限内部分享，如需转载，请联系网易获取授权。故障恢复 MySQL基于Check point的机制，周期性的建立redo log与数据页的一致点。

27

12月

大数据

ElasticSearch之CURL操作

CURL的操作 curl是利用URL语法在命令行方式下工作的开源文件传输工具，使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的，如果没有请yum安装即可。 curl -X 指定ht

27

12月

大数据

HBase在共享经济互联网业务的应用

HDFS 与 Hbase HDFS容错率很高，即便是在系统崩溃的情况下，也能够在节点之间快速传输数据。HBase是非关系数据库，是开源的Not-Only-SQL数据库，它的运行建立在Hadoop上。HBase依赖于CAP定理(Consistency, Availability, and P

27

12月

大数据

hive工作记录-20180513

Hive的数据导入：　　1.从本地文件系统中导入数据到Hive表　　　　基础语法1 ：　　　　　　create table 表名(列名1 数据类型, 列名2 数据类型, … …) row format delimited fields terminated by '分隔符' stored as

27

12月

大数据

ZooKeeper的使用---命令端

一、进入命令行 ./bin/zkCli.sh 二、常用命令命令作用范例备注 connect host:port

27

12月

大数据

Hadoop（二）CentOS7.5搭建Hadoop2.7.6完全分布式集群

一完全分布式集群(单点） Hadoop官方地址：http://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名关闭防火墙，设置静态IP，主机名此处略，参考 Linux之CentOS7.5安装及克隆 1.

27

12月

大数据

Hadoop2.7.6_07_HA高可用

1. Hadoop的HA机制　　前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制 1.1. HA的运作机制（1）hadoop-HA集群运作机制介绍　　所谓HA，即高可用（7*24小时不中断服务）　　实现高可用最关键的是消除单点故障　　hadoop-ha严格来说

27

12月

大数据

网站流量日志数据自定义采集实现

为什么要进行网站流量数据统计分析？随着大数据时代的到来，各行各业产生的数据呈爆发式增长，大数据的技术从之前的“虚无”变成可能，数据产生的各种潜在价值慢慢的被人们挖掘出来利用在各行各业上。比如网站流量数据统计分析，可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息，并从流量来源、网站内容、

27

12月

大数据

Hadoop分布式集群搭建_1

Hadoop是一个开源的分布式系统框架一.集群准备 1. 三台虚拟机，操作系统Centos7，三台主机名分别为k1,k2,k3，NAT模式 2.节点分布 k1: NameNode DataNode ResourceManager NodeManager

热门标签

推荐文章