IT学院

10

02月

大数据

HDFS基础

1. HDFS Shell基础 [root@master hadoop]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>]

30

01月

大数据

Cannot obtain block length for LocatedBlock故障分析和解决

来源：CSDN 作者：Syn良子原文：https://blog.csdn.net/cssdongl/article/details/77750495 一.问题背景问题产生的原因可能是由于前几日Hadoop集群维护的时候，基础运维组操作不当，先关闭的Hadoop集群，然后才关闭的Flume a

26

01月

大数据

Scala学习(一)

1.scala面向行的语言,一句是一行的话,末尾的分号可有可无. 2.数据类型: Byte Short Int Long Float Double Char String Boolean,Unit,Nothing,Any,AnyRef 3.变量声明:(声明时必须赋初始值) ①变量: var s

25

01月

大数据

Hadoop源码学习笔记之NameNode启动流程分析一：源码环境搭建和项目模块及NameNode结构简单介绍

最近在跟着一个大佬学习Hadoop底层源码及架构等知识点，觉得有必要记录下来这个学习过程。想到了这个废弃已久的blog账号，决定重新开始更新。主要分以下几步来进行源码学习：一、搭建源码阅读环境二、源码项目结构概览及hdfs源码包结构简介三、NameNode介绍第一步，搭建源码阅读环境。把

24

01月

大数据

Spark SQL中列转行（UNPIVOT）的两种方法

行列之间的互相转换是ETL中的常见需求，在Spark SQL中，行转列有内建的PIVOT函数可用，没什么特别之处。而列转行要稍微麻烦点。本文整理了2种可行的列转行方法，供参考。本文链接：https://www.cnblogs.com/hhelibeb/p/10310369.

22

01月

大数据

hadoop环境搭建-伪分布模式

Appache hadoop 版本：2.77 jdk:1.8 系统：centos7 注意不要在root下解压，要单独建一个用户安装hadoop及其组件。一、先查看系统是否有自带j 　　#dk: rpm -qa|grep java 　　通常是如下4个包：　　rpm -e --nodeps j

22

01月

大数据

hbase-列存储动态数据库

1) HBase是什么? HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目，是横向扩展的。 HBase是一个数据模型，类似于谷歌的大表设计，可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统（HDFS）提供的容错能力。它是Hadoop的生态系统

22

01月

大数据

hive--数据仓库

1.1.1 hive是什么？ Hive是基于 Hadoop 的一个数据仓库工具： 1. hive本身不提供数据存储功能，使用HDFS做数据存储； 2. hive也不分布式计算框架，hive的核心工作就是把sql语句翻译成MR程序； 3. hive也不提供资

21

01月

大数据

AeroSpike踩坑手记1：Architecture of a Real Time Operational DBMS论文导读

又开了一个新的坑，笔者工作之后维护着一个 NoSQL 数据库。而笔者维护的数据库正是基于社区版本的 Aerospike打造而来。所以这个踩坑系列的文章属于工作总结型的内容，会将使用开发 Aerospike 的各种问题进行总结梳理，希望能够给予大家启发和帮助。第一篇开山之文，就先从Aerospike

21

01月

大数据

Spark中的一些概念

最近工作用到Spark，这里记一些自己接触到的Spark基本概念和知识。本文链接：https://www.cnblogs.com/hhelibeb/p/10288915.html 名词 RDD：在高层，每个Spark应用包含一个driver程序，它运行用户的主函数，在

19

01月

大数据

TFTP服务的搭建

TFTP服务的作用：提供网络下载服务 tftp服务器的安装与配置： tftp主要用于嵌入式交叉开发环境的搭建，传输文件。 0、创建tftp的工作目录，并修改权限（注意：请在主目录下创建此工作目录！） sudo mkdir /tftpboot sudo chmod 777 /tftpboot 1、安装

13

01月

大数据

Spark-Unit1-spark概述与安装部署

一、Spark概述　　spark官网：spark.apache.org 　　Spark是用的大规模数据处理的统一计算引擎，它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。　　mapreduce（MR）与spark的对比：　　　　1.MR在计算中产生的

13

01月

大数据

hadoop wordcout测试

hadoop wordcout测试安装好hadoop 环境后，启动HDFS等服务；输密码 1004 start-all.sh 查看启动情况 1006 jps 1007 cd ~ 切换到用户默认目录创建数据文件data.txt,输送值 hello beijing hello China 1

12

01月

大数据

hadoop体系架构

1.1 Hadoop 概念：hadoop是一个由Apache基金会所开发的分布式系统基础架构。是根据google发表的GFS(Google File System)论文产生过来的。优点：　　1. 它是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进

09

01月

大数据

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

本文由云+社区发表做为大数据生态系统中最重要的底层存储文件系统HDFS，为了保证系统的可靠性，HDFS通过多副本的冗余来防止数据的丢失。通常，HDFS中每一份数据都设置两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。随着数据量的增长，复制的代价也变得越来越明显：传

09

01月

大数据

hive的实践部分

一.hive的事务（1）什么是事务要知道hive的事务，首先要知道什么是transaction(事务)？事务就是一组单元化操作，这些操作要么都执行，要么都不执行，是一个不可分割的工作单位。事务有四大特性：A、C、I、D (原子性、一致性、隔离性、持久性) Atomicity: 不可再分割

07

01月

大数据

Apache Flink 分布式运行时环境

Tasks and Operator Chains(任务及操作链) 在分布式环境下，Flink将操作的子任务链在一起组成一个任务，每一个任务在一个线程中执行。将操作链在一起是一个不错的优化:它减少了线程间的切换和缓冲，提升了吞吐量同时减低了时延。这些链式行为是可配置的，详情请见:chaining d

06

01月

大数据