IT学院

27

12月

3.storm-starter打包在storm集群上运行

1.使用maven或者其他打包工具将storm-starter打成jar包 2.请将jar包用解压工具打开在根目录下找到defaults.yaml文件并将其删除不然到时会报有multiply defaults.yaml的错哦 3.用ftp工具将jar包上传到linux系统主节点上 4.在各个节点上启

27

12月

大数据

《Hadoop-权威指南》阅读笔记第三章HDFS 分布式文件存储系统

多用户写入，任意修改文件HDFS中的文件可能只有一个writer，而且写操作总是将数据添加在文件的末尾。它不支持具有多个写人者的操作，也不支持在文件的任意位置进行修改。可能以后会支持这些操作，但它们相对比较低效。 3.2HDFS的概念 3.2.1数据块 HDFS中数据块默认为64MB，HDFS上的文

27

12月

大数据

【大数据工程师】学习路径

前言：实验楼上有10+条技术学习路径，对于想要系统入门该技术的小伙伴来说是非常不错的参考，详细的各路径，点击这里就可以查看了~ 文章主要把【大数据工程师】学习路径搬运到这里来，希望对广大想入门大数据的小伙伴来说有所帮助~ 【大数据工程师】学习路径中会学习并实践 Java、Scala、Hadoop、

27

12月

大数据

Heritrix工具实现网络爬虫

上次用的java相关知识实现了一个简单的网络爬虫，现在存在许多开源免费的爬虫工具，相对来说，可以很简单的获取网页数据，并写入到本地。下面我就阐述一下我用Heritrix爬虫工具实现网页数据爬取。 ------> 目录 1、Heritrix文件配置 2、Heritrix服务器job配置 3、如

27

12月

大数据

数据仓库中历史拉链表的更新方法

在之前介绍过数据仓库中的历史拉链表《极限存储–历史拉链表》，使用这种方式即可以记录历史，而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设：数据仓库中订单历史表的刷新频率为一天，当天更新前一天的增量数据；如果一个订单在一天内有多次状态变化，则只会记录最后一个状态的历

27

12月

大数据

hadoop生态圈列式存储系统--kudu介绍及安装配置

介绍 Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity hardware（商品硬件）上运行，horizontally scalable（水平可扩展），并支持 highly availab

27

12月

大数据

Lucene搜索引擎+HDFS+MR完成垂直搜索

　　介于上一篇的java实现网络爬虫基础之上，这一篇的思想是将网络收集的数据保存到HDFS和数据库（Mysql）中；然后用MR对HDFS的数据进行索引处理，处理成倒排索引；搜索时先用HDFS建立好的索引来搜索对应的数据ID，根据ID从数据库中提取数据，呈现到网页上。　　这是一个完整的集合网络爬虫

27

12月

大数据

程序员需要学些什么？程序员好考吗？

程序员需要学些什么？程序员好考吗？--方方方方-希赛一、学习能力因为技术不会一直停着不动，可能当你刚在学校出来的时候，是公司的佼佼者，但是如果你不学习，当别人会HTML6/7/8的时候，你还只是在HTML5上徘徊。而且当你遇到困难的时候，如果是有大牛给你解决了问题，但是你只是照搬并没有真正掌握这

27

12月

大数据

垂直搜索引擎完整实现

本篇博客是在上一篇《Lucene搜索引擎+HDFS+MR完成垂直搜索》的基础上，在数据收集之后的JSP/Servlet方面，换为SpringMVC框架来实现。借助SpringMVC技术完成数据库、HDFS、页面的交互，以达到实现垂直搜索引擎。本篇博客的思想：一是深入数据收集、分析、关键词搜索呈现

27

12月

大数据

Curl工具的使用

Curl命令可以通过命令行的方式，执行Http请求。在Elasticsearch中有使用的场景，因此这里研究下如何在windows下执行curl命令。工具下载　　在官网处下载工具包：http://curl.haxx.se/download.html 使用方式一：在curl.

27

12月

大数据

SQL语句合并列值将一列的多个值合并成一行

oralce写法： select WM_CONCAT(A.title) as citys from tmpcity A sql server写法： select stuff((select ','+A.title from tmpCity A FOR xml PATH('')), 1, 1, '

27

12月

大数据

Hbase的shell命令学习

在学习Hbase的shell命令，之前先得了解如何进入hbase的shell命令行，通过执行如下简单的命令回车后进入hbase的shell命令行界面 hbase shell 进入hbase命令行后，执行help然后回车，就能看到Hbase的shell命令行下有哪些命令，下面是根据help反馈的几

27

12月

大数据

欢迎来到Hadoop

What Is Apache Hadoop? Hadoop是一个可靠的、可扩展的、分布式计算的开源软件。 Hadoop是一个分布式处理大数据的框架。它被设计成从一台到上千台不等的服务器，每个服务器都提供本地计算和存储的能力。它并非依赖于硬件来提供高可用服务。 Hadoo

27

12月

大数据

Hadoop2.9.0安装

参考 https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 1、下载并解压 2、设置环境变量 3、修改ha

27

12月

大数据

大数据：Hadoop入门

大数据：Hadoop入门一：什么是大数据什么是大数据：（1.）大数据是指在一定时间内无法用常规软件对其内容进行抓取，管理和处理的数据集合，简而言之就是数据量非常大，大到无法用常规工具进行处理，如关系型数据库，数据仓库等。这里“大”是一个什么量级呢？如在阿里巴巴每天

27

12月

大数据

hadoop wordcount

27

12月

大数据

HDFS Architecture

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html Introduction Hadoop分布式文件系统被设计运行在普通的硬件上。它和目前已经存在的分布式文件系统

27

12月

大数据

MapReduce

http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Overview 一个MapReduce作业通常会将数

27

12月

大数据

MapReduce Tutorial（划重点）

Mapper Mapper的maps阶段将输入键值对经过计算得到中间结果键值对，框架会将中间结果按照key进行分组，然后传递给reducer以决定最终的输出。用户可以通过Job.setGroupingComparatorClass(Class)来指定

27

12月

大数据

hadoop和spark的区别

hadoop是基于磁盘的，它的运算结果保存在磁盘当中；而spark的运算是基于内存的。因此spark的运算速度是 hadoop的100倍；即使在磁盘当中运算，spark也是hadoop的10倍左右，原因就是spark具有优秀的作业调度策略。故spark的速度快与hadoop的两个原因：（1）sp

热门标签

推荐文章