IT学院

27

12月

Oozie操作篇--Oozie Email action 配置Oozie发送邮件

Oozie Email Action 配置Shell Action 可以用来为oozie中的流程任务发送邮件，Email Action 必须配置 to收件人，cc收件人（可选），邮件主题，邮件内容，多个收件人可以使用，分割收件人地址。Email Action是同步执行的，流程任务必须等当前节点的邮件

27

12月

大数据

Oozie操作篇--Oozie Sqoop Action 配置Oozie调用sqoop命令

Oozie Sqoop Action 配置Sqoop Action 用来运行sqoop 任务，流程任务必须等当前节点的sqoop任务执行完成之后才能执行后续节点任务。Email Action 所有的节点值都可以使用EL表达式运行Sqoop Job，必须在 sqoop action里面配置 job-t

27

12月

大数据

Oozie操作篇--Oozie Spark Action 配置Oozie调用spark程序

Oozie Spark Action 配置Spark Action 用来运行spark 任务，流程任务必须等当前节点的spark任务执行完成之后才能执行后续节点任务。运行Spark Job，必须在 spark action里面配置 job-tracer，name-node，master，和一些必要的

27

12月

大数据

[HBase Manual]CH5 HBase运行模式：单实例和分布式

HBase运行模式：单实例和分布式 HBase运行模式：单实例和分布式... 1 1.单实例模式... 1 1.1 单实例在HDFS下... 1 2.分布式... 1 2.1 伪分布式... 1 3完全分布式... 1 HBase有2种运行模式，单实例和分布式。 1.单实例模式这个是默认的模

27

12月

大数据

hadoop3.1.0 HDFS快速搭建伪分布式环境

1.环境准备 CenntOS7环境 JDK1.8-并配置好环境变量下载Hadoop3.1.0二进制包到用户目录下 2.安装Hadoop 1.解压移动 #1.解压tar.gz tar -zxvf hadoop-3.1.0.tar.gz #2.将hadoop.tar.gz 移动到usr目录下 s

27

12月

大数据

zookeeper工作机制

Zookeeper概念简介： Zookeeper是为用户的分布式应用程序提供协调服务的 zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、

27

12月

大数据

数据挖掘_多线程抓取

在这一篇文章中，我们主要来介绍多线程抓取数据。多线程是以并发的方式执行的，在这里要注意，Python的多线程程序只能运行在一个单核上以并发的方式运行，即便是多核的机器，所以说，使用多线程抓取可以极大地提高抓取效率下面我们以requests为例介绍多线程抓取，然后在通过与单线程程序比较，体

27

12月

大数据

数据挖掘_多进程抓取

之前说过Python的多线程只能运行在一个单核上，也就是各线程是以并发的方式异步执行的这篇文章我们来聊聊Python多进程的方式多进程依赖于所在机器的处理器个数，在多核机器上进行多进程编程时，各核上运行的进程之间是并行执行的，可以利用进程池，是每一个内核上运行一个进程，当翅中的进程数量大

27

12月

大数据

“你什么意思”之基于RNN的语义槽填充(Pytorch实现)

1. 概况 1.1 任务口语理解（Spoken Language Understanding, SLU）作为语音识别与自然语言处理之间的一个新兴领域，其目的是为了让计算机从用户的讲话中理解他们的意图。SLU是口语对话系统（Spoken Dialog Systems）的一个非常关键的环节。下图展示了

27

12月

大数据

网易郑栋：数据采集与分析的那些事——从数据埋点到AB测试

本文由网易云发布。 4月8日晚，DTalk邀请到了网易互联网分析产品、可视化 BI 产品的负责人—郑栋老师，进行了一次关于《网易郑栋：数据采集与分析的那些事第一弹: 数据篇》的主题分享。分享共两个部分，第一部分是郑栋老师分享关于数据采集与分析大家关心的问题，第二部分是Q

27

12月

大数据

Kafka基础认识

　　　　 1）：Apache kafka介绍及架构详解假设一个场景：数据源：应用系统A 产生的用户访问数据和订单数据 10000 条一秒钟 push：推送数据消息系

27

12月

大数据

开放系统的直连式存储(Direct-Attached Storage，简称DAS)

开放系统的直连式存储(Direct-Attached Storage，简称DAS)已经有近四十年的使用历史，随着用户数据的不断增长，尤其是数百GB以上时，其在备份、恢复、扩展、灾备等方面的问题变得日益困扰系统管理员。直连式存储与服务器主机之间的连接通道通常采用SCSI连接，随着服务器CPU的处理能

27

12月

大数据

数据分析怎么更直观？十分钟构建数据看板

本文由网易云发布。作者：王文开（本篇文章仅限知乎内部分享，如需转载，请取得作者同意授权。）要说整车厂的核心业务是什么，说白了就是两个：一个是造车，一个是卖车；我今天想来聊一聊卖车，也就是整车厂的销售业务。目前中国的汽车销售模式都是

27

12月

大数据

大数据小视角1：从行存储到RCFile

前段时间一直在忙碌写毕设与项目的事情，很久没有写一些学习心得与工作记录了，开了一个新的坑，希望能继续坚持写作与记录分布式存储相关的知识。为什么叫小视角呢？因为属于随想型的内容，可能一个由小的视角来审视海量数据的存储与计算技术，把知识点分为两到三章来梳理。管中窥豹，可见一斑，希望能利用这个过程提高自

27

12月

大数据

数据立方体简介

假定我们有一个电商的销售数据集，其中包括时间、产品、地区、三个维度以及销售额这个度量数据。其中，各维度表构成如下：时间维度：时间KEY(time_key)、日期(day)、月(month)、季度(quarter)、年(year) 产品维度：产品KEY(product_key)、产品名称(produ

27

12月

大数据

Windows下ElasticSearch5X+版本安装head

概述 elasticsearch-head，之前插件plugin方式已废弃，现已改为nodejs的NPM安装，独立WEB服务方式。 elasticsearch-head网址：https://github.com/mobz/elasticsearch-head 步骤 1.安装nodejs 下载no

27

12月

大数据

ElasticSearch5的elasticsearch.yml配置

ElasticSearch5的elasticsearch.yml配置注意 elasticsearch.yml中的配置，冒号和后面配置值之间有空格 cluster.name: my-application 指定集群的名称，同一个集群的节点务必设置同一名称 node.name: node-1

27

12月

大数据

HDFS NameNode内存详解

前言《HDFS NameNode内存全景》中，我们从NameNode内部数据结构的视角，对它的内存全景及几个关键数据结构进行了简单解读，并结合实际场景介绍了NameNode可能遇到的问题，还有业界进行横向扩展方面的多种可借鉴解决方案。事实上，对NameNode实施横向扩展前，会面临常驻内存随数据

27

12月

大数据

【Hive一】Hive安装及配置

Hive安装及配置下载hive安装包此处以hive-0.13.1-cdh5.3.6版本的为例，包名为：hive-0.13.1-cdh5.3.6.tar.gz 解压Hive到安装目录 $ tar -xvf hive-0.13.1-cdh5.3.6.tar.gz 重命名配置文件 mv hive-de

27

12月

大数据

玩转可视化--来聊聊地图投影的学问

本文由网易云发布。作者：刘阳（本篇文章仅限知乎内部分享，如需转载，请取得作者同意授权。）地图所有人都很熟悉，但估计许多人都不知道我们平时看到的地图中是存在许多门道的，今天我就来一一道来。先来看看我们平时最常见的世界地图是长这样的。 &

热门标签

推荐文章