标签:大数据
异常处理 语法处理上和 Java 类似,但是又不尽相同。 java的异常处理 public class ExceptionDemo { public static void main(String[] args) { try { int a = 10; int b = 0; int c
wordCount package com.doit.day03 import scala.io.{BufferedSource, Source} object WordCountDemo { def main(args: Array[String]): Unit = { //读取
SQL join语法案例 Data: order.txt order011,u001,300 order012,u002,200 order023,u006,100 order056,u007,300 order066,u003,500 order055,u004,300 order021,u0
Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布spark2.0,2020年6月1
档案馆库房温湿度调控标准及相应的措施方案   档案库房是档案保管的基本条件,档案库房温湿度与保护档案,延长档案寿命有很大关系。   档案库房适宜温湿度标准为:温度14℃—24℃,相对湿度45%一60 一、库房温湿度对档案的影响 库房的温湿度,过高过低都会影响档案制成材料的耐久性。高温高湿会加速
Spark架构体系 StandAlone模式是spark自带的集群运行模式,不依赖其他的资源调度框架,部署起来简单。 StandAlone模式又分为client模式和cluster模式,本质区别是Driver运行在哪里,如果Driver运行在SparkSubmit进程中就是Client模式,如果D
大家好我是张金明,在蔚来汽车担任大数据平台研发工程师。这次和大家分享的是 Apache DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用和改造,接下来我将从背景、应用现状和技术改造三个方面去分享一下。 背景 业务痛点 在蔚来汽车构建一个统一的数据中台之前,我们面临这样一些
作者 | 刘广东,Apache SeaTunnel Committer 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果并不能很好地满足我们的需求,甚至与我们期待的结果大相径庭。这是因为仅仅依靠关键词匹配是
摘要:实践证明,华为云GaussDB完全经受住了这场世界级的攻坚考验,也完全具备支撑大型一体机系统迁移上云的能力,并积累了丰富的经验。 本文分享自华为云社区《这场世界级的攻坚考验,华为云GaussDB稳过》,作者: GaussDB 数据库 。 数字化时代,业务“在线”是每个企业的常态。作为企业经营
StandAlone模式环境搭建 环境准备:三台Linux,一个安装Master,其他两台机器安装Worker 下载spark安装包,下载地址:https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上 解压spark安装包 tar -
1、什么是NoSQL NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL"。 NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。 在现代的计算系统上每天网络上都会产生庞大的数据量。 这些数据有很大一部分是由关系数据库管理系统(RDBMS)来
Metric 是 Datavines 中一个核心概念,一个 Metric 表示一个数据质量检查规则,比如空值检查和表行数检查都是一个规则。Metric 采用插件化设计,用户可以根据自己的需求来实现一个 Metric。下面我们来详细讲解一下如何自定义Metric。 第一步 我们先了解下几个接口和抽象
摘要:GaussDB已经全面支撑起MetaERP,在包括库存服务在内的9大核心模块中稳定运行,端到端业务效率得到10倍提升。 本文分享自华为云社区《跑得更快!华为云GaussDB以出色的性能守护“ERP的心脏”》,作者:GaussDB 数据库。 ERP作为华为企业经营最核心的系统,伴随着华为20多
摘要:随着企业数据空间在内部的成功实践,2022年,华为正式推出云服务产品——华为云交换数据空间EDS(Exchange Data Space),秉持“你的数据你做主”的宗旨,以保护企业数据主权为基础,促进企业数据高效流通,实现数据价值最大化。 本文分享自华为云社区《数据交换不失控——华为云EDS
Scala编写Spark的WorkCount 创建一个Maven项目 在pom.xml中添加依赖和插件 <!-- 定义的一些常量 --> <properties> <maven.compiler.source>8</maven.compiler.s
使用PySpark 配置python环境 在所有节点上按照python3,版本必须是python3.6及以上版本 yum install -y python3 修改所有节点的环境变量 export JAVA_HOME=/usr/local/jdk1.8.0_251 export PYSPARK_
作者|云科NearFar X Lab团队 左益、周志银、洪守伟、陈超、武超 一、导读 无锡拈花云科技服务有限公司(以下简称:拈花云科)是由拈花湾文旅和北京滴普科技共同孵化的文旅目的地数智化服务商。2022年底,拈花云科NearFar X Lab团队开始测试DolphinScheduler作为交付