技术文章 - IT学院

23

06月

scala异常和IO

异常处理语法处理上和 Java 类似，但是又不尽相同。 java的异常处理 public class ExceptionDemo { public static void main(String[] args) { try { int a = 10; int b = 0; int c

24

06月

Scala

Scala练习

wordCount package com.doit.day03 import scala.io.{BufferedSource, Source} object WordCountDemo { def main(args: Array[String]): Unit = { //读取

25

06月

Scala

Scala练习题

SQL join语法案例 Data: order.txt order011,u001,300 order012,u002,200 order023,u006,100 order056,u007,300 order066,u003,500 order055,u004,300 order021,u0

26

06月

大数据

Spark简介

Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月1

26

06月

大数据

SeaTunnel 发布成为 Apache 顶级项目后首个版本 2.3.2，进一步提高 Zeta 引擎稳定性和易用性

近日，Apache SeaTunnel 正式发布 2.3.2 版本。此时距离上一版本 2.3.1 发布已有两个多月，期间我们收集并根据用户和开发者的反馈，在 2.3.2 版本中对 SeaTunnel Zeta Engine 进行了 Bug 修复，提高了引擎的稳定性和使用效率。此外，新版本

26

06月

其他

档案室温度和湿度控制标准及防控措施技术性八防方案

档案馆库房温湿度调控标准及相应的措施方案档案库房是档案保管的基本条件，档案库房温湿度与保护档案，延长档案寿命有很大关系。档案库房适宜温湿度标准为：温度14℃—24℃，相对湿度45％一60 一、库房温湿度对档案的影响库房的温湿度，过高过低都会影响档案制成材料的耐久性。高温高湿会加速

27

06月

大数据

Spark架构体系

Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果D

27

06月

大数据

日均调度 10W+ 任务实例，DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造

大家好我是张金明，在蔚来汽车担任大数据平台研发工程师。这次和大家分享的是 Apache DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用和改造，接下来我将从背景、应用现状和技术改造三个方面去分享一下。背景业务痛点在蔚来汽车构建一个统一的数据中台之前，我们面临这样一些

27

06月

大数据

图书搜索领域重大突破！用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率

作者 | 刘广东，Apache SeaTunnel Committer 背景目前，现有的图书搜索解决方案（例如公共图书馆使用的解决方案）十分依赖于关键词匹配，而不是对书名实际内容的语义理解。因此会导致搜索结果并不能很好地满足我们的需求，甚至与我们期待的结果大相径庭。这是因为仅仅依靠关键词匹配是

27

06月

其他

这场世界级的攻坚考验，华为云GaussDB稳过

摘要：实践证明，华为云GaussDB完全经受住了这场世界级的攻坚考验，也完全具备支撑大型一体机系统迁移上云的能力，并积累了丰富的经验。本文分享自华为云社区《这场世界级的攻坚考验，华为云GaussDB稳过》，作者： GaussDB 数据库。数字化时代，业务“在线”是每个企业的常态。作为企业经营

27

06月

其他

关系型数据库速度比较(性能基准测试)及python实现

https://www.sqlite.org/speed.html 做了SQLite、MySQL和PostgreSQL的速度比较，使用的数据库版本比较老，但是测试方法依旧颇有意义。小结我们进行了一系列的测试来衡量SQLite 2.7.6、PostgreSQL 7.1.3和MySQL 3.23

28

06月

大数据

Spark环境搭建及Spark shell

StandAlone模式环境搭建环境准备：三台Linux，一个安装Master，其他两台机器安装Worker 下载spark安装包，下载地址：https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上解压spark安装包 tar -

28

06月

大数据

NoSQL简介

1、什么是NoSQL NoSQL(NoSQL = Not Only SQL )，意即"不仅仅是SQL"。 NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统（RDBMS）来

28

06月

大数据

SeaTunnel毕业！首个国人主导的数据集成项目成为Apache顶级项目

采访嘉宾 | 郭炜、高俊编辑 | Tina 北京时间 2023 年 6 月 1 日，全球最大的开源软件基金会 Apache Software Foundation（以下简称 ASF）正式宣布 Apache SeaTunnel 毕业成为 Apache 顶级项目 (TLP, Top Level Pr

28

06月

大数据

教程 | Datavines 自定义数据质量检查规则（Metric）

Metric 是 Datavines 中一个核心概念，一个 Metric 表示一个数据质量检查规则，比如空值检查和表行数检查都是一个规则。Metric 采用插件化设计，用户可以根据自己的需求来实现一个 Metric。下面我们来详细讲解一下如何自定义Metric。第一步我们先了解下几个接口和抽象

28

06月

其他

跑得更快！华为云GaussDB以出色的性能守护“ERP的心脏”

摘要：GaussDB已经全面支撑起MetaERP，在包括库存服务在内的9大核心模块中稳定运行，端到端业务效率得到10倍提升。本文分享自华为云社区《跑得更快！华为云GaussDB以出色的性能守护“ERP的心脏”》，作者：GaussDB 数据库。 ERP作为华为企业经营最核心的系统，伴随着华为20多

28

06月

其他

数据交换不失控：华为云EDS，让你的数据你做主

摘要：随着企业数据空间在内部的成功实践，2022年，华为正式推出云服务产品——华为云交换数据空间EDS（Exchange Data Space），秉持“你的数据你做主”的宗旨，以保护企业数据主权为基础，促进企业数据高效流通，实现数据价值最大化。本文分享自华为云社区《数据交换不失控——华为云EDS

29

06月

大数据

Spark编程基础

Scala编写Spark的WorkCount 创建一个Maven项目在pom.xml中添加依赖和插件  <properties> <maven.compiler.source>8</maven.compiler.s

30

06月

大数据

Spark使用Python开发和RDD

使用PySpark 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 yum install -y python3 修改所有节点的环境变量 export JAVA_HOME=/usr/local/jdk1.8.0_251 export PYSPARK_

30

06月

大数据

拈花云科基于 Apache DolphinScheduler 在文旅业态下的实践

作者｜云科NearFar X Lab团队左益、周志银、洪守伟、陈超、武超一、导读无锡拈花云科技服务有限公司（以下简称：拈花云科）是由拈花湾文旅和北京滴普科技共同孵化的文旅目的地数智化服务商。2022年底，拈花云科NearFar X Lab团队开始测试DolphinScheduler作为交付