技术文章 - IT学院

15

07月

银行机构数据治理案例解读，构建全行数据资产体系

近年来，随着信息化、数字化、智能化的快速发展，数据从资源逐渐转变为资产。金融行业具有海量数据资源和丰富应用场景优势，在企业经营管理、产品研发、技术创新等关键环节中发挥着重要作用。数据治理作为释放数据价值的基础，在推动银行数字化转型的过程中扮演了“承上启下”的关键角色。通过数据治理咨询，结合数据平

15

07月

大数据

用户案例 | Apache DolphinScheduler 离线调度在自如多业务场景下的应用与实践

用户案例 | 自如随着自如业务的快速发展，不断增长的调度任务和历史逾万的存量任务对平台稳定性提出了更高的要求。同时，众多非专业开发人员也需要一种更为“亲民”的调度平台使用体验。如何满足这些日渐凸显的需求对自如大数据平台的开发团队来说，无疑是巨大的挑战。团队经过深入的研究和对比，发现Apach

15

07月

Scala

Scala（持续更新中...）

Scala基础篇数据类型下表中列出的数据类型都是对象，可以直接对它们调用方法。数据类型描述 Byte 8位有符号补码整数。数值区间为 -128 到 127 Short 16位有符号补码整数。数值区间为 -32768 到 32767 Int 32位有符号补码整数。数值区间为 -2147483

15

07月

Scala

什么是函数式编程？

纯函数：定义：对于相同的输入永远会得到相同的输出，而且没有任何可以观察的副作用，也不依赖外部的环境状态。例如数学公式： y=f(x) 在javascript中，对于数组的操作，有的是纯的，有的是不存的，如： let arr = [1,2,3,4,5]; // 纯函数 arr.sl

19

07月

其他

GaussDB技术解读丨高级压缩

本文作者｜华为云数据库GaussDB首席架构师冯柯【背景介绍】数据压缩与关系数据库的结合，早已不是一个新鲜的话题，当前我们已经看到了各种各样数据库压缩的产品和解决方案。对于GaussDB来说，在今天引入数据压缩，究竟能够给客户带来什么不一样的价值，是过去一段时间我们一直在思考的问题。为了回

20

07月

大数据

使用 Apache SeaTunnel 实现 Kafka Source 解析复杂Json 案例

版本说明： SeaTunnel：apache-seatunnel-2.3.2-SNAPHOT 引擎说明： Flink：1.16.2 Zeta：官方自带前言近些时间，我们正好接手一个数据集成项目，数据上游方是给我们投递到Kafka，我们一开始的技术选型是SpringBoot+Flink对上

20

07月

大数据

新晋 Committer！来自复旦大学的帅哥一枚

点亮Star⭐️ · 支持我们 https://github.com/apache/dolphinscheduler 最近，社区星力量又迎来一位新晋 Committer，这次是来自复旦大学研究生在读的王维饶同学，一起来认识一下吧！个人简介姓名：王维饶职位：复旦大学研究生在读 GitHu

20

07月

其他

该如何选择ClickHouse的表引擎

该如何选择ClickHouse的表引擎本文将介绍ClickHouse中一个非常重要的概念—表引擎(table engine)。如果对MySQL熟悉的话，或许你应该听说过InnoDB和MyISAM存储引擎。不同的存储引擎提供不同的存储机制、索引方式、锁定水平等功能，也可以称之为表类型。Clic

20

07月

其他

掌数科技携手华为云GaussDB，助力金融科技创新，联合打造行业标杆

本文分享自华为云社区《掌数科技携手华为云GaussDB，助力金融科技创新，联合打造行业标杆》，作者：GaussDB 数据库。近日，在华为开发者大会2023（Cloud）的“GaussDB数据库，打造轻量化迁移部署方案”专题论坛上，掌数科技解决方案总经理高星作为华为云GaussDB的优秀合作伙伴

21

07月

大数据

揭秘｜来看看袋鼠云数栈内部的资产血缘方案设计与实现

数据资产现在需要接入数栈内部相关应用的时候，支持查看血缘的类型从表、离线任务增加到需要表、离线任务、实时任务、API任务、指标、标签等，需要支持数栈现有的所有应用任务，最终实现在数据资产平台查看任务的完整应用链路。虽然增加不同的任务，现阶段资产实现的血缘大体上能够满足需求，但是也会出现问题，因此

21

07月

大数据

百亿规模京东实时浏览记录系统的设计与实现

1. 系统介绍浏览记录系统主要用来记录京东用户的实时浏览记录，并提供实时查询浏览数据的功能。在线用户访问一次商品详情页，浏览记录系统就会记录用户的一条浏览数据，并针对该浏览数据进行商品维度去重等一系列处理并存储。然后用户可以通过我的京东或其他入口查询用户的实时浏览商品记录，实时性可以达到毫秒级。

21

07月

大数据

什么是数据管理，数据治理，数据中心，数据中台，数据湖？

大家好，我是独孤风，大数据流动的作者。最近几个概念频繁出现在大家的视野内。什么是数据管理，数据治理，数据中心，数据中台，数据湖？他们之间又有怎么样的区别和联系呢？这几个概念常常让人混淆，今天我们就来详细解析一下。一、数据管理数据管理是指组织对其整个数据生命周期进行的规划、执行和控制,以

24

07月

大数据

Hive安装与启动

一、mysql安装在配置Hive之前一般都需要安装和配置MySQL，因为Hive为了能操作HDFS上的数据集，那么他需要知道数据的切分格式，如行列分隔符，存储类型，是否压缩，数据的存储地址等信息。为了方便以后操作所以他需要将这些信息通过一张表存储起来，然后将这张表（元数据）存储到mysql中。

25

07月

大数据

大数据面试题集锦-Hadoop面试题(五)-优化

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。 1、MapReduce优化方法 1）数据输入（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产

25

07月

其他

一文带你全面了解openGemini

本文分享自华为云社区《一文带你全面了解openGemini》，作者：华为云社区精选。 7月19日，openGemini社区联合华为云DTT（技术公开直播课栏目）共同举办了一期主题为《openGemini时序数据库应用场景与技术实践》的直播活动，华为云开源DTSE技术布道师 & openG

26

07月

其他

5分钟迁移关系型数据库到图数据库

本文分享自华为云社区《5分钟迁移关系型数据库到图数据库》，作者： RiverSide 。以往开发者会使用关系型数据库如MySQL对领域数据进行存储，这类关系型数据库诞生较早，但并不适合存储关联度较大的数据，如社交关系网络。随着高关联度数据的存储及分析的需求随数据量日益增长，将海量关联数据存入图数

27

07月

大数据

使用 Apache DolphinScheduler 进行 EMR 任务调度

By AWS Team 前言随着企业规模的扩大，业务数据的激增，我们会使用 Hadoop/Spark 框架来处理大量数据的 ETL/聚合分析作业，⽽这些作业将需要由统一的作业调度平台去定时调度。在 Amazon EMR 中，可以使用 AWS 提供 Step Function，托管 AirFl

27

07月

大数据

高性能、高扩展、高稳定：解读 EasyMR 大数据组件自定义可扩展能力

随着互联网技术的不断发展以及大数据时代的兴起，企业对于数据分析和洞察的需求日益增长。大多数企业都积累了大量的数据，需要从这些数据中快速灵活地提取有价值的信息，以便为用户提供更好的服务或者帮助企业做出更明智的决策。然而在不同的数据场景中，企业往往会选择不同的大数据组件来满足其业务需求，每个组件都有

27

07月

其他

数仓现网案例丨超大结果集接收异常

本文分享自华为云社区《GaussDB(DWS)现网案例之超大结果集接收异常》，作者：你是猴子请来的救兵吗。问题背景内核版本 GaussDB 8.1.3 问题描述用户使用数据库客户端工具如navicat、dbeaver等执行查询语句异常中断，中断信息"Last read message se

28

07月

大数据

Spark

SparkCore RDD基础定义在 Spark 的编程接口中，每一个数据集都被表示为一个对象，称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称，是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的、类型推断的和可