IT学院

01

07月

大数据面试题集锦-Hadoop面试题(三)-MapReduce

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、

30

06月

数字先锋|云上医院长什么样？宁夏固原中医医院带你一探究竟！

卫健行业是关乎国家和民生安全的关键行业。近年来，云计算、大数据、人工智能等技术不断发展，并与医疗行业深入融合。同时，相关部门相继颁发一系列政策，进一步推动医疗行业数字化、智慧化转型，促进探索健康中国高质量发展道路。作为全/国第/一个“互联网+医疗健康”示范区，宁夏积极推动数字技术在医疗健康行业的

30

06月

券商数字化创新场景数据中台实践

时下，众多金融机构在积极推行数字化改革，以适应时代高速革新。为回应市场对信息即时生效的迫切需求，各家券商机构都需要更具竞争力的信息服务。本次方案结合券商场景与业务实践，围绕客户实际面临的业务和数据问题，输出整体建设方案，方案包括业务背景、业务痛点、以及相关解决方案和实际案例。以上内容节选自案例

30

06月

构建数字工厂丨数据分析与图表视图模型的配置用法

摘要：本期结合示例，详细介绍华为云数字工厂平台的数据分析模型和数据图表视图模型的配置用法。本文分享自华为云社区《数字工厂深入浅出系列（六）：数据分析与图表视图模型的配置用法》，作者：云起MAE 。华为云数字工厂平台基于“数据与业务一体化”理念，提供统一的制造全域数据平台底座，内置轻量级制造数据

30

06月

什么是hive的高级分组聚合，它的用法和注意事项以及性能分析

hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。高级分组聚合在很多数据库类SQL中都有出现，并非hive独有，这里只说明hive中的情况。使用高级分组聚合不仅可以简化SQL语句，而且通常情况下会提升SQL语句的性能。 1.Grouping s

30

06月

拈花云科基于 Apache DolphinScheduler 在文旅业态下的实践

作者｜云科NearFar X Lab团队左益、周志银、洪守伟、陈超、武超一、导读无锡拈花云科技服务有限公司（以下简称：拈花云科）是由拈花湾文旅和北京滴普科技共同孵化的文旅目的地数智化服务商。2022年底，拈花云科NearFar X Lab团队开始测试DolphinScheduler作为交付

30

06月

Spark使用Python开发和RDD

使用PySpark 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 yum install -y python3 修改所有节点的环境变量 export JAVA_HOME=/usr/local/jdk1.8.0_251 export PYSPARK_

29

06月

Spark编程基础

Scala编写Spark的WorkCount 创建一个Maven项目在pom.xml中添加依赖和插件  <properties> <maven.compiler.source>8</maven.compiler.s

28

06月

教程 | Datavines 自定义数据质量检查规则（Metric）

Metric 是 Datavines 中一个核心概念，一个 Metric 表示一个数据质量检查规则，比如空值检查和表行数检查都是一个规则。Metric 采用插件化设计，用户可以根据自己的需求来实现一个 Metric。下面我们来详细讲解一下如何自定义Metric。第一步我们先了解下几个接口和抽象

28

06月

SeaTunnel毕业！首个国人主导的数据集成项目成为Apache顶级项目

采访嘉宾 | 郭炜、高俊编辑 | Tina 北京时间 2023 年 6 月 1 日，全球最大的开源软件基金会 Apache Software Foundation（以下简称 ASF）正式宣布 Apache SeaTunnel 毕业成为 Apache 顶级项目 (TLP, Top Level Pr

28

06月

NoSQL简介

1、什么是NoSQL NoSQL(NoSQL = Not Only SQL )，意即"不仅仅是SQL"。 NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统（RDBMS）来

28

06月

Spark环境搭建及Spark shell

StandAlone模式环境搭建环境准备：三台Linux，一个安装Master，其他两台机器安装Worker 下载spark安装包，下载地址：https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上解压spark安装包 tar -

27

06月

图书搜索领域重大突破！用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率

作者 | 刘广东，Apache SeaTunnel Committer 背景目前，现有的图书搜索解决方案（例如公共图书馆使用的解决方案）十分依赖于关键词匹配，而不是对书名实际内容的语义理解。因此会导致搜索结果并不能很好地满足我们的需求，甚至与我们期待的结果大相径庭。这是因为仅仅依靠关键词匹配是

27

06月

日均调度 10W+ 任务实例，DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造

大家好我是张金明，在蔚来汽车担任大数据平台研发工程师。这次和大家分享的是 Apache DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用和改造，接下来我将从背景、应用现状和技术改造三个方面去分享一下。背景业务痛点在蔚来汽车构建一个统一的数据中台之前，我们面临这样一些

27

06月

Spark架构体系

Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果D

26

06月

SeaTunnel 发布成为 Apache 顶级项目后首个版本 2.3.2，进一步提高 Zeta 引擎稳定性和易用性

近日，Apache SeaTunnel 正式发布 2.3.2 版本。此时距离上一版本 2.3.1 发布已有两个多月，期间我们收集并根据用户和开发者的反馈，在 2.3.2 版本中对 SeaTunnel Zeta Engine 进行了 Bug 修复，提高了引擎的稳定性和使用效率。此外，新版本

26

06月

Spark简介

Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月1

22

06月

ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析

目录建表语法使用场景合并算法使用例子、资料分享参考文章 VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTree用于相同的目的折叠树但使用不同的折叠算法，允许以多个线程

22

06月

性能提升30%！袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

Apache Hudi 是一款开源的数据湖解决方案，它能够帮助企业更好地管理和分析海量数据，支持高效的数据更新和查询。并提供多种数据压缩和存储格式以及索引功能，从而为企业数据仓库实践提供更加灵活和高效的数据处理方式。在金融领域，企业可以使用 Hudi 来处理大量需要实时查询和更新的金融交易数据。

22

06月

HiveSQL在使用聚合类函数的时候性能分析和优化详解

概述前文我们写过简单SQL的性能分析和解读，简单SQL被归类为select-from-where型SQL语句，其主要特点是只有map阶段的数据处理，相当于直接从hive中取数出来，不需要经过行变化。在非多个节点的操作上，其性能甚至不比Tez和Spark差。而这次我们主要说的是使用聚合类函数的h

热门标签

redis 大数据大数据技术文章

官方群

服务时间：

https://imgs.itxueyuan.com/advPicture/adv-1662379508-4007-pic.jpeg