技术文章 - IT学院

标签：大数据

11

04月

解释一下布隆过滤器原理

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.解释一下布隆过滤器原理在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在

11

04月

浅析云原生时代的服务架构演进

摘要：相比于传统的微服务架构，云原生和 serverless 技术更加灵活、高效，能够更好地满足用户的需求。本文分享自华为云社区《《凤凰架构》学习和思考——云原生时代的服务架构演进史》，作者：breakDawn。随着云原生的概念越来越火，服务的架构应该如何发展和演进，成为很多程序员关心的话题。

12

04月

锁屏面试题百日百刷-kafk篇(一)

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.请说明什么是Apache Kafka？ Apache Kafka是由Apache开发的一种发布订阅消息系统，它是一个分布式的、分区的和重复的日志服务。 2.请说明什么是传统的消息传递方法？传统

12

04月

flume基本安装与使用

解压flume包到/usr/local/src/目录下 [root@hadoopha01 pack]# tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /usr/local/src/ 配置flume环境变量 #FLUME_HOME export FL

13

04月

面试题百日百刷-kafka篇(二)

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.解释一下，在数据制作过程中，你如何能从Kafka得到准确的信息？在数据中，为了精确地获得Kafka的消息，你必须遵循两件事: 在数据消耗期间避免重复，在数据生产过程中避免重复。这里有两种方法

13

04月

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apa

13

04月

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率 P（B）是B的先验概率 P（A|B）是A的后验概率（已经知道B发生过了） P（B|A

13

04月

基于chunjun纯钧的增量数据同步问题排查【博客园-实习小生】

基于chunjun纯钧的增量数据同步目前我司的大数据平台使用的是flink技术栈，底层的连接器插件使用的是国产的chunjun插件，在使用chunjun的过程中也遇到了很多问题，本次记录下在SQL模式的情况下怎么支持增量的数据同步 chunjun的官网文档对增量同步已经做出了一定的说明纯钧

13

04月

电商平台商品详情接口的应用场景

☞ 商品接口的定义价格、库存量、发货地点等。此外，它还可以提供商品的详细信息，包括商品的图片、详细描述、规格参数、售后服务等。这些信息可以帮助用户更好地了解商品，从而更好地选择商品。其次，电商平台商品详情接口的实现原理是基于RESTful API。RESTful API是一种基于HTT

13

04月

数据开发提效有秘诀！离线开发BatchWorks 六大典型场景拆解

回顾大数据的发展历程，一句话概括就是海量数据的高效处理。在当今快节奏、不断变化的市场环境下，优秀的开发效率已经成为企业数字化转型的必备条件。数栈离线开发BatchWorks 是一款专注离线数据ELT开发的产品，采用先进的大数据生态底层技术，具备高性能且功能丰富的大数据处理能力，对大数据离线计算、

13

04月

C# 根据前台传入实体名称，动态查询数据

前言：项目中时不时遇到查字典表等数据，只需要返回数据，不需要写其他业务，每个字典表可能都需要写一个接口给前端调用，比较麻烦，所以采用下面这种方式，前端只需传入实体名称即可，例如：SysUser 1、获取实体类型 var entityType=Assembly.Load("XXX.Entity"

13

04月

详解GaussDB(DWS)的query_band负载识别与应用

摘要：query_band是一个会话级别（session）的GUC参数，本身是字符串类型，支持任意形式字符组合。本文分享自华为云社区《GaussDB(DWS)的query_band负载识别与应用》，作者：门前一棵葡萄树。 query_band概述 GaussDB(DWS)实现了基于que

14

04月

面试题百日百刷-kafka篇(三)

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.如何保证Kafka的消息有序 Kafka对于消息的重复、丢失、错误以及顺序没有严格的要求。 Kafka只能保证一个partition中的消息被某个consumer消费时是顺序的，事实上，从Top

14

04月

聊聊简单又不简单的图上多跳过滤查询

摘要：多跳查询能力也是一个衡量产品性能非常重要的指标。本文分享自华为云社区《聊聊超级快的图上多跳过滤查询》，作者：弓乙。在图数据库/图计算领域，多跳查询是一个非常常用的查询，通常来说以下类型的查询都可以算作是多跳过滤查询： 1.查询某个用户的朋友认识的朋友 --二跳指定点label的查询

14

04月

DolphinDB +Python Airflow 高效实现数据清洗

DolphinDB 作为一款高性能时序数据库，其在实际生产环境中常有数据的清洗、装换以及加载等需求，而对于该如何结构化管理好 ETL 作业，Airflow 提供了一种很好的思路。本篇教程为生产环境中 ETL 实践需求提供了一个解决方案，将 Python Airflow 引入到 DolphinDB

14

04月

全面数字化时代，国有大型银行如何走好金融创新之路？

摘要：在金融创新压力下，传统集中式数据库的短板逐渐凸显出来，唯有加速核心系统的升级和转型，将应用迁移到更具有可持续演进支撑能力的数据库上，才能解决根本问题。本文分享自华为云社区《全面数字化时代，国有大型银行如何走好金融创新之路？》，作者：GaussDB 数据库。近些年来，金融行业数字化转型不断

15

04月

hadoop伪分布式集群的安装（不是单机版）

准备工作三台虚拟机，关闭防火墙，关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenf

15

04月

如何在移动端数据可视化大屏实现分析？

本文由葡萄城技术团队于博客园原创并首发转载请注明出处：葡萄城官网，葡萄城为开发者提供专业的开发工具、解决方案和服务，赋能开发者。项目想做数据可视化，想同时在PC端、手机端查看数据怎么办？业务主要关心的数据包括：销售数据、业绩达成、同比、环比，各产品销售情况及潜客商机、未来收入预测等数据，最

15

04月

读SQL进阶教程笔记11_关系数据库基础

1. 1969年 1.1. 关系模型的创始人E.F. Codd（1923—2003） 1.1.1. 牛津大学数学专业 1.1.2. 一己之力奠定了关系模型的基础 1.2. 论文《大型数据库中关系存储的可推导性、冗余与一致性》 2. 1970年 2.1. 权威学术杂志Communications

16

04月

elasticsearch升级和索引重建。

1.背景描述 2020年团队决定对elasticsearch升级。es（elasticsearch缩写，下同）当前版本为0.9x，升级到5.x版本。es在本公司承载三个部分的业务，站内查询，订单数据统计，elk日志分析。对于站内查询和订单数据统计，当前业务架构是 mysql ->

官方群

服务时间：

https://imgs.itxueyuan.com/advPicture/adv-1662379508-4007-pic.jpeg