技术文章 - IT学院

标签：大数据

07

06月

近13万汉藏对照词典汉藏翻译ACCESSEXCEL数据库

今天这个数据库来源于《汉藏英常用新词语词典》编纂小组编纂、四川民族出版社和四川出版集团出版的《汉藏英常用新词语词典》及其增补本。具体看截图，截图包含所有字段：目录汇总：藏汉大辞典（25228）、藏汉英信息技术词典（11763）、汉藏对照词典（82530）、汉藏英常用新词语词典（9649）。

07

06月

1千多鸟类百科图谱大全ACCESSEXCEL数据库

我很喜欢这种图谱、名册、字典类的数据库，像这种数据库还有《史前古生物资料图谱ACCESS数据库》、《中国鱼类资料图谱大全ACCESS数据库》、《植物结构部件资料图谱ACCESS数据库》、《全球家畜资料图谱大全ACCESS数据库》等。几乎每一个鸟类都会对应一张图，只有28条记录图片丢失；包含目

08

06月

Hive执行计划之hive依赖及权限查询和常见使用场景

目录概述1.explain dependency的查询与使用2.借助explain dependency解决一些常见问题2.1.识别看似等价的SQL代码实际上是不等价的：2.2 通过explain dependency验证将过滤条件在不同位置的查询区别3.查看SQL操作涉及到的相关权限信息概述

08

06月

kafka的安装和基本操作

基本概念简介 Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统，现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性，许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。总的来讲，

08

06月

一份配置轻松搞定表单渲染，配置式表单渲染器在袋鼠云的实现思路与实践

前段时间，袋鼠云离线开发产品接到改造数据同步表单的需求。一方面，数据同步模块的代码可读性和可维护性较差，导致在数据同步模块开发新功能和定位问题的效率很低。另一方面，整体规划上，希望在对接新的数据源时，可以不再关心表单渲染相关问题，从数据源中心新建数据源一直到数据源在数据同步模块的应用，全链路的表

08

06月

闲来无事-夏天防止花被渴死

扯淡时间前段时间，办了一张流量卡。有了新的手机号码那就可以薅一波资本主义的羊毛了，所以我在京东上使用0.1大洋包邮的价格喜提了一个多肉，（在此之前我养过挺多的花，所有的都是忘了浇水被渴死了）此次痛并思痛，一定要让我0.1大洋的的多肉看到明年的太阳。思路养花几乎不用管，只需要两件事充足

08

06月

【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索

前言在OLAP实践中，在有数据更新的场景中，比如存储订单数据，我们经常会用到ReplaceingMergeTree引擎来去重数据，以获取数据的最新状态。但是ReplaceingMergeTree引擎实现数据的去重合并的操作是异步的，这样在实际查询的时候，其实是仍然有一部分数据是未进行合并的。为了

09

06月

手记系列之六 ----- 分享个人使用kafka经验

前言本篇文章主要介绍的关于本人从刚工作到现在使用kafka的经验，内容非常多，包含了kafka的常用命令，在生产环境中遇到的一些场景处理，kafka的一些web工具推荐等等。由于kafka这块的记录以及经验是从我刚开始使用kafka，从2017年开始，可能里面有些内容过时，请见谅。温馨提醒，本文

09

06月

Kafka的系统架构和API开发

系统架构主题topic和分区partition topic Kafka中存储数据的逻辑分类；你可以理解为数据库中“表”的概念；比如，将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic partition分区（提升kafka吞吐量） topic中数据的具体管理单元；每个p

09

06月

Centos 7 通过 targz 文件安装 Elastic Search 服务

区别于通过发行版自带的仓库, 介绍如何通过 targz 文件安装 Elastic Search 服务, 使用的 Linux 为 Centos 7 下载 https://www.elastic.co/downloads/elasticsearch 选择 Linux x86_64, 下载 elasti

09

06月

kafka和storm集群的环境安装

前言 storm和kafka集群安装是没有必然联系的，我将这两个写在一起，是因为他们都是由zookeeper进行管理的，也都依赖于JDK的环境，为了不重复再写一遍配置，所以我将这两个写在一起。若只需一个，只需挑选自己选择的阅读即可。这两者的依赖如下: Storm集群：JDK1.8 , Zooke

09

06月

Kafka 使用Java实现数据的生产和消费demo

前言在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。 Kafka 有如下特性：以时间复杂

09

06月

关于Kafka 的 consumer 消费者手动提交详解

前言在上一篇 Kafka使用Java实现数据的生产和消费demo 中介绍如何简单的使用kafka进行数据传输。本篇则重点介绍kafka中的 consumer 消费者的讲解。应用场景在上一篇kafka的consumer消费者，我们使用的是自动提交offset下标。但是offset下标自动提交

09

06月

手记系列之四 ----- 关于使用MySql的经验

前言本篇文章主要介绍的关于本人在使用MySql记录笔记的一些使用方法和经验，温馨提示，本文有点长，约1.5w字，几十张图片，建议收藏查看。一、MySql安装下载地址:https://dev.mysql.com/downloads/ 在安装MySql之前，查看是否以及安装过MySql，如果

09

06月

华为云新一代分布式数据库GaussDB，给世界一个更优选择

摘要：与伙伴一起，共建繁荣开放的GaussDB数据库新生态。本文分享自华为云社区《华为云新一代分布式数据库GaussDB，给世界一个更优选择》，作者：华为云头条。 6月7日，在华为全球智慧金融峰会2023上，华为常务董事、华为云CEO张平安以“一切皆服务，做好金融数字化云底座和使能器”为主题发表

10

06月

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种，可以提升hive查询速率，也叫hive矢量化。问题1：那么什么是hive向量化模式呢？问题2：hive向量化什么情况下可以被使用，或者说它有哪些使用场景呢？问题3：如何查看hive向量化使用的相关信息？ 1.什么是hive向量化模式

10

06月

Kafka关键原理

日志分段切分条件日志分段文件切分包含以下4个条件，满足其一即可：当前日志分段文件的大小超过了broker端参数 log.segment.bytes 配置的值。log.segment.bytes参数的默认值为 1073741824，即1GB 当前日志分段中消息的最小时间戳与当前系统的时间戳的差值

10

06月

es索引数据复制并增加条件和修改目标数据值

es操作同一个索引里数据的复制语法复制数据： POST _reindex { "source": { "index": "source_index" }, "dest": { "index": "destination_index" } } 字段值修改

10

06月

Hadoop的完全分布式搭建

集群规划主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadooproot hadooproot hadooproot HDFS NameNodeDateNode DateNode S

10

06月

Kafka HW和Leader Epoch

本地LEO和Remote LEO Kafka分区的follower副本的LEO属性保存了两份：本地LEO：在follower副本所在broker的缓存中保存一份 Remote LEO：在leader副本所在的broker的缓存中保存一份（Remote LEO）本地LEO很简单，就是follow

官方群

服务时间：

https://imgs.itxueyuan.com/advPicture/adv-1662379508-4007-pic.jpeg