4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据
Hadoop概述
Hadoop是什么
hadoop是一个由Apache基金会所开发的分布式系统基础框架
其主要解决,海量数据的存储和海量数据的的分析计算问题
广义上,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈
Hadoop的发展历史
Hadoop创始人Doug Cu
1. 消灭NULL
1.1. NULL惹人讨厌的原因
1.1.1. 进行SQL编码时,必须考虑违反人类直觉的三值逻辑
1.1.2. 指定IS NULL、IS NOT NULL的时候,不会用到索引,SQL语句执行起来性能低下
1.1.2.1.
1 + NULL = NULL
2- NU
Hadoop运行集群搭建
虚拟机环境准备
安装虚拟机及基本配置
IP地址192.168.10.100、主机名称hadoop100,内存4G、硬盘50G
测试下虚拟机联网情况
1 [root@hadoop100 ~]# ping www.baidu.com
2 PING www.baidu
1.1 信息与数据
1、信息
人们对于客观事物属性和运动状态的反映。
信息所反映的是关于某一客观系统中,某一事物的存在方式或某一时刻的运动状态。
信息可以通过载体传递,可以通过信息处理工具进行存储、加工、传播、再生和增值。
在信息社会中,信息一般可与物质或能量相提并论,它是一种重要的
4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上重磅发布了袋鼠云生态伙伴计划——“飞跃计划2.0”,从商机、产品、联合方案及数据业务服务层面,与合作伙伴强强联手,共同打造数字化生态,同时在联合营销、渠道政策、赋能培训、产品开放、技术服务、交付实施等方面全面升级
本文分享自天翼云开发者社区《如何计算真实的数据库成本》
作者:王****乾
在云计算占主导地位之前,计算数据库的成本是一个非常简单的等式:软件成本+硬件成本=数据库成本。如果你选择了一个开源产品,软件成本可能会消失。虽然云计算已经从根本上改变了我们使用和部署软件的方式,但
在之前的内容当中,我们为大家介绍过 ChengYing 的安装原理、产品包制作等内容,本篇就延续之前的内容,和大家展开聊聊 ChengYing 产品线部署相关的设计。帮助对「一站式全自动化全生命周期大数据平台运维管家 ChengYing」感兴趣的开发者更好地了解和使用 ChengYing。
产品线
Scala学习总结
一、Scala简介
Scala特点:
Scala 是一门多范式 (multi-paradigm) 的编程语言 ,设计初衷是要集成面向对象编程和函数式编程的各种 特性。
Scala 是一门以 java 虚拟机 (JVM) 为运行环境的编程语言 ,Scala 源代码(.sc
Hadoop官方网站
http://hadoop.apache.org/
Hadoop运行模式
本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不
主机名 ip ssh免密登陆
#修改主机名
hostnamectl set-hostname node1
#修改ip地址
vim /etc/sysconfig/network-scripts/ifcfg-ens33
#node1
IPADDR="192.168.88.101"
NETMASK
摘要:在技术领域中,没有银弹。我们需要不断探索和研究新的技术,结合具体问题和需求,选择最适合的解决方案。
本文分享自华为云社区《知乎问题:如何说服技术老大用 Redis ?》,作者:勇哥java实战分享。
最近在某问答平台看到一个技术讨论:如何说服技术老大用Redis?
“他总觉得用Redis每次
摘要:金山办公携手华为云完成金山办公自主研发的“WPS文档中心系统”与华为云GaussDB相互兼容性测试认证,并获得华为云授予的《技术认证书》。
本文分享自华为云社区《共筑数字化未来 金山办公携手华为云完成文档中心和GaussDB适配》,作者:GaussDB 数据库。
近日,金山办公携手华为云完成
随着世界经济由工业经济向数字经济转型,数据逐步成为关键的生产要素,企业开始将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从,这是一个非常复杂的系统工程。
数据治理架构
实践证明,企业只有构筑一套企业级的数据治理综合体系,明
开源之夏 2023 学生报名已经正式开启!Apache DolphinScheduler 今年继续参与开源之夏的活动,2023 年 4 月 29 日-6 月 3 日 15:00 UTC+8,同学们可以在开源之夏官网 https://summer-ospp.ac.cn/ 找到 Apache Do
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
近期,火山引擎 DataLeap 上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。
传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、
参考
https://juejin.cn/post/7006243598714798094
https://www.cnblogs.com/listenfwind/p/11209383.html
https://docs.scala-lang.org/zh-cn/scala3/book/intro
为什么我们需要学习函数式编程?或者说函数式编程有什么优势?这个系列中我会用 scala 给你讲述函数式编程中的优势,以及一些函数式的哲学。不懂 scala 也没关系,scala 和 java 是类似的,在每篇的开头我也会先说明这节中用到的 scala 语法。
为什么函数式编程这几年火起来
如 Py
摘要:在实际使用过程中,数据库集群级的故障并非高概率事件,如何安全高效地帮助客户备份恢复一部分数据库元素,才是更加实际的需求,这也是细粒度备份恢复的意义所在。
本文分享自华为云社区《GaussDB(DWS)之物理细粒度备份恢复》,作者:我的橘子呢 。
1. 认识物理细粒度备份恢复
相对于集群级备份
这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。
以下为袋鼠云产品功能更新报告第五期内容,更多探索,请继续阅读。
离线开发平台
1.支持工作流参数
背