hive join 数据倾斜解决方案

理解join的运行原理

select u.name, o.orderid from order o join user u on o.uid = u.uid;

理解join的作用？

通常我们在执行join的时候，通常是一个表a包含很多的key, 这个key是可重复的，一张表b中对应的key是不能重复且唯一的。(如果两张表包含多个相同的key进行join操作，会产生笛卡尔积, 产生多个结果，显然在生产环境中，这是我们不想看到的)

为什么会产生数据倾斜？

造成Join数据倾斜的原因是Join on的key分布不均匀。 mapreduce底层是根据 key的hash值%reduce个数来进行数据分区的，所以相同的key对打到同一个reduce进行处理。
key值分布不均匀，倾斜key数据都被打到同一个reduce上进行处理, 造成数据倾斜问题。

场景1: 一张大表一张小表的情况？

采用MapJoin的方式, 将小表加载到内存中，执行map端的join, 中间不产生shuffle, 就不会有数据倾斜的情况出现了。

场景2: 两张大表，部分key导致倾斜的情况？

倾斜的key落到一个reduce task上, 导致某一个reduce Task执行缓慢。
对导致倾斜的key单独处理(这里的详细的处理方式就是场景3的处理方式)，和没有导致倾斜的key执行的结果进行 union all。
例如key空值过多导致的数据倾斜问题。

优点：对于join导致的数据倾斜，如果只是某几个key导致了倾斜，采用该方式可以用最有效的方式打散key进行join。而且只需要针对少数倾斜key对应的数据进行扩容n倍，不需要对全量数据进行扩容。避免了占用过多内存。

缺点：如果导致倾斜的key特别多的话，比如成千上万个key都导致数据倾斜，那么这种方式也不适合。

场景3: 两张大表，很多个key导致倾斜的情况？

有很多倾斜key的表a, key分布均匀的表b

1、给表a的key加上100以内的随机前缀，将数据打散 (ceiling函数，向上取整)
select concat_ws("_", ceiling(rand()*99), key) from a;                   tmp_a

2、将表b扩容100倍，给key加上100以内的随机前缀

产出一张临时表, tmp_id, 表中的内容如下: 
id
1
2
3
4
...
99
100

将表b和表tmp_id进行join, 产生笛卡尔积
select concat_ws("_", c.id, b.key) as key, value from b join tmp_id c;     tmp_b

这样表b的数据就扩容了100倍

然后将 tmp_a 和 tmp_b 进行join: 

select a.key, a.value, b.value 
from tmp_a a join tmp_b b 
on a.key = b.key;

这样的话，key就均匀地分配到不同的reduce上了，而且都能和对应的数据关联上，注意执行完成之后，对相应的key进行去掉前缀的操作。

由于对表b进行了扩容，这里需要对reduce端的内存做相应的调整，增加reduce task的内存。

场景3的解决方案的缺点:

优点：对join类型的数据倾斜基本都可以处理，而且效果也相对比较显著，性能提升效果非常不错。

缺点：该方案更多的是缓解数据倾斜，而不是彻底避免数据倾斜。而且需要对整个RDD进行扩容，对内存资源要求很高。

MySQL登录成功后密码修改

场景最近想通过CLI登录一台远古MySQL，结果遇到CLI密码不对，但是，GUI程序之前自动记住密码能够正常登录使用。思路通过GUI方式登录，修改密码后，再让新密码生效后，重新使用CLI方

卷积操作Conv2d详细解释以及案例

重点：1.图片的通道数，卷积核的通道要一样。 2.每个卷积核处理图片后，所有通道要相加，得到一个通道一、单通道图片，单核处理：卷积核也为单通道：【【1，0，1】

解决 Unable to load ‘@webpack-cli/serve‘ command

[webpack-cli] Unable to load '@webpack-cli/serve' command [webpack-cli] TypeError: options.forEach is not a function at WebpackCLI.mak

模型容量，过拟合与欠拟合（VC维与奥卡姆剃刀）

模型的容量：是指其拟合各种函数的能力。容量低的模型很难拟合训练集，容量高的模型容易过拟合。通过处理特征课改变模型容量，例如假设真实数据符合三次分布，那么用二次函数很难拟合(容量低)，加入三次项后效果提高，若用九次项拟合（容量过高）会发生过拟合。

Oracle 数据库启动过程

　　一启动数据库　　Oracle启动过程涉及几种模式，这些模式涉及不同的文件，每个状态下数据库做不同的事情，同时这些模式适用于不同的维护需求，主要的模式有三种：NOMOUN

如何在面试中介绍自己的项目经验【转载】

如何在面试中介绍自己的项目经验在这里小小推荐下我的个人博客 csdn：

【中危】Spring Kafka 反序列化漏洞 (CVE-2023-34040)

DevOps落地实践分享

编译原理概述

文章目录