淘先锋技术网

首页 1 2 3 4 5 6 7

mysql 5.7之后,对group by的处理有所区别,这里基于一个demo做一些探究

官方文档:

https://dev.mysql.com/doc/refman/5.7/en/group-by-handling.html

https://dev.mysql.com/doc/refman/5.7/en/sql-mode.html#sqlmode_only_full_group_by

 

需求

统计用户登录次数,显示用户Id和姓名,如下:

基于上面的需求,假设目前只有一张'用户登录日志表'可用:

DROP TABLE
IF EXISTS user_login;

CREATE TABLE `user_login` (
	`id` INT (11) NOT NULL AUTO_INCREMENT COMMENT '自增主键',
	`user_id` INT (11) DEFAULT NULL COMMENT '用户Id',
	`user_name` VARCHAR (100) DEFAULT NULL COMMENT '用户姓名(冗余:可变性不大,业务要求不严)',
	`login_time` datetime DEFAULT NULL COMMENT '登录时间',
	PRIMARY KEY (`id`)
) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8 COMMENT = '用户登录日志表';

INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '1', '小A', '2017-09-13 22:06:49');
INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '1', '小A', '2017-09-14 12:06:51');
INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '2', '小B', '2017-09-14 16:16:54');

直观数据如下:

 

问题

先从下面这条实现需求的 sql 谈起:

-- SELECT 后面 包含了GROUP BY 后面没有的一个列 user_name
SELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id;

上面的sql,给人的第一感就是语法会报错,尤其对于部分从oracle过渡到mysql的人。

真实情况是什么样呢?

默认设置下,在mysql 5.7 之前,上面sql的语法是正确的,之后的版本才会报错,如下:

 SELECT list is not in GROUP BY clause and contains nonaggregated column 'user_login.user_name' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by

-- SELECT 后面包含了非聚合的列user_name,而user_name和GROUP BY 后面的列没有函数依赖关系;这个违背了only_full_group_by的sql模式

当然在GROUP BY后面带上列user_name,肯定ok,就不说了,这里我们来探究一下mysql 5.7 之后给出了哪些解决方案。从报错提示中似乎可以得知,如果user_name和user_id之间functionally dependent,就ok,关于什么是functionally dependent,后面再说,这里先说一下mysql的only_full_group_by模式 。

 

only_full_group_by

Reject queries for which the select list, HAVING condition, or ORDER BY list refer to nonaggregated columns that are neither named in the GROUP BY clause nor are functionally dependent on (uniquely determined by) GROUP BY columns.

-- select、HAVING、ORDER BY 后面不能出现‘非聚合的列’(GROUP BY后面没有的列),除非这些非聚合列和GROUP BY后面的列之间‘函数依赖’(唯一决定) .

mysql 5.7之后,默认开启了only_full_group_by的sql模式,通过命令可以查看:

-- 查看全局的sql_mode
SELECT @@GLOBAL .sql_mode;
-- 查看当前会话的sql_mode
SELECT @@SESSION.sql_mode;
-- 结果如下,第一个就是ONLY_FULL_GROUP_BY
ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION

正是因为only_full_group_by的约束,sql才会报错,关闭即可解决问题。

把上面查询出的sql_mode的值,去掉ONLY_FULL_GROUP_BY一项,重新设置一下,2种关闭方式:

SET SESSION sql_mode = 'modes';-- 仅对当前会话有效

SET GLOBAL sql_mode = 'modes'; -- 全局有效

-- 设置当前session的sql_mode
SET SESSION sql_mode = 'STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION';
-- 设置之后,在当前session下,下面的sql不再会报错:
SELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id;

此外还可以通过配置文件来修改sql_mode,这里不探究 ,接下来简单说一下上面提到函数依赖。

 

functionally dependent

functionally dependent(函数依赖) 等同于 uniquely determined(唯一决定) ,简单理解就是,一个字段完全依赖于另一个字段,即其值由另一个字段来决定。比如,一个表的非主键列 uniquely determined by 主键列,我们就可以称它们为函数依赖。

基于上面的测试场景,假设我们还有一张‘用户表‘:

CREATE TABLE `user` (
	`id` INT (11) NOT NULL AUTO_INCREMENT,
	`name` VARCHAR (64) DEFAULT NULL COMMENT '姓名(和主键id函数依赖)',
	PRIMARY KEY (`id`)
) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT '用户表';

INSERT INTO `user` VALUES (1, '小A');
INSERT INTO `user` VALUES (2, '小B');

显然用户name列 functionally dependent on 用户id列,所以下面的sql任何时候都语法正确:

SELECT
	ul.user_id,
	u.name, -- 这一列虽然不是聚合列,但是它和主键u.id是函数依赖的,所以整个sql都ok
	count(*)
FROM
	user_login ul
INNER JOIN user u ON ul.user_id = u.id
GROUP BY
	ul.user_id;

.

any_value

如果多出的非聚合列没有functionally dependent特性,而且我们也不想修改默认的sql_mode的话,  mysql还为我们提供了另一种解决方案,即通过函数any_value,来绕过only_full_group_by模式,如下:

-- any_value会随便选取一个user_name值,通常是第一个
SELECT user_id,any_value(user_name),count(*) FROM user_login GROUP BY user_id;

.

规范

有人会说,费这么大劲干啥呢,直接在最后面补上user_name列不就ok了么,而且这样写也是理所当然:

-- 符合SQL99规范的group by
SELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id,user_name;

确实如此,实际工作中,除非在升级mysql版本之后,发现一些历史遗留的sql出错时,我们才有必要考虑如何去解决这些问题。正常情况下,我们只需要按照 only_full_group_by 的规范来开发就行了,即select、having、order by这些关键字后面的列必须同时出现在group by后面,除非多出的非聚合列和group by后面的列有函数依赖关系。

MongoDB不一样的CRUD

MongoDB的CRUD本文主要是利用Robo3T可视化工具连接远程服务器MongoDB数据库来操作,模拟实际业务情况,没有远程的连接本地服务器均可。1、客户端安装配置下载工具类Robo3T,下载地址https://robomongo.org/download....

PG相对于MySQL不一样的地方

为什么80%的码农都做不了架构师?>>> 一、PG相对于MySQL的优势:1、在SQL的标准实现上要比MySQL完善,而且功能实现比较严谨;2、存储过程的功能支持要比MySQL好,具备本地缓存执行计划的能力;3、对表连接支持较完整...

聊点不一样的用户画像

用户画像和用户特征是一个概念,只是用户画像听起来高大上点,用户特征更接地气。什么是用户画像在度娘上找了个用户画像(如下图),之后也找到了用户画像的概念用户画像用户画像概念用户画像的用处我接触过很多设计...