Mysql高级篇学习总结10：适合创建索引的11种情况、不适合创建索引7的种情况

1、测试数据准备
2、适合创建索引的11种情况
3、限制索引的数目
4、不适合创建索引的７种情况

为了使索引的使用效率更高，创建索引时，必须考虑在哪些字段上创建索引和创建什么类型的索引。

1、测试数据准备

1.1 创建学生表和课程表：

#1.创建学生表和课程表
CREATE TABLE `student_info` (
 `id` INT(11) AUTO_INCREMENT,
 `student_id` INT NOT NULL ,
 `name` VARCHAR(20) DEFAULT NULL,
 `course_id` INT NOT NULL ,
 `class_id` INT(11) DEFAULT NULL,
 `create_time` DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
 PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

CREATE TABLE `course` (
`id` INT(11) NOT NULL AUTO_INCREMENT,
`course_id` INT NOT NULL ,
`course_name` VARCHAR(40) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

1.2 创建随机产生字符串函数、随机数函数

#函数1：创建随机产生字符串函数

DELIMITER //
CREATE FUNCTION rand_string(n INT) 
	RETURNS VARCHAR(255) #该函数会返回一个字符串
BEGIN 
	DECLARE chars_str VARCHAR(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
	DECLARE return_str VARCHAR(255) DEFAULT '';
	DECLARE i INT DEFAULT 0;
	WHILE i < n DO 
       SET return_str =CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));
       SET i = i + 1;
    END WHILE;
    RETURN return_str;
END //
DELIMITER ;

#函数2：创建随机数函数
DELIMITER //
CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11)
BEGIN   
DECLARE i INT DEFAULT 0;  
SET i = FLOOR(from_num +RAND()*(to_num - from_num+1))   ;
RETURN i;  
END //
DELIMITER ;

如果修改失败，可以先将环境变量进行修改：

# 查看环境变量
SELECT @@log_bin_trust_function_creators;
# 修改环境变量
SET GLOBAL log_bin_trust_function_creators = 1;

1.3 创建插入课程表存储过程、创建插入学生信息表存储过程

# 存储过程1：创建插入课程表存储过程
DELIMITER //
CREATE PROCEDURE  insert_course( max_num INT )
BEGIN  
DECLARE i INT DEFAULT 0;   
 SET autocommit = 0;    #设置手动提交事务
 REPEAT  #循环
 SET i = i + 1;  #赋值
 INSERT INTO course (course_id, course_name ) VALUES (rand_num(10000,10100),rand_string(6));  
 UNTIL i = max_num  
 END REPEAT;  
 COMMIT;  #提交事务
END //
DELIMITER ;


# 存储过程2：创建插入学生信息表存储过程
DELIMITER //
CREATE PROCEDURE  insert_stu( max_num INT )
BEGIN  
DECLARE i INT DEFAULT 0;   
 SET autocommit = 0;    #设置手动提交事务
 REPEAT  #循环
 SET i = i + 1;  #赋值
 INSERT INTO student_info (course_id, class_id ,student_id ,NAME ) VALUES (rand_num(10000,10100),rand_num(10000,10200),rand_num(1,200000),rand_string(6));  
 UNTIL i = max_num  
 END REPEAT;  
 COMMIT;  #提交事务
END //
DELIMITER ;

1.4 调用存储过程：

调用存储过程，往课程表里插入1000个课程，往学生表里插入100万条数据

#调用存储过程：
CALL insert_course(1000);
CALL insert_stu(1000000);

分别查看课程表和学生表的数据，可以看到创建的课程表和学生表的数据量都是对的。但是查询学生表的数据量花了16.34s。

mysql> SELECT COUNT(*) FROM course;
+----------+
| COUNT(*) |
+----------+
|     1000 |
+----------+
1 row in set (0.01 sec)

mysql> SELECT COUNT(*) FROM student_info;
+----------+
| COUNT(*) |
+----------+
|  1000000 |
+----------+
1 row in set (16.34 sec)

2、适合创建索引的11种情况

2.1 字段的数值有唯一性的限制

业务上具有唯一特性的字段，即使是组合字段，也必须建成唯一索引。（来源：Alibaba）

2.2 频繁作为 WHERE 查询条件的字段

先查看下目前学生表的索引，只要一个主键索引id。

mysql> SHOW INDEX FROM student_info;
+--------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table        | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+--------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| student_info |          0 | PRIMARY  |            1 | id          | A         |      967000 |     NULL | NULL   |      | BTREE      |         |               |
+--------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
1 row in set (0.00 sec)

１）此时根据student_id进行检索，检索时间大约是200毫秒；（未添加索引）
２）然后给student_id添加索引；
３）添加完索引后，此时检索0.00秒；（添加了索引）

mysql> SELECT course_id, class_id, NAME, create_time, student_id 
    -> FROM student_info
    -> WHERE student_id = 3976580;
Empty set (0.20 sec)

将student_id添加为索引：

mysql> ALTER TABLE student_info
    -> ADD INDEX idx_sid(student_id);
Query OK, 0 rows affected (6.29 sec)
Records: 0  Duplicates: 0  Warnings: 0

给student_id添加完索引后，此时再次检索：

mysql> SELECT course_id, class_id, NAME, create_time, student_id 
    -> FROM student_info
    -> WHERE student_id = 3976580;
Empty set (0.00 sec)

2.3 经常 GROUP BY 和 ORDER BY 的列

１）根据student_id进行group by检索，耗时0.00秒；（添加了索引）
２）将索引idx_sid删除
３）再次根据student_id进行group by检索，耗时460毫秒；（未添加索引）

mysql> SELECT student_id, COUNT(*) AS num 
    -> FROM student_info 
    -> GROUP BY student_id LIMIT 100;
100 rows in set (0.00 sec)

mysql> DROP INDEX idx_sid ON student_info;
Query OK, 0 rows affected (0.11 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> SELECT student_id, COUNT(*) AS num 
    -> FROM student_info 
    -> GROUP BY student_id LIMIT 100;
100 rows in set (0.46 sec)

接下来测试联合索引，这里页很重要！
１）首先先测根据２个列进行检索，耗时大约430毫秒；（未添加索引）
２）然后添加单列索引：student_id，create_time
３）再根据２个列进行检索，耗时大约1480毫秒；（添加了单列索引）
４）然后创建联合索引：idx_sid_cre_time(student_id,create_time DESC)
５）再根据２个列进行检索，耗时大约190毫秒；（添加了联合索引）

mysql> SELECT student_id, COUNT(*) AS num FROM student_info 
    -> GROUP BY student_id 
    -> ORDER BY create_time DESC 
    -> LIMIT 100; 
ERROR 1055 (42000): Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'dbtest1.student_info.create_time' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by

显示报错，可以临时修改下sql_mode，然后再执行，大约需要430毫秒；

mysql> SELECT @@sql_mode;
+-------------------------------------------------------------------------------------------------------------------------------------------+
| @@sql_mode                                                                                                                                |
+-------------------------------------------------------------------------------------------------------------------------------------------+
| ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION |
+-------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

mysql> SET @@sql_mode = 'STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION';
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> SELECT student_id, COUNT(*) AS num FROM student_info   GROUP BY student_id   ORDER BY create_time DESC   LIMIT 100;
100 rows in set (0.43 sec)

测试完未添加索引的，然后添加单列索引：student_id，create_time

mysql> ALTER TABLE student_info
    -> ADD INDEX idx_sid(student_id);
Query OK, 0 rows affected (6.66 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> ALTER TABLE student_info
    -> ADD INDEX idx_cre_time(create_time);
Query OK, 0 rows affected (7.44 sec)
Records: 0  Duplicates: 0  Warnings: 0

添加了单列索引后，此时再进行测试，耗时大约：1480毫秒

mysql> SELECT student_id, COUNT(*) AS num FROM student_info   GROUP BY student_id   ORDER BY create_time DESC   LIMIT 100;
100 rows in set (1.48 sec)

然后再创建联合索引：

ALTER TABLE student_info
ADD INDEX idx_sid_cre_time(student_id,create_time DESC);

添加了联合索引后，此时再进行测试，耗时大约：190毫秒

mysql> SELECT student_id, COUNT(*) AS num FROM student_info   GROUP BY student_id   ORDER BY create_time DESC   LIMIT 100;
100 rows in set (0.19 sec)

2.4 UPDATE、DELETE 的 WHERE 条件列

１）根据name检索进行update，耗时大约420毫秒；（未添加索引）
２）给name字段添加索引；
３）此时再根据name检索进行update，耗时大约0.00秒；（添加了索引）

mysql> UPDATE student_info SET student_id = 10002 
    -> WHERE NAME = '462eed7ac6e791292a79'; 
Query OK, 0 rows affected (0.42 sec)
Rows matched: 0  Changed: 0  Warnings: 0

然后给name字段添加索引：

mysql> ALTER TABLE student_info
    -> ADD INDEX idx_name(NAME);
Query OK, 0 rows affected (7.23 sec)
Records: 0  Duplicates: 0  Warnings: 0

此时再根据name检索进行update，耗时大约0.00秒

mysql> UPDATE student_info SET student_id = 10002   WHERE NAME = '462eed7ac6e791292a79';
Query OK, 0 rows affected (0.00 sec)
Rows matched: 0  Changed: 0  Warnings: 0

2.5 DISTINCT 字段需要创建索引

2.6 多表 JOIN 连接操作时，创建索引注意事项

首先，连接表的数量尽量不要超过 3 张，因为每增加一张表就相当于增加了一次嵌套的循环，数量级增长会非常快，严重影响查询的效率。
其次，对 WHERE 条件创建索引，因为 WHERE 才是对数据条件的过滤。如果在数据量非常大的情况下，没有 WHERE 条件过滤是非常可怕的。
最后，对用于连接的字段创建索引，并且该字段在多张表中的类型必须一致。比如 course_id 在 student_info 表和 course 表中都为 int(11) 类型，而不能一个为 int 另一个为 varchar 类型。

接下来继续进行测试：
１）join两张表，通过name进行检索，大约0.00秒；（添加了索引）
２）删除索引idx_name；
３）此时再join两张表，通过name进行检索，大约0.00秒；（未添加索引）

mysql> SELECT s.course_id, NAME, s.student_id, c.course_name 
    -> FROM student_info s JOIN course c
    -> WHERE NAME = '462eed7ac6e791292a79';
Empty set (0.00 sec)

测试删除索引：idx_name

mysql> DROP INDEX idx_name ON student_info;
Query OK, 0 rows affected (0.42 sec)
Records: 0  Duplicates: 0  Warnings: 0

此时再join两张表，通过name进行检索，大约170毫秒；（未添加索引）

mysql> SELECT s.course_id, NAME, s.student_id, c.course_name 
    -> FROM student_info s JOIN course c
    -> ON s.course_id = c.course_id
    -> WHERE NAME = '462eed7ac6e791292a79';
Empty set (0.17 sec)

2.7 使用列的类型小的创建索引

比如能使用int就不要使用bigint，能使用mediumint就不要使用int，因为：

数据类型越小，查询时进行的比较操作就越快
数据类型越小，索引占用的空间就越少，在一个数据页中就可以放下更多的记录，从而减少磁盘I/O带来的性能损耗，也就意味着可以把更多的数据页缓存在内存中

2.8 使用字符串前缀创建索引

假设字符串很长，需要为这个字符串列建立索引的话，那就意味着对应的B+树有这么２个问题：

B+树索引中**的记录需要把该列的完整字符串存储起来，更费时。而且字符串越长，**在索引中占用的存储空间越大。
如果B+树索引中索引列存储的字符串很长，那在做字符串比较时会占用更多的时间。

可以通过截取字段的前面一部分内容建立索引，这个叫做前缀索引。这样在查找记录时，虽然不能精确的定位到记录的位置，但是能定位到相应前缀所在的位置，然后根据前缀相同的记录的主键值回表查询完整的字符串值。这样既节约空间，又减少了字符串的比较时间，还大体能解决排序的问题。

问题是，截取多少呢？
截取的多了，达不到节省索引存储空间的目的；截取的少了，重复内容太多，字段的三列度会降低。
可以通过以下语句来查询该索引长度的选择度，如果越接近于１，说明散列度越高：

select count(distinct left(列名, 索引长度)) / count(*) from 表名;

这条规则非常重要，在Alibaba的《Java开发手册》中有强制提醒：
【强制】在varchar字段上建立索引时，必须指定索引长度，没必要对全字段建立索引，根据实际文本区分度决定索引长度。

2.9 区分度高(散列性高)的列适合作为索引

2.10 使用最频繁的列放到联合索引的左侧

这样可以较少地建立一些索引。同时，由于‘最左前缀原则’，可以增加联合索引的使用率。

2.11 在多个字段都要创建索引的情况下，联合索引优于单值索引

这一条和第10条的原理基本一致，只要理解了最左前缀原则，这条就比较好理解了。

3、限制索引的数目

在实际工作中，索引的数目并不是越多越好，建议单张表索引数量不超过６个：

每个索引都需要占用磁盘空间，索引越多，需要的磁盘空间就越大；
索引会影响INSERT, DELETE, UPDATE等语句的性能。因为表中数据更改的同时，索引也会同时进行调整和更新
优化器在选择如何优化查询时，会根据统一信息，对每一个可用的索引来进行评估，来生成一个最好的执行计划。因此索引越多，会增加优化器生成执行计划的时间，降低查询性能。

4、不适合创建索引的７种情况

4.1 在where中使用不到的字段，不要设置索引

4.2 数据量小的表最好不要使用索引

4.3 有大量重复数据的列上不要建立索引

结论：当数据重复度大，比如高于 10% 的时候，也不需要对这个字段使用索引。

4.4 避免对经常更新的表创建过多的索引

第一层含义：频繁更新的字段不一定要创建索引。
第二层含义：避免对经常更新的表创建过多的索引。

4.5 不建议用无序的值作为索引

例如身份证、UUID（在索引比较时需要转为ASCII，并且插入时可能造页分裂）、MD5、HASA、无序长字符串等。

Mysql高级篇学习总结10：适合创建索引的11种情况、不适合创建索引7的种情况

Mysql高级篇学习总结10：适合创建索引的11种情况、不适合创建索引7的种情况

1、测试数据准备

1.1 创建学生表和课程表：

1.2 创建随机产生字符串函数、随机数函数

1.3 创建插入课程表存储过程、创建插入学生信息表存储过程

1.4 调用存储过程：

2、适合创建索引的11种情况

2.1 字段的数值有唯一性的限制

2.2 频繁作为 WHERE 查询条件的字段

2.3 经常 GROUP BY 和 ORDER BY 的列

2.4 UPDATE、DELETE 的 WHERE 条件列

2.5 DISTINCT 字段需要创建索引

2.6 多表 JOIN 连接操作时，创建索引注意事项

2.7 使用列的类型小的创建索引

2.8 使用字符串前缀创建索引

2.9 区分度高(散列性高)的列适合作为索引

2.10 使用最频繁的列放到联合索引的左侧

2.11 在多个字段都要创建索引的情况下，联合索引优于单值索引

3、限制索引的数目

4、不适合创建索引的７种情况

4.1 在where中使用不到的字段，不要设置索引

4.2 数据量小的表最好不要使用索引

4.3 有大量重复数据的列上不要建立索引

4.4 避免对经常更新的表创建过多的索引

4.5 不建议用无序的值作为索引

4.6 删除不再使用或者很少使用的索引

4.7 不要定义冗余或重复的索引

猜你喜欢