MySQL灵魂100问

索引相关
关于MySQL的索引,曾经进过次总结,章链接在这 Mysql索引原理及其优化.
1. 什么是索引?
索引是种数据结构,可以帮助我们快速的进数据的查找.
2. 索引是个什么样的数据结构呢?
索引的数据结构和具体存储引擎的实现有关, 在MySQL中使较多的索引有Hash索引,B+树索引等,我们经常使的InnoDB存储
引擎的默认索引实现为:B+树索引.
3. Hash索引和B+树所有有什么区别或者说优劣呢?
先要知道Hash索引和B+树索引的底层实现原理:
hash索引底层就是hash表,进查找时,调次hash函数就可以获取到相应的键值,之后进回表查询获得实际数据.B+树底层实
现是多路平衡查找树.
对于每次的查询都是从根节点出发,查找到叶节点可以获得所查键值,然后根据查询判断是否需要回表查询数据.
那么可以看出他们有以下的不同:
hash索引进等值查询更快(般情况下),但是却法进范围查询.
因为在hash索引中经过hash函数建索引之后,索引的顺序与原顺序法保持致,不能持范围查询.
B+树的的所有节点皆遵循(左节点于节点,右节点于节点,多叉树也类似),天然持范围.
hash索引不持使索引进排序,原理同上.
hash索引不持模糊查询以及多列索引的最左前缀匹配.原理也是因为hash函数的不可预测.AAAA和AAAAB的索引没有相关
性.
hash索引任何时候都避免不了回表查询数据,B+树在符合某些条件(聚簇索引,覆盖索引等)的时候可以只通过索引完成查询.
hash索引虽然在等值查询上较快,但是不稳定.性能不可预测,当某个键值存在量重复的时候,发hash碰撞,此时效率可能极
差.B+树的查询效率较稳定,对于所有的查询都是从根节点到叶节点,且树的度较低.
因此,在多数情况下,直接选择B+树索引可以获得稳定且较好的查询速度.不需要使hash索引.
4. 上提到了B+树在满聚簇索引和覆盖索引的时候不需要回表查询数据,什么是聚簇索引?
在B+树的索引中,叶节点可能存储了当前的key值,也可能存储了当前的key值以及整的数据,这就是聚簇索引和聚簇索引.
在InnoDB中,只有主键索引是聚簇索引,如果没有主键,则挑选个唯键建聚簇索引.如果没有唯键,则隐式的成个键来建
聚簇索引.
当查询使聚簇索引时,在对应的叶节点,可以获取到整数据,因此不再次进回表查询.
5. 聚簇索引定会回表查询吗?
不定,这涉及到查询语句所要求的字段是否全部命中了索引,如果全部命中了索引,那么就不必再进回表查询.
举个简单的例,假设我们在员表的年龄上建了索引,那么当进select age from employee where age < 20 的查询时,在索
引的叶节点上,已经包含了age信息,不会再次进回表查询.
6. 在建索引的时候,都有哪些需要考虑的因素呢?
建索引的时候般要考虑到字段的使频率,经常作为条件进查询的字段较适合.如果需要建联合索引的话,还需要考虑联
合索引中的顺序.
此外也要考虑其他,如防过多的所有对表造成太的压.这些都和实际的表结构以及查询式有关.
7. 联合索引是什么?为什么需要注意联合索引中的顺序?
MySQL可以使多个字段同时建个索引,叫做联合索引.在联合索引中,如果想要命中索引,需要按照建索引时的字段顺序挨个
使,否则法命中索引.
具体原因为:
MySQL使索引时需要索引有序,假设现在建了"name,age,school"的联合索引
那么索引的排序为: 先按照name排序,如果name相同,则按照age排序,如果age的值也相等,则按照school进排序.
当进查询时,此时索引仅仅按照name严格有序,因此必须先使name字段进等值查询,之后对于匹配到的列,其按照age
字段严格有序,此时可以使age字段做索引查找,以此类推.
因此在建联合索引的时候应该注意索引列的顺序,般情况下,将查询需求频繁或者字段选择性的列放在前.此外可以根据特
例的查询或者表结构进单独的调整.
8. 创建的索引有没有被使到?或者说怎么才可以知道这条语句运很慢的原因?
MySQL提供了explain命令来查看语句的执计划,MySQL在执某个语句之前,会将该语句过遍查询优化器,之后会拿到对语句
的分析,也就是执计划,其中包含了许多信息.
可以通过其中和索引有关的信息来分析是否命中了索引,例如possilbe_key,key,key_len等字段,分别说明了此语句可能会使的
索引,实际使的索引以及使的索引度.
9. 那么在哪些情况下会发针对该列创建了索引但是在查询的时候并没有使呢?
使不等于查询
列参与了数学运算或者函数
在字符串like时左边是通配符.类似于'%aaa'.
当mysql分析全表扫描使索引快的时候不使索引.
当使联合索引,前个条件为范围查询,后的即使符合最左前缀原则,也法使索引.
以上情况,MySQL法使索引.
事务相关
1. 什么是事务?
理解什么是事务最经典的就是转账的栗,相信家也都了解,这就不再说边了.
事务是系列的操作,他们要符合ACID特性.最常的理解就是:事务中的操作要么全部成功,要么全部失败.但是只是这样还不够的.
2. ACID是什么?可以详细说下吗?
A=Atomicity
原性,就是上说的,要么全部成功,要么全部失败.不可能只执部分操作.
C=Consistency
系统(数据库)总是从个致性的状态转移到另个致性的状态,不会存在中间状态.
I=Isolation
隔离性: 通常来说:个事务在完全提交之前,对其他事务是不可的.注意前的通常来说加了红,意味着有例外情况.
D=Durability
持久性,旦事务提交,那么就永远是这样了,哪怕系统崩溃也不会影响到这个事务的结果.
3. 同时有多个事务在进会怎么样呢?
多事务的并发进般会造成以下个问题:
脏读: A事务读取到了B事务未提交的内容,B事务后进了回滚.
不可重复读: 当设置A事务只能读取B事务已经提交的部分,会造成在A事务内的两次查询,结果竟然不样,因为在此期间B事务
进了提交操作.
幻读: A事务读取了个范围的内容,同时B事务在此期间插了条数据.造成"幻觉".
4. 怎么解决这些问题呢?MySQL的事务隔离级别了解吗?
MySQL的四种隔离级别如下:
未提交读(READ UNCOMMITTED)
这就是上所说的例外情况了,这个隔离级别下,其他事务可以看到本事务没有提交的部分修改.因此会造成脏读的问题(读取到了其
他事务未提交的部分,之后该事务进了回滚).
这个级别的性能没有够的优势,但是有很多的问题,因此很少使.
已提交读(READ COMMITTED)
其他事务只能读取到本事务已经提交的部分.这个隔离级别有不可重复读的问题,在同个事务内的两次读取,拿到的结果竟然不
样,因为另外个事务对数据进了修改.
REPEATABLE READ(可重复读)
可重复读隔离级别解决了上不可重复读的问题(看名字也知道),但是仍然有个新问题,就是幻读
当你读取id> 10 的数据时,对涉及到的所有加上了读锁,此时例外个事务新插了条id=11的数据,因为是新插的,所以不
会触发上的锁的排斥
那么进本事务进下次的查询时会发现有条id=11的数据,上次的查询操作并没有获取到,再进插就会有主键冲突的问
题.
SERIALIZABLE(可串化)
这是最的隔离级别,可以解决上提到的所有问题,因为他强制将所以的操作串执,这会导致并发性能极速下降,因此也不是很
常.
5. Innodb使的是哪种隔离级别呢?
InnoDB默认使的是可重复读隔离级别.
6. 对MySQL的锁了解吗?
当数据库有并发事务的时候,可能会产数据的不致,这时候需要些机制来保证访问的次序,锁机制就是这样的个机制.
就像酒店的房间,如果家随意进出,就会出现多抢夺同个房间的情况,在房间上装上锁,申请到钥匙的才可以住并且将房
间锁起来,其他只有等他使完毕才可以再次使.
7. MySQL都有哪些锁呢?像上那样进锁定岂不是有点阻碍并发效率了?
从锁的类别上来讲,有共享锁和排他锁.
共享锁: 叫做读锁. 当要进数据的读取时,对数据加上共享锁.共享锁可以同时加上多个.
排他锁: 叫做写锁. 当要进数据的写时,对数据加上排他锁.排他锁只可以加个,他和其他的排他锁,共享锁都相斥.
上的例来说就是的为有两种,种是来看房,多个起看房是可以接受的. 种是真正的住晚,在这期间,论是
想住的还是想看房的都不可以.
锁的粒度取决于具体的存储引擎,InnoDB实现了级锁,级锁,表级锁.
他们的加锁开销从,并发能也是从到.
表结构设计
1. 为什么要尽量设定个主键?
主键是数据库确保数据在整张表唯性的保障,即使业务上本张表没有主键,也建议添加个增的ID列作为主键.
设定了主键之后,在后续的删改查的时候可能更加快速以及确保操作数据范围安全.
2. 主键使增ID还是UUID?
推荐使增ID,不要使UUID.
因为在InnoDB存储引擎中,主键索引是作为聚簇索引存在的
也就是说,主键索引的B+树叶节点上存储了主键索引以及全部的数据(按照顺序)
如果主键索引是增ID,那么只需要不断向后排列即可,如果是UUID,由于到来的ID与原来的不确定,会造成常多的数据插,
数据移动,然后导致产很多的内存碎,进造成插性能的下降.
总之,在数据量些的情况下,增主键性能会好些.
图来源于《性能MySQL》: 其中默认后缀为使增ID,_uuid为使UUID为主键的测试,测试了插100w和300w的性能.
关于主键是聚簇索引,如果没有主键,InnoDB会选择个唯键来作为聚簇索引,如果没有唯键,会成个隐式的主键.
If you define a PRIMARY KEY on your table, InnoDB uses it as the clustered index.
If you do not define a PRIMARY KEY for your table, MySQL picks the first UNIQUE index that has only NOT NULL columns as
the primary key and InnoDB uses it as the clustered index.
3. 字段为什么要求定义为not null?
MySQL官这样介绍:
NULL columns require additional space in the rowto record whether their values are NULL. For MyISAM tables, each NULL
columntakes one bit extra, rounded up to the nearest byte.
null值会占更多的字节,且会在程序中造成很多与预期不符的情况.
4. 如果要存储的密码散列,应该使什么字段进存储?
密码散列,盐,份证号等固定度的字符串应该使char不是varchar来存储,这样可以节省空间且提检索效率.
存储引擎相关
1. MySQL持哪些存储引擎?
MySQL持多种存储引擎,如InnoDB,MyISAM,Memory,Archive等等.
在多数的情况下,直接选择使InnoDB引擎都是最合适的,InnoDB也是MySQL的默认存储引擎.
1. InnoDB和MyISAM有什么区别?
InnoDB持事物，MyISAM不持事物
InnoDB持级锁，MyISAM持表级锁
InnoDB持MVCC, MyISAM不持
InnoDB持外键，MyISAM不持
InnoDB不持全索引，MyISAM持。
零散问题
1. MySQL中的varchar和char有什么区别.
char是个定字段,假如申请了char(10) 的空间,那么论实际存储多少内容.该字段都占10个字符,varchar是变的
也就是说申请的只是最度,占的空间为实际字符度+1,最后个字符存储使了多的空间.
在检索效率上来讲,char > varchar,因此在使中,如果确定某个字段的值的度,可以使char,否则应该尽量使varchar.例如存
储MD5加密后的密码,则应该使char.
2. varchar(10)和int(10)代表什么含义?
varchar的10代表了申请的空间度,也是可以存储的数据的最度,int的10只是代表了展的度,不10位以0填充.
也就是说,int(1)和int(10)所能存储的数字以及占的空间都是相同的,只是在展时按照度展.
3. MySQL的binlog有有种录格式?分别有什么区别?
有三种格式,statement,row和mixed.
statement模式下,记录单元为语句.即每个sql造成的影响会记录.由于sql的执是有上下的,因此在保存的时候需要保存
相关的信息,同时还有些使了函数之类的语句法被记录复制.
row级别下,记录单元为每的改动,基本是可以全部记下来但是由于很多操作,会导致量的改动(如alter table),因此
这种模式的件保存的信息太多,志量太.
mixed. 种折中的案,普通操作使statement记录,当法使statement的时候使row.
此外,新版的MySQL中对row级别也做了些优化,当表结构发变化的时候,会记录语句不是逐记录.
4. 超分怎么处理?
超的分般从两个向上来解决.
数据库层,这也是我们主要集中关注的(虽然收效没那么)
类似于select * from table where age > 20 limit 1000000,10 这种查询其实也是有可以优化的余地的.
这条语句需要load1000000数据然后基本上全部丢弃,只取10条当然较慢.
我们可以修改为select * from table where id in (select id from table where age > 20 limit 1000000,10)
这样虽然也load了百万的数据,但是由于索引覆盖,要查询的所有字段都在索引中,所以速度会很快.
同时如果ID连续的好,我们还可以select * from table where id > 1000000 limit 10 ,效率也是不错的
优化的可能性有许多种,但是核思想都样,就是减少load的数据.
从需求的度减少这种请求….主要是不做类似的需求(直接跳转到百万之后的具体某.只允许逐查看或者按照给定
的路线,这样可预测,可缓存)以及防ID泄漏且连续被恶意攻击.
解决超分,其实主要是靠缓存,可预测性的提前查到内容,缓存redis等k-V数据库中,直接返回即可.
在阿巴巴《Java开发册》中,对超分的解决办法是类似于上提到的第种.
5. 关过业务系统的sql耗时吗?统计过慢查询吗?对慢查询都怎么优化过?
在业务系统中,除了使主键进的查询,其他的我都会在测试库上测试其耗时,慢查询的统计主要由运维在做,会定期将业务中的慢
查询反馈给我们.
慢查询的优化先要搞明慢的原因是什么? 是查询条件没有命中索引?是load了不需要的数据列?还是数据量太?
所以优化也是针对这三个向来的,
先分析语句,看看是否load了额外的数据,可能是查询了多余的并且抛弃掉了,可能是加载了许多结果中并不需要的列,对
语句进分析以及重写.
分析语句的执计划,然后获得其使索引的情况,之后修改语句或者修改索引,使得语句可以尽可能的命中索引.
如果对语句的优化已经法进,可以考虑表中的数据量是否太,如果是的话可以进横向或者纵向的分表.
6. 上提到横向分表和纵向分表,可以分别举个适合他们的例吗?
横向分表是按分表.假设我们有张表,主键是增ID且同时是的ID.数据量较,有1亿多条,那么此时放在张表的查
询效果就不太理想.
我们可以根据主键ID进分表,论是按尾号分,或者按ID的区间分都是可以的.
假设按照尾号0-99分为100个表,那么每张表中的数据就仅有100w.这时的查询效率疑是可以满要求的.
纵向分表是按列分表.假设我们现在有张章表.包含字段id-摘要-内容.系统中的展形式是刷新出个列表,列表中仅包含标
题和摘要
当点击某篇章进详情时才需要正内容.此时,如果数据量,将内容这个很且不经常使的列放在起会拖慢原表的查
询速度.
我们可以将上的表分为两张. id-摘要, id-内容.当点击详情,那主键再来取次内容即可.增加的存储量只是很的主键字
段.代价很.
当然,分表其实和业务的关联度很,在分表之前定要做好调研以及benchmark.不要按照的猜想盲操作.
7. 什么是存储过程？有哪些优缺点？
存储过程是些预编译的SQL语句。
1、更加直的理解：存储过程可以说是个记录集，它是由些T-SQL语句组成的代码块
这些T-SQL语句代码像个法样实现些功能（对单表或多表的增删改查），然后再给这个代码块取个名字，在到这个
功能的时候调他就了。
2、存储过程是个预编译的代码块，执效率较,个存储过程替代量T_SQL语句，可以降低络通信量，提通信速率,
可以定程度上确保数据安全
但是,在互联项中,其实是不太推荐存储过程的,较出名的就是阿的《Java开发册》中禁使存储过程
我个的理解是,在互联项中,迭代太快,项的命周期也较短,员流动相于传统的项也更加频繁
在这样的情况下,存储过程的管理确实是没有那么便,同时,复性也没有写在服务层那么好.
8. 说说三个范式
第范式: 每个列都不可以再拆分.
第范式: 主键列完全依赖于主键,不能是依赖于主键的部分.
第三范式: 主键列只依赖于主键,不依赖于其他主键.
在设计数据库结构的时候,要尽量遵守三范式,如果不遵守,必须有够的理由.如性能. 事实上我们经常会为了性能妥协数据库的
设计.
9. MyBatis 中的 #
乱了个奇怪的问题…..我只是想单独记录下这个问题,因为出现频率太了.
# 会将传的内容当做字符串,$会直接将传值拼接在sql语句中.
所以#可以在定程度上预防sql注攻击.

MySQL灵魂100问

浏览过的版块