数据库

mingzaily / 2019-10-18

数据库架构

数据库设计

程序实例
- 存储管理
- 缓存机制
- SQL 解析
- 日志管理
- 权限划分
- 容灾机制
- 索引管理
- 锁管理
存储（文件系统）

索引模块

官方方对索引的定义为：索引是帮助 MySQL 高效获取数据的数据结构

为什么要用索引
- 快速查询数据
- 保证数据的唯一性
索引的优缺点
- 优点
  - 大大加快数据检索速度
  - 创建唯一索引，保证数据库表中每行数据的唯一性
  - 加速表之间的连接
  - 减少查询中分组和排序的时间
- 缺点
  - 需要占用物理空间
  - 对表中数据进行增加、删除和修改时索引也要更新，降低了数据维护速度
什么样的信息能成为索引
- 主键、唯一键以及普通键等等
索引的数据结构
- 生成索引，建立二叉查找树进行二分查找效率 O(logn)
- 生成索引，建立 B-Tree 进行查找效率 O(logn)
  - B-Tree
  - 根节点至少包括两个孩子
  - 树中每个节点最多含有 m 个孩子(m>=2)
  - 除根节点和叶子节点外，其他每个节点至少有 ceil(m/2)个孩子
  - 所有叶子节点都位于同一层
- 生成索引，建立 B+-Tree 进行查找（主流）
  - 定义基本与 B-Tree 一致
  - 非叶子节点的子树指针与关键字个数相同
  - 非叶子节点仅使用索引，数据都保存在叶子节点中
  - 所有叶子节点均有一个链指针指向下一个叶子节点
  - B+-Tree 更适合用来做存储引擎
    - B+树的磁盘读写代价更低
    - B+树的查询效率更加稳定
    - B+树更有利于对数据库的扫描
- 生成索引，建立 Hash 结构进行查找
  - 查询效率更高
  - 缺点
    - 仅仅能满足"="，“IN”，不能使用范围查询
    - 无法被用来避免数据的排序操作
    - 不能利用部分索引键查询
    - 不能避免表扫码
    - 遇到大量 Hash 值相等的情况后性能并不一定就会比 B-Tree 索引高
- BitMap 索引
密集索引和稀疏索引的区别
- 密集索引文件中的每个搜索码值都对应一个索引值
- 稀疏索引文件只为索引码的某些值建立索引项
如何定位并优化慢查询 sql
- 根据慢日志定位慢查询 sql
- 使用 explain 等工具分析 sql
- 修改 sql 或者尽量让 sql 走索引
联合索引的最左匹配原则的成因
- mysql 创建复合索引的规则是首先会对复合索引的最左边，也就是索引中的第一个字段进行排序，在第一个字段排序的基础上，在对索引上第二个字段进行排序，其实就像是实现类似 order by 字段 1，字段 2 这样的排序规则，那么第一个字段是绝对有序的，而第二个字段就是无序的了，因此一般情况下直接只用第二个字段判断是用不到索引的，这就是为什么 mysql 要强调联合索引最左匹配原则的原因
索引是建立得越多越好吗
- 数据量小的表不需要建立索引，建立会增加额外的索引开销
- 数据变更需要维护索引，意味着更多的索引意味着更多的维护成本
- 更多的索引也需要跟多的存储空间