Update Java Notes

Seazean · Seazean · commit c98186e0d4b9 · 2021-12-15T00:51:39.000+08:00
diff --git a/DB.md b/DB.md
@@ -650,8 +650,6 @@ EXPLAIN 执行计划在优化器阶段生成，如果 explain 的结果预估的
 
 ### 数据空间
 
-==TODO：本节知识是抄录自《MySQL 实战 45 讲》不作为重点学习目标，暂时记录方便后续有了新的理解后更新知识==
-
 #### 数据存储
 
 系统表空间是用来放系统信息的，比如数据字典什么的，对应的磁盘文件是 ibdata，数据表空间是一个个的表数据文件，对应的磁盘文件就是表名.ibd
@@ -685,7 +683,7 @@ InnoDB 的数据是按页存储的如果删掉了一个数据页上的所有记
 
 
 
-#### 空间收缩
+#### 重建数据
 
 重建表就是按照主键 ID 递增的顺序，把数据一行一行地从旧表中读出来再插入到新表中，重建表时 MySQL 会自动完成转存数据、交换表名、删除旧表的操作，重建命令：
 
@@ -709,7 +707,7 @@ MySQL 5.6 版本开始引入的 Online DDL，重建表的命令默认执行此
 
 Online DDL 操作会先获取 MDL 写锁，再退化成 MDL 读锁。但 MDL 写锁持有时间比较短，所以可以称为 Online； 而 MDL 读锁，不阻止数据增删查改，但会阻止其它线程修改表结构
 
-问题：想要收缩表空间，执行指令后整体占用空间增大
+问题：重建表可以收缩表空间，但是执行指令后整体占用空间增大
 
 原因：在重建表后 InnoDB 不会把整张表占满，每个页留了 1/16 给后续的更新使用。表在未整理之前页已经占用 15/16 以上，收缩之后需要保持数据占用空间在 15/16，所以文件占用空间更大才能保持
 
@@ -732,6 +730,8 @@ DDL 中的临时表 tmp_table 是在 Server 层创建的，Online DDL 中的临
 
 
 
+==本节知识是抄录自《MySQL 实战 45 讲》，作者目前没有更深的理解，暂时记录，后续有了新的认知后会更新知识==
+
 参考文章：https://time.geekbang.org/column/article/72388
 
 
@@ -3791,7 +3791,7 @@ InnoDB 使用 B+Tree 作为索引结构，并且 InnoDB 一定有索引
 
 * 在 InnoDB 中，表数据文件本身就是按 B+Tree 组织的一个索引结构，这个索引的 key 是数据表的主键，叶子节点 data 域保存了完整的数据记录
 
-* InnoDB 的表数据文件**通过主键聚集数据**，如果没有定义主键，会选择非空唯一索引代替，如果也没有这样的列，MySQL 会自动为 InnoDB 表生成一个**隐含字段**作为主键，这个字段长度为 6 个字节，类型为长整形（MVCC 部分的笔记提及）
+* InnoDB 的表数据文件**通过主键聚集数据**，如果没有定义主键，会选择非空唯一索引代替，如果也没有这样的列，MySQL 会自动为 InnoDB 表生成一个**隐含字段 row_id** 作为主键，这个字段长度为 6 个字节，类型为长整形
 
 辅助索引：
 
@@ -3868,6 +3868,10 @@ InnoDB 存储引擎中有页（Page）的概念，页是 MySQL 磁盘管理的
 * Page Directory：分组的目录，可以通过目录快速定位（二分法）数据的分组
 * File Trailer：检验和字段，在刷脏过程中，页首和页尾的校验和一致才能说明页面刷新成功，二者不同说明刷新期间发生了错误；LSN 字段，也是用来校验页面的完整性
 
+数据页中包含数据行，数据的存储是基于数据行的，数据行有 next_record 属性指向下一个行数据，所以是可以遍历的，但是一组数据至多 8 个行，通过 Page Directory 先定位到组，然后遍历获取所需的数据行即可
+
+数据行中有三个隐藏字段：trx_id、roll_pointer、row_id（在事务章节会详细介绍它们的作用）
+
 
 
 ***
@@ -5529,7 +5533,7 @@ MySQL Server 是多线程结构，包括后台线程和客户服务线程。多
   BEGIN [WORK];
   ```
 
-  说明：只读事务不能对普通的表进行增删改操作，但是可以对临时表增删改
+  说明：不填状态默认是读写事务
 
 * 回滚事务，用来手动中止事务
 
@@ -5614,6 +5618,26 @@ MySQL Server 是多线程结构，包括后台线程和客户服务线程。多
 
 
 
+****
+
+
+
+#### 事务 ID
+
+只读事务不能对普通的表进行增删改操作，但是可以对临时表增删改，读写事务可以对数据表执行增删改查操作
+
+事务在执行过程中对某个表执行了**增删改操作或者创建表**，就会为当前事务分配一个独一无二的事务 ID（对临时表并不会分配 ID），如果当前事务没有被分配 ID，默认是 0
+
+事务 ID 本质上就是一个数字，服务器在内存中维护一个全局变量：
+
+* 每当需要为某个事务分配 ID，就会把全局变量的值赋值给事务 ID，然后变量自增 1
+* 每当变量值为 256 的倍数时，就将该变量的值刷新到系统表空间的 Max Trx ID 属性中，该属性占 8 字节
+* 系统再次启动后，会读取表空间的 Max Trx ID 属性到内存，加上 256 后赋值给全局变量，因为关机时的事务 ID 可能并不是 256 的倍数，会比 Max Trx ID 大，所以需要加上 256 保持事务 ID 是一个递增的数字
+
+**聚簇索引**的行记录除了完整的数据，还会自动添加 trx_id、roll_pointer 隐藏列，如果表中没有主键并且没有非空唯一索引，也会添加一个 row_id 的隐藏列作为聚簇索引
+
+
+
 
 ***
 
@@ -5669,6 +5693,8 @@ MySQL Server 是多线程结构，包括后台线程和客户服务线程。多
 
 ### 原子特性
 
+#### 实现方式
+
 原子性是指事务是一个不可分割的工作单位，事务的操作如果成功就必须要完全应用到数据库，失败则不能对数据库有任何影响。比如事务中一个 SQL 语句执行失败，则已执行的语句也必须回滚，数据库退回到事务前的状态
 
 InnoDB 存储引擎提供了两种事务日志：redo log（重做日志）和 undo log（回滚日志）
@@ -5686,16 +5712,100 @@ undo log 属于逻辑日志，根据每行操作进行记录，记录了 SQL 执
 
 * 对于每个 update，回滚时会执行一个相反的 update，把数据修改回去
 
-undo log 是采用段（segment）的方式来记录，每个 undo 操作在记录的时候占用一个 undo log segment
 
-rollback segment 称为回滚段，每个回滚段中有 1024 个 undo log segment
 
-* 在以前老版本，只支持 1 个 rollback segment，只能记录 1024 个 undo log segment
-* MySQL5.5 开始支持 128 个 rollback segment，支持 128*1024 个 undo 操作
+参考文章：https://www.cnblogs.com/kismetv/p/10331633.html
 
 
 
-参考文章：https://www.cnblogs.com/kismetv/p/10331633.html
+***
+
+
+
+#### DML 解析
+
+##### INSERT
+
+乐观插入：当前数据页的剩余空间充足，直接将数据进行插入
+
+悲观插入：当前数据页的剩余空间不足，需要进行页分裂，申请一个新的页面来插入数据，会造成更多的 redo log，undo log 影响不大
+
+当向某个表插入一条记录，实际上需要向聚簇索引和所有二级索引都插入一条记录，但是 undo log 只需要针对聚簇索引记录，在回滚时会根据聚簇索引去所有的二级索引进行回滚操作
+
+roll_pointer 是一个指针，**指向记录对应的 undo log 日志**，一条记录就是一个数据行，行格式中的 roll_pointer 就指向 undo log
+
+
+
+***
+
+
+
+##### DELETE
+
+插入到页面中的记录会根据 next_record 属性组成一个单向链表，这个链表称为正常链表，被删除的记录也会通过 next_record 组成一个垃圾链表，该链表中所占用的存储空间可以被重新利用，并不会直接清除数据
+
+在页面 Page Header 中，PAGE_FREE 属性指向垃圾链表的头节点，删除的工作过程：
+
+* 将要删除的记录的 delete_flag 位置为 1，其他不做修改，这个过程叫 **delete mark**
+* 在事务提交前，delete_flag = 1 的记录一直都会处于中间状态
+* 事务提交后，有专门的线程将 delete_flag = 1 的记录从正常链表移除并加入垃圾链表，这个过程叫 **purge**
+
+在对一条记录 delete mark 前会将记录的隐藏列 trx_id 和 roll_pointer 的旧值记录到 undo log 对应的属性中，这样就会产生记录的 roll_pointer 指向当前 undo log 记录，当前 undo log 记录的 roll_pointer 指向旧的 undo log 记录，**形成一个版本链**
+
+当有新插入的记录时，首先判断 PAGE_FREE 指向的头节点是否足够容纳新纪录：
+
+* 如果可以容纳新纪录，就会直接重用已删除的记录的存储空间，然后让 PAGE_FREE 指向垃圾链表的下一个节点
+* 如果不能容纳新纪录，就直接向页面申请新的空间存储，并不会遍历垃圾链表
+
+重用已删除的记录空间，可能会造成空间碎片，当数据页容纳不了一条记录时，会判断将碎片空间加起来是否可以容纳，判断为真就会重新组织页内的记录：
+
+* 开辟一个临时页面，将页内记录一次插入到临时页面，此时临时页面时没有碎片的
+* 把临时页面的内容复制到本页，这样就解放出了内存碎片，但是会耗费很大的性能资源
+
+
+
+****
+
+
+
+##### UPDATE
+
+执行 UPDATE 语句，对于更新主键和不更新主键有两种不同的处理方式
+
+不更新主键的情况：
+
+* 就地更新（in-place update），如果更新后的列和更新前的列占用的存储空间一样大，就可以直接在原记录上修改
+
+* 先删除旧纪录，再插入新纪录，这里的删除不是 delete mark，而是直接将记录加入垃圾链表，并且修改页面的相应的控制信息，执行删除的线程不是 purge，是执行更新的用户线程
+
+  插入新记录时可能造成页空间不足，从而导致页分裂
+
+更新主键的情况：
+
+* 将旧纪录进行 delete mark，在更新语句提交后由 purge 线程移入垃圾链表
+* 根据更新的各列的值创建一条新纪录，插入到聚簇索引中
+
+
+
+***
+
+
+
+#### 回滚日志
+
+undo log 是采用段（segment）的方式来记录，每个 undo 操作在记录的时候占用一个 undo log segment
+
+Rollback Segement 称为回滚段，每个回滚段中有 1024 个 undo slot
+
+* 在以前老版本，只支持 1 个 Rollback Segement，只能记录 1024 个 undo log segment
+* MySQL5.5 开始支持 128 个 Rollback Segement，支持 128*1024 个 undo 操作
+
+工作流程：
+
+* 事务执行前需要到系统表空间第 5 号页面中分配一个回滚段（页），获取一个 Rollback Segement Header 页面的地址
+* 回滚段页面有 1024 个 undo slot，每个 slot 存放 undo 链表页面的头节点页号。首先去回滚段的两个 cached 链表看是否有缓存的 slot，缓存中没有就在回滚段中找一个可用的 slot
+* 缓存中获取的 slot 对应的 Undo Log Segment 已经分配了，需要重新分配，然后从 Undo Log Segment 中申请一个页面作为日志链表的头节点，并填入对应的 slot 中
+* 开始记录
 
 
 
@@ -5817,11 +5927,6 @@ undo log 主要分为两种：
 * 事务 1 修改该行数据时，数据库会先对该行加排他锁，然后先记录 undo log，然后修改该行 name 为 Tom，并且修改隐藏字段的事务 ID 为当前事务 1 的 ID（默认为 1 之后递增），回滚指针指向拷贝到 undo log 的副本记录，事务提交后，释放锁
 * 以此类推
 
-补充知识：purge 线程
-
-* 为了实现 InnoDB 的 MVCC 机制，更新或者删除操作都只是设置一下老记录的 deleted_bit，并不真正将过时的记录删除，为了节省磁盘空间，InnoDB 有专门的 purge 线程来清理 deleted_bit 为 true 的记录
-* purge 线程维护了一个 Read view（这个 Read view 相当于系统中最老活跃事务的 Read view），如果某个记录的 deleted_bit 为 true，并且 DB_TRX_ID 相对于 purge 线程的 Read view 可见，那么这条记录一定是可以被安全清除的
-
 
 
 ***
@@ -5943,7 +6048,7 @@ RC、RR 级别下的 InnoDB 快照读区别
 
 ### 持久特性
 
-#### 持久方式
+#### 实现方式
 
 持久性是指一个事务一旦被提交了，那么对数据库中数据的改变就是永久性的，接下来的其他操作或故障不应该对其有任何影响。
 
@@ -6021,7 +6126,9 @@ MTR 的执行过程中修改过的页对应的控制块会加到 Buffer Pool 的
 * oldest_modification：第一次修改 Buffer Pool 中某个缓冲页时，将修改该页的 MTR **开始时**对应的 lsn 值写入这个属性，所以链表页是以该值进行排序的
 * newest_modification：每次修改页面，都将 MTR **结束时**对应的 lsn 值写入这个属性，所以是该页面最后一次修改后对应的 lsn 值
 
-全局变量 checkpoint_lsn 表示当前系统中可以被覆盖的 redo 日志量，当 redo 日志对应的脏页已经被刷新到磁盘后就可以被覆盖重用，此时执行一次 checkpoint 来更新 checkpoint_lsn 的值存入管理信息，刷脏和执行一次 checkpoint并不是同一个线程
+全局变量 checkpoint_lsn 表示当前系统中可以被覆盖的 redo 日志量，当 redo 日志对应的脏页已经被刷新到磁盘后就可以被覆盖重用，此时执行一次 checkpoint 来更新 checkpoint_lsn 的值存入管理信息，刷脏和执行一次 checkpoint 并不是同一个线程
+
+在系统忙碌时，后台线程的刷脏操作不能将脏页快速刷出，导致系统无法及时执行 checkpoint，这时需要用户线程从 flush 链表中把最早修改的脏页刷新到磁盘中，然后执行 checkpoint
 
 使用命令可以查看当前 InnoDB 存储引擎各种 lsn 的值：
 
@@ -6046,6 +6153,10 @@ SHOW ENGINE INNODB STATUS\G
 * 使用哈希表：根据 redo log 的 space ID 和 page number 属性计算出哈希值，将对同一页面的修改放入同一个槽里，可以一次性完成对某页的恢复，**避免了随机 IO**
 * 跳过已经刷新到磁盘中的页面：数据页的 File Header 中的 FILE_PAGE_LSN 属性（类似 newest_modification）表示最近一次修改页面时的 lsn 值，如果在 checkpoint 后，数据页被刷新到磁盘中，那么该页 lsn 属性肯定大于 checkpoint_lsn 
 
+问题：系统崩溃前没有提交的事务的 redo log 可能已经刷盘，这些数据可能在重启后也会恢复
+
+解决：通过 undo log 在服务器重启时将未提交的事务回滚掉，定位到 128 个回滚段，遍历 slot，获取 undo 链表首节点页面的 Undo Segement Header 中的 TRX_UNDO_STATE 属性，表示当前链表的事务属性，如果是活跃的就全部回滚
+
 
 
 参考书籍：https://book.douban.com/subject/35231266/
diff --git a/Java.md b/Java.md
@@ -19,6 +19,15 @@
 
 
 
+初学时笔记内容参考视频：https://www.bilibili.com/video/BV1TE41177mP，后随着学习的深入逐渐增加了很多知识
+
+给初学者的一些个人建议：
+
+* 初学者对编程的认知比较浅显，一些专有词汇和概念难以理解，所以建议观看视频进行入门，大部分公开课视频讲的比较基础
+* 在有了一定的编程基础后，需要看一些经典书籍和技术博客，来扩容自己的知识广度和深度，可以长期保持记录笔记的好习惯
+
+
+
 ***
 
 
@@ -140,8 +149,8 @@ Java 语言提供了八种基本类型。六种数字类型（四个整数型，
   ```
 
   
-  
-  
+
+
 
 ***
 
@@ -4464,7 +4473,7 @@ public class Student implements Comparable<Student>{
 }
 ```
 
-比较器原理：底层是以第一个元素为基准，加一个新元素，就会和第一个元素比，如果大于，就继续和大于的元素进行比较，直到遇到比新元素大的元素为止，放在该位置的左边。（树）
+比较器原理：底层是以第一个元素为基准，加一个新元素，就会和第一个元素比，如果大于，就继续和大于的元素进行比较，直到遇到比新元素大的元素为止，放在该位置的左边。（红黑树）