数据库系统概述

数据库系统和文件系统的区别

  1. 问题:
    1. 文件系统:数据之间的关系和约束难以维护,难以应对大型数据管理的需求
    2. 数据库系统引入了抽象层次,包括外部模式、概念模式和内部模式,以更好地管理数据。数据库系统具有强大的数据管理和查询能力,可以更好地应对大型数据管理的需求,同时也可以更好地维护数据之间的关系和约束。
  2. 解决方法是引入三个抽象级别、两种数据独立性
    1. “Two Data Independence”
      1. 物理数据独立性指的是应用程序和数据库系统之间的物理层面的独立性。具体来说,它意味着更改数据的物理表示(比如存储位置、存储格式等)不应该影响应用程序的逻辑表示。例如,将数据从一个文件系统移动到另一个文件系统,应用程序不应该受到影响。
      2. 逻辑数据独立性指的是应用程序和数据库系统之间的逻辑层面的独立性。具体来说,它意味着更改数据的逻辑表示(比如数据模型、数据结构等)不应该影响应用程序的逻辑表示。例如,将一个表拆分成多个表或者合并成一个表,应用程序不应该受到影响。
    2. Three level of abstraction
      1. “three level of abstraction” 意为“三个抽象级别”,是数据库系统中的一个概念。它指的是在数据库系统中,为了解决应用程序与数据之间的分离问题,引入了三个不同的抽象级别来隐藏底层细节,使得应用程序能够更加方便地访问和操作数据。
      2. 外部模式(External Schema):定义了用户或应用程序所看到的数据的逻辑结构和访问方式,是与特定应用程序相关的数据表示。每个外部模式只涉及到数据库中的一部分数据,不需要关心其他部分的数据
      3. 概念模式(Conceptual Schema):定义了整个数据库的逻辑结构和访问方式,是与整个数据库相关的数据表示。它描述了所有数据之间的关系和约束,但不涉及具体的物理存储。
      4. 内部模式(Internal Schema):定义了数据在物理存储介质上如何表示和存储,是与具体存储介质相关的数据表示。它描述了数据的物理存储方式,包括数据的存储位置、存储格式等细节。

Data model

  1. Data semantics:数据语义,数据的含义和解释方式。就是对数据的定义
  2. ER data model & relational model:
    1. ER:基于实体属性和关系的,所以更抽象;操作是基于实体之间的联系
    2. Relational model: 基于表格的;操作是基于关系代数的;一个关系由关系模式(schema)和关系实例(instances)两部分组成
      1. Schema: 定义表格的结构,包括表格的名称、属性名、和属性类型等
      2. Instances: 具体的数据集记录,由元组(tuple)组成;每个元组包含多个属性,每个属性都是单值的,domain:属性的取值范围
  3. key(还是有问题
    1. foreign key:referenced/referening。例子:学生表格、课程表格、选课表格。referenced:学生表格、课程表格。referencing:课程表格。

relational model

  1. Relational algebra expression:(问题 没弄懂
  2. Aggregate:
    1. Result of aggregation dont have name

SQL

  1. DDL ,DML, DCL
    1. DDL: create/drop. Alter table
    2. DML: select insert delete update
    3. DCL: grant revoke
  2. WHERE HAVING difference
    1. 我们不能用 WHERE 作用在 aggregation 上, HAVING 可以(do a filter with HAVING on aggregate function, but not with WHERE)
  3. Set operation(UNION, INTERSECT EXCEPT)
    1. 自动去重
  4. Null
    1. Any comparison with null return unknown
    2. ![Pasted image 20230424003151](./Pasted image 20230424003151.png) 假设这三个是集合,true 包含 unkown,unknow 包含false
  5. EXISTS
    1. More efficient
  6. DIVISION
    1. 总的来说,这个查询的逻辑是:
      • 从 students 表中寻找满足以下条件的学生姓名:
        • 不存在这样一种情况: 有课程 ID 存在于 course 表中,但不存在与当前学生关联的 sc 表中的课程 ID。
      • ![Pasted image 20230424011802](./Pasted image 20230424011802.png)
    2. ppt 例子 ![Pasted image 20230424013054](./Pasted image 20230424013054.png)
  7. JOIN
    1. Natural join:
      1. sql 语句: JOIN… USING (Attribute)
  8. VIEW
    1. WITH CHECK OPTION:对视图进行 UPDATE,INSERT 和 DELETE 操作时要保证更新、插入或删除的行满足视图定义中的谓词条件(即子查询中的条件表达式)![Pasted image 20230424023001](./Pasted image 20230424023001.png)
  9. Modification
    1. Delete ![Pasted image 20230424022820](./Pasted image 20230424022820.png)
    2. Update ![Pasted image 20230424022829](./Pasted image 20230424022829.png)
    3. Insert ![Pasted image 20230424021257](./Pasted image 20230424021257.png)

Database integrity & security

  1. 数据库完整性
    1. 广义完整性: 语义完整性、并发控制、安全控制、DB 故障恢复等
    2. 狭义完整性: 专指语义完整性,DBMS 通常有专门的完整性管理机制与程序来处理语义完整性问题。(本讲义指语义完整性)
  2. 完整性约束
  3. 断言assertion
    1. 一个断言就是一个谓词表达式,希望数据库总能满足的条件 ![Pasted image 20230424030159](./Pasted image 20230424030159.png)
  4. Trigger
    1. 过程性完整性约束
    2. ![Pasted image 20230424025653](./Pasted image 20230424025653.png)
  5. 数据库安全性
    1. 数据库安全性控制 ![Pasted image 20230424030439](./Pasted image 20230424030439.png)
      1. 用户身份鉴别![Pasted image 20230424030630](./Pasted image 20230424030630.png)
      2. 存取控制![Pasted image 20230424030636](./Pasted image 20230424030636.png)
      3. 视图
      4. 审计 ![Pasted image 20230424031146](./Pasted image 20230424031146.png) ![Pasted image 20230424031206](./Pasted image 20230424031206.png)
      5. 数据加密
      6. ![Pasted image 20230424031016](./Pasted image 20230424031016.png) ![Pasted image 20230424031034](./Pasted image 20230424031034.png)
      7. ![Pasted image 20230424031231](./Pasted image 20230424031231.png)

Authorization

  1. grant ![Pasted image 20230424031926](./Pasted image 20230424031926.png)
  2. ![Pasted image 20230424031940](./Pasted image 20230424031940.png)
  3. ![Pasted image 20230424031948](./Pasted image 20230424031948.png)
  4. revoke ![Pasted image 20230424032014](./Pasted image 20230424032014.png)

ER 图

  1. degree of a relationship set:实体数量
  2. roles(没弄懂

范式

  1. Armstrong 公理
    1. ![Pasted image 20230424040716](./Pasted image 20230424040716.png)
  2. canonical cover
    1. 最小依赖集不一定是唯一的
  3. Lossless-join decomposition ![Pasted image 20230424045005](./Pasted image 20230424045005.png)
  4. Dependency preservation![Pasted image 20230424233851](./Pasted image 20230424233851.png)
  5. BCNF decomposition
    1. ![Pasted image 20230424113047](./Pasted image 20230424113047.png) ![Pasted image 20230424113257](./Pasted image 20230424113257.png) ![Pasted image 20230424113340](./Pasted image 20230424113340.png)
  6. 3NF decomposition
    1. 步骤 ![Pasted image 20230424232220](./Pasted image 20230424232220.png)
    2. 例子 ![Pasted image 20230424232305](./Pasted image 20230424232305.png)![Pasted image 20230424232355](./Pasted image 20230424232355.png)

External sort-merge

  1. ![Pasted image 20230424212521](./Pasted image 20230424212521.png) N: pages/blocks B: buffer pool pages
  2. ![Pasted image 20230424212604](./Pasted image 20230424212604.png)

Join![Pasted image 20230424214529](./Pasted image 20230424214529.png)

Block Nested-loop join

  1. ![Pasted image 20230424213756](./Pasted image 20230424213756.png)

Indexed nested-loop join

  1. ![Pasted image 20230424213926](./Pasted image 20230424213926.png)
  2. ![Pasted image 20230424224445](./Pasted image 20230424224445.png)

Merge-join

  1. ![Pasted image 20230424214321](./Pasted image 20230424214321.png)
  2. ![Pasted image 20230424214330](./Pasted image 20230424214330.png)

Hash join

Query optimization

  1. Rules ![Pasted image 20230424220131](./Pasted image 20230424220131.png)

Transaction

  1. ACID
    1. 原子性 atomicity:DBMS 保证事务的一组操作,要么全做,要么全不做
    2. 一致性 consistency:DBMS 保证事务的操作状态是正确的
    3. 隔离性 isolation:DBMS 保证多个事务之间互相不受影响
    4. 持久性 durability:DBMS 保证已提交事务的影响是持久的
  2. Five state:事务有五种状态:活跃(Active)、部分提交(Partial Committed)、失败(Failed)、提交(Committed)和中止(Aborted)。事务在执行过程中从活跃状态开始,经过部分提交状态,最终要么提交,要么中止,失败状态是指事务执行过程中出现了错误或异常,需要中止。
  3. 冲突可串行化(Conflict Serializability):在并发执行的多个事务之间,如果它们的执行顺序对于结果的影响等价于某个串行执行顺序,那么这些事务就是冲突可串行化的。![Pasted image 20230424221047](./Pasted image 20230424221047.png)
  4. 锁 ![Pasted image 20230424221146](./Pasted image 20230424221146.png)
    1. 2PL: 可以保证冲突可串行性的 ;可能会产生死锁 ![Pasted image 20230424221330](./Pasted image 20230424221330.png)
    2. ![Pasted image 20230424225612](./Pasted image 20230424225612.png) ![Pasted image 20230424225749](./Pasted image 20230424225749.png)
    3. 严格2PL 要求在事务提交前,所有的锁都必须释放;而严谨2PL 是在事务提交后才释放锁。

Failure calssification

![Pasted image 20230424230923](./Pasted image 20230424230923.png)