Datenbanksysteme Klausurvorbereitung

Entwurfstheorie

Funktionale Abhängigkeiten

Funktionale Abhängigkeiten (functional dependencies oder FD) sind statische Integritätsbedingungen. Diese sind semantische Bedingungen, um die Menge der Datenbankzustände einzuschränken.
FDs sind Teil der Informationsanforderungen und werden in Absprache mit dem Anwender bei der Anforderungsanalyse gewonnen

Definition - funktionale Abhängigkeit:

$A, B ⊆ RS$ $RS$ $B$ $A$ funktional abhängig $A$ $B$ $A → B$ $r \in REL(RS)$ $A$ genau ein Wert $B$ gehört:

$t_1, t_2 \in r: t_1[A] = t_2[A] ⇒ t_1[B] = t_2[B]$

Beispiel

$\underline{LName}, LAdr, \underline{Ware}, Preis$ )

Funktionale Abhängigkeiten:
- {LName} → {LAdr}
  - ein Lieferantenname bestimmt eindeutig seine Adresse
- {LName, Ware} → {Preis}
  - {LName, Ware} bestimmt eindeutig den Preis
- {LName} → {LName} (trivial)
- {LName, Ware} → {Ware} (trivial)
- {LName, Ware} → {LAdr} (partiell)

Überprüfung von FDs

$r$ $A → B$ erfüllt sein, so darf folgende SQL-Anfrage kein Ergebnis liefern:


select A, count(distinct B)
from r
group by A
having (count(distinct B) > 1)

Diese Überprüfung garantiert aber nicht, dass auch zukünftig die FD erfüllt ist.

Funktionale Abhängigkeiten sind wichtige Regeln, um die Datenqualität sicherzustellen.

$r$ muss vorher überprüft werden, ob die folgende Anfrage leer ist:


xxxxxxxxxx
select *
from r
where A = a and B <> b

Ziel von FDs

Hohe Datenqualität
- $F$ von FDs
Geringe Kosten, um die Datenqualität zu prüfen
- Anlegen eines Index für jede FD
- Zwar kann jede FD in logarithmischer Zeit geprüft werden, aber die Anzahl der FDs kann sehr hoch sein
- Minimierung der Anzahl der FDs
  - $F$ $F_c$ , die
    - $F$ auskommt
    - $F_c$ abgeleitet werden kann?

Vorgehensweise - Minimierung der Anzahl der FDs

$F$ äquivalente $F_c$ von FDs berechnet werden.

Naiver Ansatz
- $F$ → $F^+$
- $F^+$ liegt
Effizienterer Ansatz
- $A → B$ $F$ ableitbar ist.
- minimalen $F_c$ $F$ $F_c$ ableitbar sind
  - $F_c$ zu überprüfen
Vorgehensweise
1. $F$ $F^+$ $F$ ableitbaren FDs
2. $F^+$ abgeleitet werden kann

Definition - Besondere FDs

$A → B$ trivial $B ⊆ A$
$A → B$ voll $C ⊆ A$ $C → B$ gilt.
- $C$ $A → B$ partielle Abhängigkeit
$A, B ⊆ RS$ $A → B$ $B → A$ $X \in RS - (A \cup B)$ $B → \{X\}$ $\{X\}$ transitiv $A: A →\{X\}$

Hülle einer Menge von FDs

$F$ $F^+$ die Menge aller gültigen FDs berechnet werden.
- $F^+$ Hülle $F$ bezeichnet.
$F^+$ werden folgende Regeln genutzt (Armstrong Axiome):
- Reflexivität: $B⊆ A$ $A \rightarrow B$
- Verstärkung $A \rightarrow B$ $A \cup C \rightarrow B \cup C$
- Transitivität: $A \rightarrow B$ $B \rightarrow C$ $A \rightarrow C$

$F^+$ können mit Hilfe dieser Regeln auch hergeleitet werden.

Ableitungsregeln

Trotz der Eigenschaften der Armstrong-Axiome ist es komfortabler noch folgende Regeln zu benutzen:

Vereinigungsregel $A \rightarrow B$ $A \rightarrow C$ $A \rightarrow B \cup C$
Dekompositionsregel $A \rightarrow B \cup C$ $A \rightarrow B$ $A \rightarrow C$
Pseudotransivität $A \rightarrow B$ $B \cup C \rightarrow D$ $A \cup C \rightarrow D$

Berechnung Hülle per Algorithmus

Algorithmus zur Berechnung der Hülle mit gegebenen F (Menge der FDs einer Anwendung) und A (alle Attribute die von A funktional bestimmt werden)


xxxxxxxxxx
Hülle(F,A):
Erg = A // A → A trivial
While(Erg ändert sich):
  Foreach(B → C in F):
    if(B ⊆ Erg):
      Erg = Erg + C
return Erg

Beispiel: Hüllenberechnung

$F = \{\{A\} \rightarrow \{B\}, \{B\} \rightarrow \{D, E\}, \{C,E\} \rightarrow \{B,F\}, \{F\} \rightarrow \{G\}\}$

$(F,\{A\}) = A^+$

$A_0^+$ $\{A\}$
$A_1^+$ $\{A, B\}$
$A_2^+$ $\{A, B, D, E\}$
$A^+_3$ $\{A, B, D, E\}$ und der Algorithmus terminiert
$A^+$ $\{A, B, D, E\}$

Erklärung zu den einzelnen Schritten:

$A$ hinzu (noch vor der Schleife im Algorithmus)
$A_0^+$ $\{A\} \rightarrow \{B\}$ $B$ unserem Ergebnis hinzufügen.
$\{B\} \rightarrow \{D, E\}$ $B$ $(A_1^+)$ $D$ $E$ dem Ergebnis hinzugefügt werden.

Kanonische Überdeckung

Minimierung $F$ )

$F_c$ , die mit weniger FDs auskommt
$F^+$
Anschließendes Verkleinern der Menge ohne Informationsverlust
$F_c$ $F_c$ $F_c^+$ $F^+$

Algorithmus

$F$ mit funktionalen Abhängigkeiten

$A \rightarrow B$ aus F die Linksreduktion durch:
$X \in A$ $X$ $B ⊆$ $(F, A-X)$
$F$ $A \rightarrow B$ $(A-X) \rightarrow B$
$A \rightarrow B$ die Rechtsreduktion durch:
$Y \in B$ $Y$ $Y \in$ $(F - \{A \rightarrow B\} \cup \{A \rightarrow (B-Y)\}, A)$
$A \rightarrow B$ $A \rightarrow (B-Y)$ ersetzt
$A \rightarrow \empty$ (die im 2-ten Schritt entstanden sind)
$A \rightarrow B_1, ..., A \rightarrow B_k$ $A \rightarrow B_1 \cup$ $\cup B_k$

Beispiel: Berechnung kanonische Überdeckung

$F = \{\{A, B\} \rightarrow \{C\}, \{B\} \rightarrow \{A\}, \{C\} \rightarrow \{D\}, \{D\} \rightarrow \{A\}, \{D\} \rightarrow \{B\}\}$

Schritt 1: Linksreduktion

Info: Einelementige linke Seiten werden übersprungen.

$\{A, B\} \rightarrow \{C\}$ $A$ $B$ $A \in$ $(F, B) = \{A, B, C, D\}$ $\{A, B\} \rightarrow \{C\}$ $\{B\} \rightarrow \{C\}$ .

$F_1 = \{\{B\} \rightarrow \{C\}, \{B\} \rightarrow \{A\}, \{C\} \rightarrow \{D\}, \{D\} \rightarrow \{A\}, \{D\} \rightarrow \{B\}\}$

Schritt 2: Rechtsreduktion

$\{B\} \rightarrow \{C\}$ $C$ $B$ $C$ $B$ $A$ $A$ $C$ muss also weiterhin enthalten bleiben.

Führt man diesen Schritt für alle FDs aus erhält man:

$F_2 = \{\{B\} \rightarrow \{C\}, \{B\} \rightarrow \empty, \{C\} \rightarrow \{D\}, \{D\} \rightarrow \{A\}, \{D\} \rightarrow \{B\}\}$

$A \rightarrow \empty$

$F_3 = \{\{B\} \rightarrow \{C\}, \{C\} \rightarrow \{D\}, \{D\} \rightarrow \{A\}, \{D\} \rightarrow \{B\}\}$

Schritt 4: Fasse alle FDs mit gleicher linker Seite zu einer zusammen

$F_4 = \{\{B\} \rightarrow \{C\}, \{C\} \rightarrow \{D\}, \{D\} \rightarrow \{A, B\}\} = F_c$

Verlustlosigkeit, Hüllentreue Zerlegung

Zerlegung von Relationen

Anomalien $R$ $n$ $r_1, ..., r_n$
Es darf kein Informationsverlust entstehen und die ursprüngliche Relation muss (durch z.B. natural join) reproduzierbar sein

Definition verlustlose Zerlegung:

$R$ $R_1$ $R_2$ , die Zerlegung ist verlustlos, falls:
$(RS_1 \cap RS_2) \rightarrow RS_1 \in F_{RS}^+ \or (RS_1 \cap RS_2) \rightarrow RS_2 \in F_{RS}^+$

Zusätzlich wollen wir, dass die FDs lokal auf den zerlegten Relationen prüfbar sind, daraus ergibt sich folgende Definition.

Definition hüllentreue Zerlegung:

$F_1, ..., F_n$ $r_1, ..., r_n$ . Eine Zerlegung heißt hüllentreu, falls gilt:
$F^+$ $(F_1 \cup ... \cup F_n)^+$

Beispiel: Zerlegung

$F_{RS} = \{\{A\} \rightarrow \{B\}, \{B\} \rightarrow \{C\}, \{A\} \rightarrow \{D,E\}\}$

$RS_1 = \{B, C\}$ $RS_2 = \{A, B, D, E\}$ $RS$ verlustlos und hüllentreu ist.

Verlustlosigkeit:

$(RS_1 \cap RS_2) \rightarrow RS_1 \in F_{RS}^+$ $(RS_1 \cap RS_2) \rightarrow RS_2 \in F_{RS}^+$ gelten muss.

$RS_1 \cap RS_2 \rightarrow RS_2$ $\{B\} \rightarrow \{B, C\} \in F_{RS}^+$ gilt. Somit ist die Zerlegung verlustlos.

Hüllentreue:

$F_{RS}$ $RS_1$ $RS_2$ $\{A\} \rightarrow \{B\}$ $RS_2$ $A$ $B$ in dieser Relation enthalten sind. Somit ergibt sich:

$F_{RS1} = \{\{B\} \rightarrow \{C\}\}$

$F_{RS2} = \{\{A\} \rightarrow \{B\}, \{A\} \rightarrow \{D, E\}\}$

$(F_{RS1} \cup F_{RS2})^+ = F_{RS}^+$ und somit ist die Zerlegung auch hüllentreu.

Normalformen

Normalformen sollen einen guten Datenbankentwurf garantieren.

Schlüsselkandidaten: Gibt es mehrere Schlüssel in einer Relation, nennt man diese auch Schlüsselkandidaten Prime Attribute: Attribute, die Teil eines Schlüsselkandidaten sind Nicht-Prime Attribute: Attribute, die nicht Teil eines Schlüsselkandidaten sind

1. Normalform

Alle Attribute können nur atomare, nicht weiter zerlegbare Werte annehmen.

2. Normalform

Jedes Nicht-Prime Attribut ist von jedem Schlüsselkandidaten voll funktional abhängig.

In diesem Beispiel ist TeilMenge voll funktional vom Schlüsselkandidaten (ProjektId, TeilId) abhängig. Projektleiter ist jedoch nur von ProjektId abhängig, daher wäre es nur partiell und nicht voll funktional vom Schlüsselkandidaten abhängig. Also muss die Relation in zwei Relationen aufgeteilt werden, um die 2. NF zu erhalten.

Info: 2. NF kann nur verletzt sein, wenn der Schlüssel zusammengesetzt ist.

3. Normalform

Es gibt kein Nicht-Prime Attribut, welches von einem Schlüsselkandidaten transitiv abhängig ist.

Projektleiter ist direkt abhängig von ProjektId, ProjektLeiterEmail jedoch nur von Projektleiter und somit transitiv vom abhängig vom Schlüsselkandidaten. Um die Relation in die 3. NF zu bringen muss auch hier wieder eine neue Relation erzeugt werden.

Synthesealgorithmus für die 3. NF (wenn es komplexer wird)

Ziel: Zerlegung einer Universalrelation in Relationen unter folgenden Bedingungen:

Kein Informationsverlust
Bewahrung der funktionalen Abhängigkeiten
Die erzeugten Relationen erfüllen die 3. NF

Eingabe:

Ausgabe:

Relationenschemata in 3. NF

Ablauf:

$F_c$ $F$
$A \rightarrow B \in F_c$ :
- $RS_1 = A \cup B$
- $RS_1$ $F_1 = \{C \rightarrow D | C \cup D ⊆ RS_1\}$ zu

$K$ $U$ $RS_K = K$ $F_K = \empty$ .
- Nur wenn der Kandidatenschlüssel nicht schon vollständig in einer der Relationen enthalten ist. Diese Relation hat dann genau die Attribute des Schlüsselkandidaten und keine funktionalen Abhängigkeiten
Eliminiere alle Schemata, die in einem anderen Schema enthalten sind.
- $RS_2$ $RS_1$ enthalten und kann somit eliminiert werden.

Synthesealgorithmus liefert ein Datenbankschema mit folgenden Eigenschaften:

Alle Relationen sind in der 3. NF
Hüllentreu
Kein Informationsverlust

Beispiel: Synthesealgorithmus bei gegebener kanonischer Überdeckung

$F_c = \{\{B\}\rightarrow \{C,E,F\}, \{A\} \rightarrow \{C,D,E\}, \{D,E\} \rightarrow \{A,F\}\}$

Schritt 2 (Relationenschemata erzeugen):

$R_1: (B, C, E, F)$ $\{B\} \rightarrow \{C,E,F\}$ $R_2: (A,C,D,E)$ $\{A\} \rightarrow \{C,D,E\}$ $R_3: (A,D,E,F)$ $\{D,E\} \rightarrow \{A,F\}$

Schritt 3:

$A$ $B$ $(A, B)$ $(A, B)$ in keiner der Relationen aus Schritt 2 vollständig enthalten ist, muss entsprechend eine 4. Relation erzeugt werden:

$R_4: (A, B)$

Schritt 4:

$R_i$ $R_j$ enthalten ist.