Kapittel 1 · Forelesning 1 · Lærebok kap. 1

Introduksjon til databaser

Hva er en database, hvorfor trenger vi et DBMS, og hvilke deler av systemet sørger for at det hele fungerer — uten at applikasjonen må tenke på det.

01 · Helhetsbilde

Hva er en database

En database er en samling sammenhengende data som beskriver en virksomhet — kunder og kontoer i en bank, studenter og emner ved et universitet, brukere og innlegg på et sosialt nettverk. Et databasebehandlingssystem (DBMS) er et programvarelag som lar mange brukere lagre, oppdatere og hente disse dataene samtidig, effektivt, og uten å miste dem.

Definisjon

Et DBMS er en samling sammenhengende data og et sett med programmer for å aksessere disse dataene. Hovedmålet er å gi en lagringsmekanisme som er både praktisk og effektiv.

Tre kjennetegn på data som hører hjemme i en database

Verdifulle — virksomheten kan ikke fungere uten dem.
Store — vesentlig større enn det som får plass i hovedminnet.
Delte — flere brukere og applikasjoner aksesserer dem samtidig.

Hvor møter du databaser?

BANK

Kontoer & lån

Saldoer, transaksjoner, kredittkortoppgjør

EDU

Universitet

Studenter, emner, karakterer

WEB

Sosiale medier

Brukere, koblinger, innlegg

SHOP

Netthandel

Ordre, lager, anbefalinger

FLY

Reservasjoner

Setekart i sann tid

TLF

Telekom

Samtaler, fakturering, forbruk

GIS

Navigasjon

Veier, ruter, stedsdata

DOC

Dokumentarkiv

Patenter, artikler, forskning

To bruksmodi

OLTP (online transaction processing) — mange brukere, hver henter/oppdaterer små datamengder. Bank, butikk, registrering. Dette er hovedfokus i dette kurset.

OLAP / data analytics — færre brukere, hver leser store datamengder for å oppdage mønstre og lage prediksjoner. Lånevurdering, anbefalingsmotor, business intelligence.

Sjekk forståelsen · Lett

En liten Excel-fil på din egen PC med fem rader om venners bursdager — er dette en database i kursets forstand?

Nei. Det er strukturerte data, men det er ikke verdifullt for en virksomhet, ikke stort, og ikke delt mellom mange brukere. En database er noe DBMS-en hjelper til med å håndtere — samtidighet, integritet, recovery — og en regnearkfil trenger ingenting av dette.

02 · Motivasjon

Hvorfor ikke bare bruke filer

Før relasjonsdatabasenes inntog ble bedrifter drevet av hjemmesnekrede filbasert systemer: Hvert program leste og skrev sine egne filer i sitt eget format. Det fungerer for små problemer. Det havarerer i stor skala — av seks bestemte grunner.

1. Redundans og inkonsistens

Samme student lagres både i musikk-instituttets fil og i matematikk-instituttets fil. Endrer hun adresse, oppdateres bare den ene. Nå er adressen feil — i én av filene.

2. Vanskelig dataaksess

«Finn alle studenter i postnummer 7491 som har tatt over 60 studiepoeng» — finnes det ikke et program for, så må noen skrive ett. Hvert nytt spørsmål krever ny kode.

3. Dataisolering

Data er spredt over filer i ulike formater. Å samle dem i én rapport krever mye lim-kode.

4. Integritetsproblemer

Regelen «kontosaldoen kan ikke gå under null» må kodes inn i hvert eneste program som rører saldoen. Glemmer ett program det, brytes regelen.

5. Atomicity-problemer

Pengeoverføring er to skritt: trekk fra A, legg til B. Hvis maskinen krasjer mellom dem, er pengene borte. Et filsystem har ingen «alt-eller-ingenting».

6. Samtidighetsanomalier

To kasserere trekker fra samme konto samtidig. Begge leser saldoen først, regner uavhengig, og overskriver hverandre. Pengene «forsvinner». Se simulator under.

7. Sikkerhetsproblemer

Ikke alle skal se alt. I et fil-system er tilgangskontroll ad hoc og lett å glemme. DBMS-en sentraliserer det.

Lost update — en konkret race condition

Konto A har 10 000 kr. To kasserere skal samtidig trekke fra: kasserer T₁ skal ta 500 kr, T₂ skal ta 100 kr. Riktig svar er 9 400 kr. Klikk gjennom for å se hva som faktisk kan skje.

Kasserer T₁ — trekker 500 kr

venter…

KONTO A

10 000

Kasserer T₂ — trekker 100 kr

venter…

// Klikk knappene over i den rekkefølgen du vil. Prøv f.eks. T₁ les → T₂ les → T₁ skriv → T₂ skriv.

Lærdom

Begge kasserererne tror de har gjort jobben riktig. Men siden T₂ leste saldoen før T₁ rakk å skrive, baserer T₂ seg på en utdatert verdi. Bankens 500 kr forsvinner i tynn luft. DBMS-en løser dette med transaksjoner og låser (Kap. 8).

Sjekk forståelsen · Middels

I race condition-eksempelet over — hvilket av filsystem-problemene fra lista løser DBMS-en når den hindrer dette?

Samtidighetsanomalier (lost update). DBMS-en bruker concurrency control — typisk to-fase låsing — for å sikre at to transaksjoner som leser og skriver samme data, ikke kan flette operasjonene sine slik at en oppdatering går tapt.

Sjekk forståelsen · Lett

Hvorfor er atomicity umulig å sikre i et naivt filsystem-basert oppsett?

Et filsystem garanterer ikke at flere relaterte skrivinger enten alle slår igjennom eller ingen gjør det. Hvis maskinen krasjer mellom skriving til fil A og fil B, kan halve operasjonen ha lykkes. DBMS-en løser dette ved å logge intensjoner i en WAL (Kap. 8) og spille inn / rulle tilbake ved oppstart etter krasj.

03 · Konseptuell ramme

Hva er en datamodell

En datamodell er et begrepsapparat for å beskrive data, sammenhengene mellom dem, og hvilke regler som må gjelde. Modellen gir oss et språk å snakke om data i, uavhengig av lagringsdetaljer.

Relasjonsmodellen — tabeller med navngitte kolonner

Edgar Codd, 1970. Data lagres som relasjoner (tabeller) med faste kolonner. Hver rad er én oppføring. Sammenhenger uttrykkes ved at en kolonne i én tabell refererer til en kolonne i en annen.

instructor                        department
+-------+------------+----------+ +-----------+----------+--------+
| ID    | name       | dept     | | dept      | building | budget |
+-------+------------+----------+ +-----------+----------+--------+
| 22222 | Einstein   | Physics  | | Physics   | Watson   |  70000 |
| 76766 | Crick      | Biology  | | Biology   | Watson   |  90000 |
| 10101 | Srinivasan | Comp.Sci.| | Comp.Sci. | Taylor   | 100000 |
+-------+------------+----------+ +-----------+----------+--------+

Dominerende modell i dag. Hele Del 1 av kurset handler om denne. Detaljer: Kap. 2.

ER-modellen — bokser, romber, linjer

Brukes til design, ikke til lagring. Entiteter er ting (Student, Emne), relasjoner er sammenhenger (Student tar Emne). Tegnes som diagram, oversettes deretter til tabeller. Detaljer: Kap. 4.

  ┌──────────┐         ┌────────┐         ┌──────┐
  │ Student  │────◇────│  tar   │────◇────│ Emne │
  └──────────┘         └────────┘         └──────┘

Semi-strukturerte data — JSON, XML

Hver post kan ha sitt eget sett med attributter. Bra for løs struktur, vanskelig for konsistente spørringer. Eksempel:

{ "id": 22222, "name": "Einstein", "dept": "Physics" }
{ "id": 76766, "name": "Crick",
  "dept": "Biology", "office": "Watson 305",
  "publications": ["dna-1953", "..."] }

Objekt-basert

Inspirert av OOP. Klasser, arv, metoder lagret i databasen. I dag stort sett integrert som «object-relational» utvidelser av relasjonsdatabaser snarere enn som egen modell.

Sjekk forståelsen · Lett

Hva er hovedforskjellen mellom relasjonsmodellen og en semi-strukturert modell som JSON?

I relasjonsmodellen har alle rader i en tabell samme sett attributter — strukturen er fast og deklarert i skjemaet. I semi-strukturerte modeller kan hver post ha sitt eget sett attributter. Det gir fleksibilitet, men gjør spørringer og integritetssjekker vanskeligere.

04 · Tre nivåer

Lag av abstraksjon

Et DBMS skjuler implementasjonsdetaljer. Bruker som kjører en SQL-spørring trenger ikke vite at radene ligger som komprimerte byte i 8 KB-blokker på en SSD, eller at det finnes en B+-tre-indeks som gjør oppslaget raskt. Denne separasjonen organiseres i tre lag.

View

Visningsnivå — hva brukeren får se

Skreddersydd delmengde av databasen. Sekretæren ser ikke lønninger; lønningsavdelingen ser ikke karakterer. Flere visninger over samme logiske skjema.

Logisk

Logisk nivå — hva som lagres og hvordan det henger sammen

Tabeller, kolonner, fremmednøkler, integritetskrav. Programmerernes hverdag. SQL opererer her. DBA-en designer dette nivået.

Fysisk

Fysisk nivå — hvordan det virkelig ligger på disk

Heap-filer, blokkstørrelser, indekser, kompresjon, plassering på SSD/HDD. Skjult bak det logiske skjemaet.

Sentralt begrep

Fysisk dataindependence — hvis du bytter ut en heap-fil med en B+-tre-organisert fil for å gjøre range-spørringer raskere, skal ingenting på det logiske nivået trenge å endres. Applikasjonen merker det ikke (utover at den blir raskere).

Sjekk forståelsen · Middels

Du legger til en B+-tre-indeks på instructor.dept_name. Hvilket lag endres, og hvilke applikasjoner må skrives om?

Bare det fysiske nivået endres. Det logiske skjemaet (tabellene, kolonnene, integritetskravene) er det samme, og dermed trenger ingen applikasjon å skrives om. Optimizeren merker indeksen og bruker den hvor den hjelper. Dette er presist det physical data independence kjøper oss.

05 · Statisk vs. dynamisk

Skjema og instans

Skjemaet er designet — strukturen, typene, reglene. Det er som typedeklarasjonene i et program. Instansen er innholdet i øyeblikket — det som ligger i tabellene akkurat nå. Den endres for hver INSERT, UPDATE, DELETE; skjemaet endres knapt.

Skjema (sjelden endret)

CREATE TABLE instructor (
  ID        CHAR(5)        PRIMARY KEY,
  name      VARCHAR(20)    NOT NULL,
  dept_name VARCHAR(20),
  salary    NUMERIC(8, 2)
);

Instans kl. 12:00

22222  Einstein    Physics    95000
12121  Wu          Finance    90000
10101  Srinivasan  Comp.Sci.  65000
...

Instans kl. 12:01 (etter en INSERT)

22222  Einstein    Physics    95000
12121  Wu          Finance    90000
10101  Srinivasan  Comp.Sci.  65000
99999  Hopper      Comp.Sci.  88000   ← ny
...

Analogi: I et Java-program er class Instructor { ... } skjemaet, og den faktiske List<Instructor> i minnet er instansen — samme kode, ulik tilstand fra øyeblikk til øyeblikk.

Sjekk forståelsen · Lett

Du legger til en ny rad i instructor. Hva endres — skjemaet, instansen, eller begge?

Bare instansen. Skjemaet ville bare endret seg om du f.eks. hadde lagt til en ny kolonne via ALTER TABLE.

06 · DDL og DML

Databasespråk

SQL er to språk i ett. DDL (Data Definition Language) brukes til å definere skjemaet — CREATE, ALTER, DROP. DML (Data Manipulation Language) brukes til å lese og endre data — SELECT, INSERT, UPDATE, DELETE.

DDL — definere strukturen

CREATE TABLE department (
  dept_name VARCHAR(20) PRIMARY KEY,
  building  VARCHAR(15),
  budget    NUMERIC(12, 2) CHECK (budget >= 0)
);

ALTER TABLE instructor
  ADD CONSTRAINT fk_dept
  FOREIGN KEY (dept_name) REFERENCES department(dept_name);

DDL-utdata legges i data dictionary — en intern tabell med metadata om alle tabeller, kolonner, og constraints. DBMS-en konsulterer denne før hver eneste spørring.

DML — manipulere innholdet

SELECT instructor.name
FROM   instructor
WHERE  instructor.dept_name = 'History';

Resultatet er en ny tabell med én kolonne (name) og radene til alle historikere. SQL er deklarativt: vi sier hva vi vil ha, ikke hvordan den skal hentes. Optimizeren velger plan.

Deklarativ vs. prosedurell

Prosedurelt: «Åpne fila, gå til posisjon 0, les 1024 byte, finn kolonne dept, sammenlign med 'History', skriv ut name, gjenta…». Brukeren forteller hvordan.

Deklarativt (SQL): «Gi meg navnet på instruktørene i historie». Brukeren forteller hva. DBMS-en velger den effektive planen — og kan velge en annen plan i morgen, hvis dataene har endret seg.

Integritetskrav som DDL kan uttrykke

Domenekrav — kolonnen er NUMERIC(8,2), kan ikke inneholde tekst.
Referansiell integritet — instructor.dept_name må finnes i department.dept_name.
Autorisasjon — hvem får read, insert, update, delete?

Sjekk forståelsen · Middels

Hvorfor er en deklarativ DML som SQL bedre enn et prosedurelt bibliotek av C-funksjoner for de fleste applikasjoner?

To grunner: (1) Optimizing — siden brukeren bare sier hva, kan DBMS-en velge en effektiv plan basert på indekser, statistikk, og blokklayout. Brukeren slipper å vite om disse. (2) Fysisk uavhengighet — endrer fysisk lagring seg, eller blir det lagt til en indeks, fortsetter samme SQL å virke uten kodeendring. Et prosedurelt API er låst til implementasjonen.

07 · Transaksjonsgarantier

Fire bokstaver, fire garantier

En transaksjon er en logisk arbeidsenhet — én eller flere SQL-setninger som hører sammen. DBMS-en garanterer fire egenskaper for enhver transaksjon. Klikk en bokstav for detaljer.

Atomicity

Consistency

Isolation

Durability

Atomicity — alt eller ingenting

Hver transaksjon er udelelig. Enten utføres alle skritt, eller ingen. Hvis maskinen krasjer halvveis, ryddes det halvutførte vekk under recovery.

Eksempel: pengeoverføring fra A til B er to skritt — trekk fra A, legg til B. Krasjer maskinen mellom dem, ruller atomicity tilbake debiteringen.

Recovery-manager (Kap. 8) sørger for atomicity og durability ved å skrive en logg-post for hver endring før selve datasiden flushes. Concurrency-control-manager sørger for isolation ved bruk av låser eller multiversioning.

Sjekk forståelsen · Middels

To brukere registrerer seg samtidig på det siste ledige seminaremnet. Hvilken ACID-egenskap forhindrer at begge får plass når det egentlig bare er én ledig?

Isolation. Hver transaksjon skal kjøre som om den var alene. Med riktig isolering vil den ene transaksjonen «se» den andres oppdatering først etter at den er ferdig — slik at bare én av dem leser «1 ledig» og oppdaterer til «0», og den andre tvinges til å se «0» og avvises. (I den underliggende mekanismen handler det om låser eller serializability — men på papiret er det isolation.)

08 · DBMS-en innenfra

Databasemotorens komponenter

Et DBMS er ikke ett program — det er et knippe samarbeidende moduler. Tre hovedkomponenter: query processor (forstår SQL), storage manager (snakker med disk), og transaction manager (lover ACID).

DBMS-arkitektur. Klienter snakker med query processor; lagring og transaksjonhåndtering er skjult bak.

Query processor Storage manager Transaction manager

Hva gjør hver komponent?

DDL-interpreter — leser CREATE TABLE osv. og legger metadata i datakatalogen.
DML-kompilator — oversetter SQL til en kostnadsbasert spørreplan; gjør spørringsoptimalisering.
Query evaluation engine — kjører planen; ber storage manager om data og lar transaction manager gjøre gjeldende.
Buffer manager — holder de heteste blokkene i RAM så de ikke må leses fra disk hver gang.
File manager — vet hvilke blokker som er ledige, hvor radene ligger, hvilke indekser som peker hvor.
Concurrency control — sørger for at parallelle transaksjoner ikke ødelegger for hverandre.
Recovery manager — skriver logg, ruller tilbake aborterte transaksjoner, gjenoppretter etter krasj.

Sjekk forståelsen · Middels

Når du kjører en SELECT i SQL, hvilken komponent gjør først om SQL-teksten til en plan?

DML-kompilatoren. Den parser SQL-en, sjekker mot datakatalogen at tabellene/kolonnene finnes, lager flere alternative spørreplaner (rekkefølge på joins, valg av indekser, valg av algoritmer) og velger den med lavest estimert kostnad. Først da overleverer den planen til query evaluation engine.

09 · Hvor sitter logikken

To-tier vs. tre-tier

Når en applikasjon snakker med databasen, kan den enten gjøre det direkte fra klienten (to-tier) eller gå via en applikasjonsserver (tre-tier). Moderne web- og mobil-applikasjoner er nesten alltid tre-tier.

To-tier

Klient (med SQL-kall)

↓ nettverk

DBMS

Enkelt. Brukes i interne verktøy. Sårbart for sikkerhet — klienten har DB-passord.

Tre-tier

Klient (front-end)

↓ HTTP

Applikasjonsserver

↓ JDBC/ODBC

DBMS

Forretningslogikk samlet i midten. Bedre sikkerhet, ytelse og skalering. Standard for web og mobil.

Sentralisert, parallell, distribuert

Sentralisert — én maskin, eventuelt med flere CPU-er som deler minne.
Parallell — en klynge av maskiner samarbeider om en database for å håndtere store volum.
Distribuert — data ligger geografisk spredd på flere maskiner.

10 · Personae

Hvem bruker en database

Naive brukere

Studenten som registrerer seg

Møter databasen via et webskjema. Vet ikke at det finnes en database der bak. Behovet: én oppgave skal gå glatt.

Application programmers

Utvikleren av studweb

Skriver applikasjonen som tar imot skjema-data, kaller SQL via JDBC eller ORM, og presenterer resultatet i HTML.

Sophisticated users

Analytikeren med ad-hoc-spørsmål

Skriver SQL eller bruker BI-verktøy direkte mot databasen. Ingen forhåndslagde grensesnitt.

DBA

Databaseadministratoren

Ansvar: skjemadesign, indekser, autorisering, backup, ytelsesovervåkning, oppgraderinger.

Sjekk forståelsen · Lett

Når en student logger inn i Inspera og leverer en oppgave, hvilken brukertype er hun?

Naiv bruker. Hun har ingen anelse om hvilken tabell som oppdateres når hun klikker «Lever», og det er hele poenget — view-laget skjuler alt det.

Sjekk forståelsen · Middels

Hvilke av disse oppgavene tilhører databaseadministratoren (DBA), ikke en applikasjonsutvikler?

DBA-oppgaver inkluderer: skjemadefinisjon, valg av lagringsstruktur og aksessmetoder, autorisasjonshåndtering (GRANT/REVOKE), rutinemessig vedlikehold (backup, diskplass, ytelsesovervåkning), og oppgradering. Applikasjonsutvikleren skriver derimot programmer som bruker databasen — hen får tildelt rettigheter av DBA, men endrer ikke skjemaet selv.

11 · Et halvt århundre

Databasesystemenes historie

Det er nyttig å se hvor relasjonsmodellen kom fra — og hva som finnes ved siden av den i dag.

1950–60-tall

Magnetbånd og sekvensielle data

Lønn ble kjørt ved at to bånd ble lest synkront og et tredje skrevet. Ingen direkte oppslag — alt sekvensielt. Punchekort var fortsatt viktig.

Sent 1960–70-tall

Harddisken endrer alt

Med disk kunne data nås direkte uavhengig av rekkefølge. Network- og hierarchical-modellene tillot lister og trær på disk — men programmereren måtte navigere strukturen for hånd.

1970

Codd publiserer relasjonsmodellen

«A Relational Model for Large Shared Data Banks». Én datatype (tabellen), én operasjon-familie (relasjonsalgebra). Programmereren slipper å vite hvordan dataene er lagret. Codd får senere Turing-prisen.

1970–80-tall

System R og Ingres beviser ytelsen

IBMs System R og Berkeleys Ingres gjør relasjonsideen praktisk. SQL kommer fra System R. Tidlig 80-tall: relasjonsdatabaser har kjørt forbi nettverk- og hierarkiske systemer i ytelse — og de er mye enklere å bruke. Oracle, DB2 og Ingres-produktet etableres.

1990-tall

Webben kommer

Databaser må håndtere langt høyere transaksjonsvolum, 24/7-tilgjengelighet, web-grensesnitt. Beslutningsstøtte og data warehousing blomstrer. PostgreSQL og MySQL blir populære som åpen kildekode.

2000-tall

Semi-strukturert & NoSQL

XML, JSON, sosiale grafer presser nye datatyper inn i databasene. NoSQL-bevegelsen — Cassandra, MongoDB, Redis — bytter bort konsistensgarantier mot skalerbarhet. Column-stores og map-reduce dukker opp for analytics.

2010-tall

Skyen og NewSQL

Bedrifter outsourcer databasedrift til skyen. NoSQL-systemene legger gradvis tilbake konsistensgarantier; relasjonsdatabaser legger til skaleringsfunksjoner. «NewSQL» (Spanner, CockroachDB) tilbyr SQL og ACID over et distribuert system.

I dag

Mer SQL enn noen gang

SQL er fremdeles bransjens lingua franca for strukturert data. Vector-databaser (LLM-embeddings), tidsserie-databaser og graf-databaser dekker spesielle nisjer. Men når en startup spør «hvilken database», er svaret nesten alltid PostgreSQL.

Test deg selv

30 spørsmål som dekker hele kapittelet — fra grunnterminologi til vanskelige avveininger og parallellitetsproblemer. De ti første er reveal-spørsmål; de neste tjue er flervalg.

Spørsmål 1 · Lett

Definer kort: hva er forskjellen mellom en database og et DBMS?

Databasen er dataene — de lagrede fakta om en virksomhet. DBMS-en er programvaren som lar brukerne lagre, hente og oppdatere disse dataene effektivt og konsistent. PostgreSQL er et DBMS; tabellene i din applikasjon utgjør én database.

Spørsmål 2 · Lett

Hva står ACID for?

Atomicity — alt-eller-ingenting. Consistency — bevarer integritetskrav. Isolation — som om transaksjonen var alene. Durability — etter commit overlever data krasj.

Spørsmål 3 · Middels

Forklar fysisk dataindependence med ett eksempel.

Fysisk dataindependence er evnen til å endre den fysiske lagringen uten å måtte endre det logiske skjemaet eller applikasjonene. Eksempel: Du legger til en B+-tre-indeks på order(customer_id). Tabellens skjema er uendret, eksisterende SQL fortsetter å virke uten endring; optimizeren bruker bare indeksen når den hjelper. Applikasjonen merker ingenting — annet enn at noen spørringer går raskere.

Spørsmål 4 · Middels

Nevn tre konkrete problemer med å oppbevare bedriftsdata i flat-fil-systemer som DBMS-er løser.

Velg blant: dataredundans (samme info i flere filer som kommer ut av synk), vanskelig ad-hoc-aksess (krever ny kode for hvert nytt spørsmål), integritetsproblemer (regler må kodes i hvert program), atomicity-problemer (krasj kan etterlate halvutførte multi-fil-oppdateringer), samtidighetsproblemer (tap-av-oppdatering når flere skriver samtidig), sikkerhetsproblemer (vanskelig å begrense tilgang granular).

Spørsmål 5 · Middels

Hvorfor er SQL deklarativt et viktig prinsipp — sett fra et yte- og vedlikeholdsperspektiv?

Fordi DBMS-en, ikke applikasjonen, velger hvordan spørringen kjøres. Det betyr (1) optimaliseren kan velge en bedre plan i morgen — f.eks. bruke en ny indeks som DBA-en la til — uten at applikasjonen røres, og (2) den fysiske lagringen kan endres (B-trær, hashing, kompresjon, partisjonering) uten at SQL-en skrives om. Dette gir både ytelse og vedlikeholdbarhet.

Spørsmål 6 · Middels

Hva er forskjellen mellom skjema og instans? Gi en analogi til et programmeringsspråk.

Skjema = struktur/blueprint (tabeller, kolonner, typer, integritetskrav). Instans = innholdet i øyeblikket (de faktiske radene). Analogt med Java: class Person { String name; int age; } er skjemaet; den konkrete List<Person> i minnet med Ada og Linus er instansen. Skjemaet endres sjelden, instansen endres for hver INSERT/UPDATE/DELETE.

Spørsmål 7 · Vanskelig

To brukere kjører samtidig en transaksjon som leser kontosaldoen, regner ny verdi og skriver tilbake. Begge transaksjonene har egen «logikk» som er korrekt isolert sett. Hvorfor er konsistenskravet «sum av saldoer skal være uforandret etter en intern overføring» likevel ikke nok til å garantere riktig resultat? Hvilken ACID-egenskap kommer i tillegg?

Consistency krever bare at hver enkelt transaksjon, kjørt alene, transformerer en gyldig databasetilstand til en annen gyldig tilstand. Hvis to transaksjoner flettes vilkårlig, kan begge oppfylle sin egen konsistensregel og likevel etterlate en sum som er feil. Det er Isolation som garanterer at parallelle transaksjoner gir samme resultat som om de hadde kjørt etter hverandre — derfor er C og I gjensidig nødvendige, ikke overlappende.

Spørsmål 8 · Vanskelig

Hva er forskjellen mellom to-tier og tre-tier-arkitektur, og hvorfor velger moderne webapplikasjoner tre-tier?

To-tier: klienten snakker direkte med databasen via SQL. Forretningslogikken ligger i klienten. Tre-tier: klienten snakker med en applikasjonsserver (HTTP), som så snakker med databasen. Forretningslogikken er sentralisert i app-serveren. Tre-tier vinner fordi (a) klienten trenger ingen databaselegitimasjon, (b) man kan ha mange klienttyper (web, mobil, …) mot samme logikk, (c) lettere å skalere ved å legge til flere app-servere bak en lastbalanserer, (d) bedre sikkerhet og auditabilitet.

Spørsmål 9 · Middels

Hvilken DBMS-komponent er ansvarlig for at en commit-et transaksjon overlever en strømsvikt?

Recovery manager. Den skriver en logg-post (Write-Ahead Logging) for hver endring til en seig logg på disk før dataselve sidene flushes. Etter krasj leser den loggen og spiller om/ruller tilbake slik at alle commit-ede transaksjoner vises i databasen, og alle uavsluttede ryddes vekk. Dette dekkes i Kap. 8.

Spørsmål 10 · Vanskelig

Hvorfor oppsto NoSQL-systemer i 2000-tallet, og hva tilbød de som tradisjonelle SQL-databaser ikke gjorde?

Web-applikasjoner med eksplosive datavolum (sosiale medier, e-handel) hadde to behov tradisjonelle relasjonsdatabaser strevde med: (1) horisontal skalering over mange maskiner, og (2) fleksible, ofte semi-strukturerte data. NoSQL-systemer (Cassandra, MongoDB, …) byttet bort streng konsistens (CAP-teoremet — valgte tilgjengelighet og partisjonstoleranse over konsistens) og deklarative spørringer mot enklere skalering, eventual consistency, og skjema-flexibilitet. I dag har mange NoSQL-systemer beveget seg tilbake mot sterke garantier, og NewSQL-systemer prøver å gi det beste av begge.

Spørsmål 11 · Middels · Arkitekturer

Hvilken databasearkitektur har én server-maskin som utfører arbeid på vegne av flere klient-maskiner?

Klient-server er bærebjelken i en webapplikasjon: nettleser eller mobilapp = klient, databasen kjører på en server. Parallell og distribuert er nivåer over (skalere ut på flere maskiner).

Spørsmål 12 · Vanskelig · DML

Hva er forskjellen på prosedural og deklarativ DML, og hvilken er SQL?

SQL er deklarativ. Det er nettopp dette skillet som lar databasesystemet optimalisere fritt — prosedural kode låser implementasjonen. Relasjonsalgebra er på en måte den prosedurale «ekvivalenten» som SQL kompileres til.

Spørsmål 13 · Middels · Komponenter

Hvilken komponent i DBMS-en er ansvarlig for å oversette en SQL-spørring til en effektiv evalueringsplan?

DML-kompilatoren parser SQL, oversetter til relasjonsalgebra, optimaliserer ved å velge rekkefølge og algoritmer (hash join vs. merge join, indeksbruk osv.), og leverer en plan til evalueringsmotoren.

Spørsmål 14 · Lett · Data dictionary

Hva lagres i data dictionary (også kalt katalogen)?

«Data om data». Når DBMS-en parser SELECT name FROM instructor, slår den opp i data dictionary for å vite at instructor har en kolonne name og hvilken type den har.

Spørsmål 15 · Vanskelig · Buffer manager

Hvorfor er buffer manager så kritisk for ytelsen til en database?

Diskaksess koster ~10ms; RAM-aksess ~100ns. En spørring som «holder seg i bufferen» kan være 100 000× raskere. Erstatningsstrategier (LRU, clock) er sentrale i kap 7. Buffer manager er en del av storage manager-komponenten i F1.

Spørsmål 16 · Middels · Designfaser

Hvilken rekkefølge har de tre fasene i databasedesign?

Du starter abstrakt (hva domenet handler om), oversetter til en konkret datamodell (her: relasjoner), og bestemmer til slutt hvordan det skal lagres. Hver fase tar avgjørelser som forrige fase ikke trengte å bry seg om.

Spørsmål 17 · Vanskelig · ACID-presisjon

Hva skiller Atomicity fra Consistency i ACID?

Atomicity er én alt-eller-ingenting-egenskap. Consistency forutsetter Atomicity, men sier i tillegg at hver enkelt transaksjon, kjørt alene, ikke skal etterlate databasen i en ulovlig tilstand (negativ saldo, brutt FK, osv.). Begge er nødvendige.

Spørsmål 18 · Veldig vanskelig · Race condition

To transaksjoner T₁ og T₂ leser hver konto-saldoen 1000, beregner +500 (T₁) og +200 (T₂), og skriver tilbake. Hva skjer uten isolasjon? Hva er sluttsaldoen?

Klassisk lost update: begge leser 1000, regner uavhengig, skriver tilbake. Den siste skrivingen overstyrer. Isolation (med låser eller MVCC) hindrer dette: én transaksjon må vente på at den andre commit-er. Dette er motivasjonen for transaksjonsbegrepet og hele kap 8.

Spørsmål 19 · Middels · Specialized users

«Specialized users» er den fjerde brukerkategorien i F1. Hva karakteriserer dem?

Specialized users bygger applikasjoner som krever utvidet datamodell (object-relational, spatial, multimedia). De jobber typisk med utvidelsesmoduler eller alternative databaser tilpasset domenet.

Spørsmål 20 · Lett · DBA

Hvilken oppgave hører ikke til DBA-rollen?

DBA tar seg av databaseplattformen. Forretningslogikk er applikasjonsutviklerens domene. Skillet er viktig: DBA gir utviklere tilgang og verktøy; utviklerne bygger applikasjonen oppå.

Spørsmål 21 · Vanskelig · Embedded SQL vs API

F1 nevner to måter applikasjonsprogrammer aksesserer en database. Hva er forskjellen?

Embedded SQL var vanlig i C, COBOL m.fl. — preprosessoren oversetter EXEC SQL ... til vanlige funksjonskall. API-er som JDBC og ODBC er mer fleksible: spørringer kan bygges dynamisk og leveres ved kjøretid. Moderne web-applikasjoner bruker hovedsakelig API-er.

Spørsmål 22 · Middels · Hvorfor NoSQL

Hvilken motivasjon drev fremveksten av NoSQL-systemer på 2000-tallet?

Web-skala (Google, Facebook, Amazon) skapte data-volum og fleksibilitet-krav som SQL-systemer ikke håndterte enkelt. NoSQL ofret deklarative spørringer og streng konsistens for skalering. I dag har mange NoSQL-systemer beveget seg tilbake mot SQL-lignende grensesnitt og sterkere garantier (NewSQL).

Spørsmål 23 · Veldig vanskelig · CAP-teoremet

CAP-teoremet (Brewer) sier at i et distribuert system kan man maksimalt garantere to av tre egenskaper. Hvilke?

CAP er hjørnesteinen i NoSQL-debatten. P (partition tolerance) må velges i et virkelig distribuert system — dermed må man velge mellom C og A. CP (sterke transaksjoner, men ned ved partisjon — som tradisjonell SQL) eller AP (alltid tilgjengelig, men kan returnere foreldede data — som DynamoDB i visse moduser).

Spørsmål 24 · Vanskelig · Logisk dataindependence

Hva er logisk dataindependence (i kontrast til fysisk)?

Tre-nivå-arkitekturen (fysisk, logisk, view) gjør at endringer på ett nivå isoleres. Fysisk dataindependence (legge til indeks) er enkelt; logisk dataindependence er hardere fordi applikasjoner ofte er bundet til skjema-detaljer. Views hjelper: hvis applikasjonen bruker viewet, kan logiske skjemaendringer absorberes der.

Spørsmål 25 · Middels · Eldre datamodeller

Hvilke datamodeller dominerte før relasjonsmodellen tok over på 1980-tallet?

Hierarkiske (IBM IMS) og nettverksmodeller (CODASYL) var bransjestandard på 60- og 70-tallet, men krevde at applikasjonen «navigerte» pekerstrukturer manuelt. Codd's relasjonsmodell (1970) tilbød en ren matematisk basis og deklarativ spørrespråk, og vant gradvis terreng på 80-tallet.

Spørsmål 26 · Lett · Atomicity

En bankoverføring krediterer konto A og debiterer konto B. Strømmen går mellom de to operasjonene. Hva garanterer Atomicity?

Atomicity = «alt-eller-ingenting». Etter en krasj rulles uavsluttede transaksjoner tilbake. Det andre svaret («ingen kan skrive samtidig») beskriver Isolation, ikke Atomicity.

Spørsmål 27 · Vanskelig · Query processor-komponenter

Når en SELECT går gjennom DBMS-en, i hvilken rekkefølge går den gjennom hovedkomponentene?

SQL-strengen parses (syntakstre), oversettes til relasjonsalgebra, optimaliseres (velger beste plan), evalueres (kjører faktiske operasjoner), som ber storage manager om å lese data fra disk via buffer manager.

Spørsmål 28 · Middels · Skjema vs instans

Hvilket av disse er en skjema-endring (ikke en instans-endring)?

Skjemaet er strukturen (kolonner, typer, constraints). Instansen er innholdet (radene). DDL (CREATE/ALTER/DROP) endrer skjema; DML (INSERT/UPDATE/DELETE) endrer instans.

Spørsmål 29 · Veldig vanskelig · Consistency uten Isolation

Hver enkelt transaksjon i en database er bevist konsistent (oppfyller alle integritetsregler isolert sett). Likevel kan databasen ende opp i en ulovlig tilstand. Hvilken ACID-egenskap mangler?

Klassisk eksempel: «sum av saldoer skal ikke bli negativ» er en regel hver transaksjon respekterer alene. Men to parallelle uttak fra samme konto kan begge lese saldo 500, begge ta ut 400, og begge commit-e — sluttsaldo blir −300. Isolation hindrer dette ved å serialisere i kritiske punkter.

Spørsmål 30 · Vanskelig · WAL og recovery

Recovery manager bruker Write-Ahead Logging (WAL). Hva er den definerende regelen?

WAL er det som gjør Durability mulig uten å flushe alle data til disk konstant. Etter en krasj leser recovery manager loggen, ruller frem committede transaksjoner som ikke nådde disk, og ruller tilbake uavsluttede. Detaljer i kap 8 (ARIES).

Når du synes disse spørsmålene sitter, er du klar for Kapittel 2 — Relasjonsmodellen.

Hva er en database

Tre kjennetegn på data som hører hjemme i en database

Hvor møter du databaser?

Hvorfor ikke bare bruke filer

1. Redundans og inkonsistens

2. Vanskelig dataaksess

3. Dataisolering

4. Integritets­problemer

5. Atomicity-problemer

6. Samtidighets­anomalier

7. Sikkerhets­problemer

Lost update — en konkret race condition

Hva er en datamodell

Relasjonsmodellen — tabeller med navngitte kolonner

ER-modellen — bokser, romber, linjer

Semi-strukturerte data — JSON, XML

Objekt-basert

Lag av abstraksjon

Visningsnivå — hva brukeren får se

Logisk nivå — hva som lagres og hvordan det henger sammen

Fysisk nivå — hvordan det virkelig ligger på disk

Skjema og instans

Database­språk

DDL — definere strukturen

DML — manipulere innholdet

Integritets­krav som DDL kan uttrykke

Fire bokstaver, fire garantier

Atomicity — alt eller ingenting

Database­motorens komponenter

Hva gjør hver komponent?

To-tier vs. tre-tier

To-tier

Tre-tier

Sentralisert, parallell, distribuert

Hvem bruker en database

Database­systemenes historie

Test deg selv

4. Integritetsproblemer

6. Samtidighetsanomalier

7. Sikkerhetsproblemer

Databasespråk

Integritetskrav som DDL kan uttrykke

Databasemotorens komponenter

Databasesystemenes historie