15+ års erfaring som konsulent og IT-arkitekt i den private & offentlige sektor og i konsulentbranchen.
Peter Hauge Jensen, Forretnings- og IT-arkitekt
15+ års erfaring som leder, projektleder, konsulent og IT-arkitekt i den offentlige sektor og i konsulentbranchen.
Den datadrevne organisation er en strategisk målsætning for mange virksomheder. Et emne, vi har berørt i et tidligere blogindlæg. Her skrev vi bl.a., at begreber (og dermed informationer og i sidste ende data) skal være forståelige og meningsskabende for alle aktører i værdikæden, samt at en oversigt, et datakatalog, over data, og hvor data fødes, er et centralt element i processen mod den datadrevne organisation.
Her vil vi fokusere på det at skabe god datakvalitet, og hvordan datakvalitet kan defineres.
Hvad er datakvalitet?
Det er ofte ganske nemt at svare på hvad dårlig datakvalitet er. Det er, når data ikke lever op til det formål, de skal anvendes til.
Der er utallige eksempler på konsekvenser ved dårlig datakvalitet.
- Hvis der er fejl eller mangler i adressedata, så kører ambulancen forkert.
- Fejl i medicinske prøvesvar om Corona eller kræft skaber falsk tryghed eller unødig bekymring.
- Fejl i kundedata (navn, adresse, kontooplysninger mv.) koster på salg og i rettelser af data.
Omvendt med data af høj kvalitet, hvis de kan leve op til de formål, de skal anvendes til. Bemærk her, at formålet med at skabe data ikke nødvendigvis er identisk med formålet med at anvende data. For at kunne måle datakvalitet, hvilket klart kan anbefales for de mest kritiske data, har Organisationen DAMA defineret følgende 6 dimensioner:
- Komplethed: Er alle relevante dataelementer til stede? Dette set i forhold til gældende forretningsregler. Eks.: Hvis en organisation har besluttet at registrere stillingsbetegnelser på alle medarbejdere, så skal feltet stillingsbetegnelse altid være udfyldt.
- Unikhed: Intet dataelement er registreret mere end én gang.
: Den samme kunde må kun være registreret én gang i kundedatabasen. - Tidslighed: Data skal repræsentere virkeligheden på det tidspunkt, de gør sig gældende for.
: En måling af giftstoffer i en sø skal svare til tilstanden på måletidspunktet. - Validitet: Data er valide, hvis de har korrekt syntaks (i forhold til tilladte datatyper, formater og værdier). Eks.: Alle angivelser af startdatoer for ledighedsperioder er på formen dd-mm-yyyy.
- Korrekthed: Data er korrekte, hvis de svarer til den virkelighed, de repræsenterer.
: En liste over kontaktpersoner hos kunder er opdateret med de senest kendte ændringer. - Konsistens: Der må ikke være modstridende oplysninger i et datasæt eller mellem forskellige repræsentationer af data. Eks.: Hvis Ove Vestergaard refererer til Birte Bæk på organisationsdiagrammet, skal han også gøre det i personaledatabasen.
Selv om de seks dimensioner kan være af meget forskellig relevans og også er delvist overlappende, indfanger de tilsammen nogle typiske datakvalitetsproblemer.
Digitaliseringsstyrelsen har i 2019 lanceret en vejledning om et fælles sprog for datakvalitet. Her er kvalitetsdimensionerne:
- Komplethed
- Korrekthed
- Aktualitet
- Genbrugelighed
Ret op på kvaliteten når data skabes
Med ovenstående kvalitetsdimensioner fra DAMA og Digitaliseringsstyrelsen er det let at konstatere og dokumentere kvalitetsniveauet. Selv om det på kort sigt kan være nødvendigt at rette op på datakvaliteten, hvor data anvendes - bør det kun være første skridt. Det svarer til at rense en forurenet sø, uden at se på, hvor forureningen kommer fra. Fokus skal i stedet rettes imod de processer, hvor data skabes og på den forretningsforståelse, der er eller netop ikke er til stede, når data skabes.
Data skal skabes på en måde, som gør dem anvendelige til senere brug; data skal have semantisk kvalitet. Som en af pionererne inden for forretningsregler, Ronald G. Ross, formulerer det:
”Creating data is a business communication to people in the future”.
Dvs. data skal anvendes i andre kontekster end, hvor de blev skabt.
Semantisk kvalitet betyder ifølge Ross, at data skal være:
- Læsbare: Dvs. skrevet klart, ikke kodet eller kryptisk.
- Forståelige: Dvs. der bruges kun forretningsbegreber med en veldefineret betydning.
- Præcise: Konsistente i forhold til en etableret og fælles begrebsmodel.
- Troværdige: I overensstemmelse med alle relevante forretningsregler.
- Brugbare: Svarende til formålet.
- Tilstrækkelige: Egnede til at opfylde et veldefineret forretningsbehov.
Forretningsregler og begrebsmodeller spiller således en meget væsentlig rolle for at sikre god datakvalitet. Men bemærk, at en bedre datakvalitet kun er én blandt flere positive afledte effekter, idet det primære formål med veldefinerede forretningsregler og begrebsmodeller er at få godt styr på forretningen.
Jo mere optimalt forretningen køres, jo bedre vil kvaliteten blive af de data, der skabes i forretningsprocesserne.
På værktøjssiden kan man arbejde mod højere semantisk kvalitet og dermed afledt bedre datakvalitet ved at tage de rigtige redskaber i brug:
- Brug begrebsmodeller (begrebslister og begrebsdiagrammer) til at beskrive et emneområdes begreber og relationerne imellem dem.
- Brug informationsmodeller og logiske datamodeller til at beskrive den logiske sammenhæng i informationer og data for det valgte emneområde.
Digitaliseringsstyrelsens regler for begrebs- og datamodellering giver gode konkrete anvisninger hertil, herunder hvilket udsnit af den omfattende UML-standard der anvendes - og hvordan.
Ud over relationer og statisk struktur i begreber, informationer og data skabes semantisk kvalitet som nævnt også ved at beskrive og respektere de gældende forretningsregler. Forretningsreglerne kommer konkret i spil og får indflydelse på datakvaliteten, når der i forretningsprocesserne skal træffes forretningsbeslutninger. Dermed udgør forretningens processer, regler og beslutninger et sammenhørende hele, der står på et velbelyst grundlag i form af en præcis, forretningsmæssig forståelse af begreber, informationer og data. På værktøjssiden er det sådan, disse fagbegreber beskrives:
- Forretningsprocesser. Beskrives i BPMN. Processerne kan både beskrives set udefra og set indefra.
De processer, der anvender data, er som nævnt dybt afhængige af de processer, der skaber data, herunder at de dataskabende processer bygger på og respekterer begrebsmodellerne. Tænk bare på et ord som registreringspraksis, der indikerer, hvordan kortsigtede eller lokale hensyn til dagen og vejen kan have betydelige konsekvenser for datakvaliteten på lang sigt. - Forretningsregler. Er dokumenteret flere steder, f.eks. i lovtekster, i begrebsmodeller, i interne politikker etc. Forretningsreglerne bør derimod ikke indbygges direkte i processerne (eller i it-systemerne), da dette har væsentlige ulemper, herunder at ændringer vanskeliggøres.
- Forretningsbeslutninger. Beskrives i DMN. Herved kan de mange individuelle regler bringes ind i en konkret kontekst, så det tydeligt fremgår, hvordan de indgår i processerne.
David Marco, førende metadata ekspert, har et meget fint udsagn om det, der ofte går galt med datakvaliteten:
- You cannot manage what you do not measure
- You cannot measure what you do not understand
- You do not understand…
Det er svært og dyrt at afhjælpe dårlig datakvalitet sent i processen. Det er langt bedre helt at undgå forurening af data ved kilden, end at rense søen, når den først er forurenet. Det samme gælder for data lakes!
Essensen af ovenstående udtrykkes af kort og klart af Roger T. Burlton, Ronald G. Ross og John A. Zachmann i The Business Agility Manifesto: “A main cause of data quality problems is failure to consistently use authorized business definitions and business vocabulary as prescribed by a concept model and to faithfully follow business rules.”