Vore ønsker: Fire databaser

Hans Christian Jelstrup, Nils Mulvad og Malene Østergaard Sørensen i paneldebat under ledelse af chefkonsulent Martin Jensen Buch fra IT-Branchen. Foto: Tommy Kaas

Aktindsigt Scraping Analyser

Vore ønsker: Fire databaser

Nils Mulvad
Publiceret 27. oktober 2022
Sidst ændret 22. juli 2023

Åbn produktregistret, registret over konkursryttere, arbejdsmiljøsmiley for udenlandske virksomheder og de ikke-anonymiserede retslister. Det er de fire vigtigste aktuelle datasæt, som myndighederne snarest bør give adgang til.

Det fremgik af mit indlæg i en paneldebat den 26. oktober 2022 om bedre udnyttelse af grunddata.

Paneldebatten var en del af konferencen om Danmarks Data, arrangeret af IT-Branchen og Styrelsen for Dataforsyning og Infrastruktur. Desuden deltog Malene Østergaard Sørensen, Vice President for Information Management i Atea, og vicedirektør i ATP, Hans Christian Jelstrup, i debatten.

Jeg optrådte på vegne af Dafago, Dansk Forum for Arbejde med Grunddata og andre og andre Offentlige data. Dafago er et nystiftet netværk for virksomheder, der arbejder med data. Sammen med Experian, Atkins og Realview har Kaas & Mulvad stiftet et ikke-kommercielt forum, der skal komme med input om vore ønsker til data fra det offentlige.

En anden grund til min deltagelse er mine erfaringer som partner og direktør i Kaas & Mulvad. I mere end 25 år har jeg sammen med Tommy Kaas skaffet og analyseret data for nyhedsmedier.

De fire databaser

Et af spørgsmålene til de tre paneldeltagere var, hvilke offentlige data de særligt ønskede. Der kan jo være mange, men jeg valgte at pege på dem, Kaas & Mulvad især mærker i øjeblikket i vores arbejde med data for medierne.

Produktregistret. Registret er hemmeligt. Det indeholder bl.a. oplysninger om farlige stoffer og kemikalier, som indgår i dansk produktion. Hemmeligholdelsen følger EU-regler og er i vores opfattelse i strid med andre EU-regler om miljø-åbenhed. I praksis betyder det, at medarbejdere og befolkningen ikke ved, hvor og hvordan meget giftige kemikalier, herunder PFAS, indgår i produktion og produkter. Det er de giftige stoffer, vi ønsker fritaget for hemmeligholdelsen.
Konkursryttere. Registret er hemmeligt og beskytter i høj grad konkursrytterne. Vi kan se nogle af dem, når de optræder i Statstidende, fordi en forkyndelse ikke har kunnet afleveres. Men det er oftest stråmændene, der er her. Hemmeligholdelsen beskytter de værste konkurssyndere og gør det svært at identificere svindler-netværk.
Arbejdsmiljøsmileys for udenlandske virksomheder. De udenlandske virksomheder skal registrere sig i RUT-registret i Arbejdstilsynet og de bliver udsat for kontrol med arbejdsmiljøet ligesom de danske virksomheder, men resultaterne bliver ikke offentliggjort, som de gør for danske. Og Arbejdstilsynet vil ikke udlevere dem ved anmodning om aktindsigt.
De ikke anonymiserede retslister. I dag kan enkeltpersoner i nyhedsmedier få elektronisk adgang til disse lister, ligesom de hænger som opslag i de enkelte retter. I dag bruger medierne megen tid på at gennemgå disse lister manuelt og sende de enkelte sager videre til den journalist, der skal dække sagen. En elektronisk adgang kunne bevare personbeskyttelsen, men lette det meget omfattende arbejde, som medierne er nødt til i dag.

Dårlig datakvalitet

I vores arbejde med data fra det offentlige oplever vi disse problemer:

Fejl i data – også systematiske. Før vi i praksis kan benytte data fra offentlige myndigheder, er vi nødt til at teste dem på en lang række områder for at identificere fejl som dobbeltregistreringer, fejlindtastninger, forkerte navne, adresser, etc. Det er ofte langt den største del af arbejdet, når vi skal tage et nyt datasæt i brug. Manglende data i datasættet er en del af dette. Kvalitetskontrol af data kunne med fordel indføres mange steder – især for at rette systematiske fejl.
Dårlig dokumentation. Vi mangler mange steder dokumentation med beskrivelse af udtræksmuligheder, databeskrivelse, oplysning om begrænsninger i data, etc. Der forestår derfor ofte en lang dialog med myndigheden om dette..
Pludselige og dårligt varslede tekniske skift. Myndigheder opdaterer deres systemer og ændrer på vilkår for udtræk med kort eller intet varsel. Eller der kommer et stop for data på grund af nedbrud eller andet. Her er kommunikationen med brugerne ofte meget mangelfuld. Det kunne være rart med et brugerforum, hvor de tog kunderne alvorligt, hørte dem om ønsker og forsøgte at løse overgangen til nye miljøer med en testperiode.
Mange forskellige løsninger. Vi oplever mange forskellige måder, som det offentlige giver adgang til data på. Ofte er det tænkt snævert ud fra myndighedens it-system. Her kunne der arbejdes en del med at få skabt mere ensartede systemer. Der kunne tænkes mere i det elektroniske samarbejde med eksterne, så IT gjorde det lettere for alle parter og ikke kun myndigheden.
Mangel på standarder. Når en myndighed driver et system med flere aktører til at indtaste data, ser vi ofte, at der mangler veldefinerede standarder for de enkelte datafelter. Vi så det selv for nylig i et arbejde med planlagte solcelleanlæg i de forskellige kommuner.

Hvad gør vi selv

Et andet godt spørgsmål til paneldeltagerne var, hvad vi selv gør for at forbedre anvendelsen.

Kaas & Mulvad har i mange år forsøgt at åbne for data ved at køre en række mere principielle aktindsigtssager, og vi har indgået i mange dialoger med myndigheder.

Det afgørende er dog også, at anvendelse af data skal kunne dækkes økonomisk, helst ved at være en forretning – eller kunne blive en forretning på et tidspunkt. På den ene eller anden måde.

Når vi tager fat i anvendelsen af et nyt datasæt er der et meget stort arbejde med at validere og dokumentere data.

Vi er nu gået med i Dafago og vil herigennem styrke dialogen med myndigheder og andre, som for eksempel ved at deltage i konferencer.

Vi prøver i Dafago langsomt at opbygge et samarbejde med andre virksomheder.

Hvad bruger vi data til

Kaas & Mulvad bruger myndighedernes data på disse fire måder:

Analyser. Det har vi gjort i mange år. Det sker enten på basis af de data, vi løbende henter fra forskellige kilder (CVR, Tinglysning, Retslister, Ankenævnsafgørelser, domæneregistreringer, smileys, etc) eller på et specielt udtræk for den konkrete historie. De seneste er bl.a. ventetider og ejendomme for TV2.
Datapakke til medierne. Det er vores interne redaktionelle databaser med en stor del af de data vi har trukket ud gennem årene. De databaser deler vi med andre massemedier, for eksempel Børsen, DR, TV2, JP/Politiken, Ritzau. Børsen har for eksempel brugt dem til historier med oversigt om danske virksomheder, der benytter renteswap.
Robothistorier. Vores løbende dataudtræk fra Tinglysning og CVR leverer vi i realtid til Ritzau, der benytter det til robothistorier om ejendomssalg og virksomhedsregnskaber. Vi leverer også data til robothistorier til andre nyhedsmedier
Overvågning. Ovenpå det løbende udtræk af datakilderne har vi bygget et overvågningssystem, så folk kan få øjeblikkelig besked om bestemte ejendomshandler, virksomheder etc. Foreløbig er især en lang række medier brugere, men vi har andre kunder og vurderer, at systemet har et stort potentiale.

Modeller for at tilgå følsomme data

Jeg nævnte i begyndelsen, at vi ønsker adgang til de ikke-anonymiserede retslister. I den forbindelse er det værd at nævne, at det offentlige allerede har flere velfungerende modeller for at tilgå følsomme data. Dem kunne man læne sig op ad, ligesom det kunne inspirere andre, der ønsker et system for sikker deling af følsomme data.

Enten kunne man benytte den model, Domstolsstyrelsen i forvejen anvender for Tinglysningen, hvor man logger ind med et certifikat til et særskilt endpoint, der understøtter dette.

Eller man kunne gå et step yderligere op som det, der bruges på Datafordeleren for eksempelvis på Ejerfortegnelsen, hvor man logger på via et særligt sikkerhedscertifikat og fra en IP-adresse, der i forvejen er whitelisted.

Det vil være meget anvendeligt, hvis dataadgangen blev til de underliggende rådata via et API i stil med det, Domstolsstyrelsen i forvejen bruger på Tinglysningen, således, at der blev lavet et eller flere endpoints, hvorfra der kunne hentes JSON-data (eller XML, hvis det er det, de foretrækker). Tinglysningen arbejder med begge formater på sine API’er.

Vore ønsker: Fire databaser

Om nyheder

Kategorier

Vore ønsker: Fire databaser

Om nyheder

Kategorier

Tilpas cookie præferencer