Sådan bruger du datapakken
- Tommy Kaas
- Publiceret 13. januar 2024
- Sidst ændret 14. januar 2024
Massemedier kan få adgang til at søge i vores gemte, historiske data fra en lang række datakilder. Adgangen sker gennem vores datapakke.
Der er to forskellige metoder at søge i de historiske data. Den ene metode har et søgeinterface, hvor man ved at skrive søgeord kan filtrere, hvad man vil se fra en given tabel. Den anden foregår via et søgeinterface, hvor du – fordi vi bruger AI-teknologi – kan skrive, hvad du vil vide i et nogenlunde almindeligt sprog. AI-adgangen er eksperimentel og stadig noget, vi arbejder på at forbedre.
Metoderne er forskellige, og hver af dem har sine fordele. Her gennemgås kort begge.
Uanset metode logger du ind her: https://datapakke.km24.dk
Metode 1: Søgning ved hjælp af filtre
Når du er logget ind, ser du en række datakilder (p.t. 25 forskellige) listet op, og du skal nu vælge, hvilken du vil søge i. Du søger i én af gangen.
Her og nu vil jeg søge i historiske oplysninger om, hvem der har hvilke .dk-domæner. Når jeg har klikket på ”Domæner” i listen midt på skærmen, ser jeg nogle af posterne i denne tabel. ”Poster” er bare et andet ord for rækker. Vi bruger som regel ordet ”poster”, når vi arbejder med store databaser.
Hver post indeholder information om et bestemt domæne: Hvad er domænets navn, hvornår er det oprettet og af hvem? Der kan også være adresse og telefonnummer på den, der har oprettet domænet.
Klikker man på et af domænerne, ser man, hvilke oplysninger vi har i databasen om det pågældende domæne.
Hvis man vil søge i tabellen, klikker man på knappen ”Filtre” i højre side over tabel-indholdet. Ved at tjekke søgefelterne, kan man se, hvilke muligheder vi har i denne konkrete tabel. Jeg kan søge på ord, der indgår i domænet. Jeg kan også søge på navnet på personen/selskabet/organisationen, der har registreret domænet samt en evt. attention-person. Man kan også søge efter vejnavn og postnummer.
Til en start vil jeg gerne se domæner, hvor ordet ”læge” indgår. Når man har skrevet i et eller flere af søgefelterne, trykker man ”Enter” på sit tastatur. Der er ingen ”ok-knap”. Søgningen går i gang. Den kan tage et øjeblik.
Filtreringen efter ”læge” giver dette resultat:
Vi ser de første ud af de 720 resultater, vi har i databasen. Knappen ”Filtre” er nu farvet. Det indikerer, at vi har et aktivt filter, og at vi altså kun ser et udsnit af alle data.
Hvis man søger på en del af et ord – fx ”socialdemok”, vil man både få svar, der indeholder socialdemokratiet, socialdemokratisk, socialdemokraterne etc. Er man ikke helt sikker på, hvad man er på jagt efter, kan det være en god ide kun at skrive en del af søgeordet. Her ses de første resultater efter en søgning på ”socialdemok”
Her ses resultatet efter en søgning i adressefeltet på ”Mediebyen 3”. Klik på overskriften, hvis tabellen skal sorteres i en bestemt orden – her med de senest oprettede først.
Resultater kan downloades i Excel-format eller som en csv-fil. Sæt flueben (du kan gøre det ved alle, hvis du klikker på feltet i overskriften). Vælg derefter download-format og klik på pilen til højre.
Metode 2: Søgning ved hjælp af AI
Brugergrænsefladen til den anden søgemetode finder du ved, at du klikker på det lille person-ikon i højre øverste hjørne. Vælg punktet ”Forespørgsler i naturligt sprog”. Så kommer du til denne side:
https://datapakke.km24.dk/query/
Denne måde at søge på bruger kunstig intelligens, og den er stadig eksperimentel. Vi vil gerne have dit eventuelle feedback. Ved at anvende AI giver vi brugere mulighed for at skrive deres søgninger med almindeligt sprog. Der er mange muligheder. Herunder følger en række eksempler.
Du skal først vælge en datakilde. Default er den øverste – Arbejdstilsynets smileyer – valgt. Du klikker blot i dropdown-meneuen for at vælge en anden. Her er ikke helt så mange at vælge mellem som i interfacet, der blev gennemgået ovenfor.
Her vælger jeg også domænedata – der her hedder WHOIS (domæner)
Og så kan du bare – med almindelige ord – skrive din søgning nedenfor.
Kender man ikke data, er det en god ide at begynde med – for at få et overblik over, hvilke data der er tale om – at bede om at få vist et antal poster fra tabellen. Som fx her:
Data, der bliver vist, er tilfældigt udvalgte, men nu kan man se, hvilke oplysninger der optræder i den konkrete tabel, og hvad man derfor meningsfuldt kan spørge om.
I min forespørgsel skrev jeg ikke ”poster”, der jo ellers er databasesproget for rækker. Jeg skrev ”rækker”, men det forstår AI også.
Jeg bemærker, at data ikke er sorteret. Det beder jeg lige om, så jeg får en fornemmelse af, hvor opdateret tabellen er. Jeg ser, at seneste oprettelsesdato er dagen før, denne tekst skrives. Så tabellen er altså opdateret.
I nogle tilfælde ser man ikke alle kolonnerne på skærmen. Fx hvis det er en datakilde med mange data, eller hvis der ikke er plads, fordi vinduet er for småt. Det indikeres ved grå trekanter i første kolonne, som AI har oversat fra "attention" til "opmærksomhed". Klikker man på en grå trekant, folder data sig ud, så man alligevel kan se det komplette indhold.
Du kan i princippet spørge til alt det, som tabellen indeholder. Og du kan spørge på mange måder. Du kan bede om at få enkelte poster vist, eller du kan bede om at få lavet optællinger.
Måske får du fejl, og så kan du enten prøve en gang mere (det hjælper nogle gange), eller du kan prøve at omformulere dit spørgsmål. Husk, at det ikke er en søgemaskine, så du kan ikke nøjes med at skrive et enkelt ord. Du skal i princippet chatte med databasen – det er jo OpenAI, der ligger nedenunder.
Her er nogle få eksempler på, hvad man kan spørge om:
Resultatet bliver vist som tabeller på skærmen, og dem kan man så evt. downloade som et excel-dokument.
Vi bruger som nævnt OpenAI (altså motoren bag ChatGPt). Vi får OpenAI til at oversætte vores spørgsmål til SQL – altså det sprog, som vi normalt bruger for at trække data ud af databaser.
Det kan være, at man spørger på en måde, som systemet ikke forstår, og så kommer der en fejlmeddelelse, men så man bare prøve igen og prøve at gøre det lidt mere klart. Eksperimenter bare – du kan ikke ødelægge noget. Og løber du ind i problemer eller har spørgsmål, så tag bare fat i os. Skriv til post@km24.dk Send gerne screenshot, hvis du ser noget, du undrer dig over.
Og bare som bonusinfo: Vi sender ikke vores data afsted til OpenAi – vi sender kun spørgsmålet og en beskrivelse af databasen og tabellerne afsted. Og det, der kommer retur, er SQL-forespørgslen, som vi så bruger til selv at trække data op til brugeren.