Derfor scraper nyhedsmedier websider
- Nils Mulvad
- Publiceret 18. september 2023
Her er der hit på kommune på to dårlige fødevaresmileys. Kunstig intelligens har udtrukket resumeet for begrundelsen.
Hvorfor rådata
Som journalister vil vi altid have data og oplysninger fra originalkilden – eller så tæt på som muligt. Vi vil have rådata og selv foretage analyserne oven på rådata, ligesom vi vil bruge yderpunkterne, ekstremerne til cases, som forklarer situationen.
Hvorfor scraping
Det er kun i få tilfælde, at vi får data direkte leveret i et format som Excel, der normalt er det yderste, som journalister kan klare. Oftest er data lagt på nettet i form af pdf-afgørelser, databaseadgang via søgeformularer eller API’er, eller en helt fjerde besværlig kategori. Scraping er metoden til at hente denne type data.
Hvorfor Python
Der findes scraping-værktøjer, hvor man ikke skal programmere, og de kan løse mange opgaver. Python er dog det mest udbredte og det værktøj, der kan håndtere de fleste forhindringer. Der er en stor journalistisk gruppe, der benytter Python til at scrape, så der er et netværk af folk og værktøjer, man kan trække på.
Hvorfor gemme data
Mange viser data fra for eksempel myndigheder ved at trække på myndighedens API. Argumentet fra deres side er, at så udstiller de altid de opdaterede data fra myndighederne og eventuelle fejl er myndighedens ansvar.
Som journalister ved vi, at der er masser af fejl i rådata og vi er nødt til at tjekke disse data – ligesom alt andet – før vi publicerer. Derfor gemmer vi data og renser dem, før vi analyserer. Vi gemmer også data, fordi vi ved, at der er stor risiko for at kilden senere ændrer i dem eller måske helt gør dem utilgængelige.
Hvordan håndterer vi fejl
Selv om vi renser og tjekker data, vil der næsten altid være fejl et eller andet sted. Vi håndterer det ved sammen med publiceringen at beskrive, hvad vi har gjort for at tjekke data. Og bliver vi gjort opmærksom på en fejl, så analyserer vi den i forhold til originaldata. Der kan være tale om en mere systematisk fejl, hvorefter vi retter de fejl, der er i materialet og publicerer denne fejlrettelse. Vi er åbne om fejl.
Åbenhed om scraping
Ligesom vi som journalister normalt er åbne om at vi er journalister og hvor vi kommer fra. Der vil dog være nogle særlige tilfælde, hvor vi ikke oplyser det af frygt for at vi ikke får adgang til centrale data. Populært kan man sige, at vi går undercover i scraping.
Løbende scraping
I mange tilfælde scraper vi det samme sted flere gange. I nogle tilfælde hvert tiende minut. Det giver os et unikt billede af, hvad der har været tilgængeligt hvornår, ligesom det giver mulighed for at bruge oplysningerne til løbende publicering. Ved løbende scraping markerer vi hver post med firstExtracted og LastExtracted, så vi altid kan se første og seneste tilstedeværelse af posten.