Derfor scraper nyhedsmedier websider

Her er der hit på kommune på to dårlige fødevaresmileys. Kunstig intelligens har udtrukket resumeet for begrundelsen.

Ejendomme Scraping Kunstig intelligens Robotjournalistik

Derfor scraper nyhedsmedier websider

Nils Mulvad
Publiceret 18. september 2023

Hvorfor rådata

Som journalister vil vi altid have data og oplysninger fra originalkilden – eller så tæt på som muligt. Vi vil have rådata og selv foretage analyserne oven på rådata, ligesom vi vil bruge yderpunkterne, ekstremerne til cases, som forklarer situationen.

Hvorfor scraping

Det er kun i få tilfælde, at vi får data direkte leveret i et format som Excel, der normalt er det yderste, som journalister kan klare. Oftest er data lagt på nettet i form af pdf-afgørelser, databaseadgang via søgeformularer eller API’er, eller en helt fjerde besværlig kategori. Scraping er metoden til at hente denne type data.

Hvorfor Python

Der findes scraping-værktøjer, hvor man ikke skal programmere, og de kan løse mange opgaver. Python er dog det mest udbredte og det værktøj, der kan håndtere de fleste forhindringer. Der er en stor journalistisk gruppe, der benytter Python til at scrape, så der er et netværk af folk og værktøjer, man kan trække på.

Hvorfor gemme data

Mange viser data fra for eksempel myndigheder ved at trække på myndighedens API. Argumentet fra deres side er, at så udstiller de altid de opdaterede data fra myndighederne og eventuelle fejl er myndighedens ansvar.

Som journalister ved vi, at der er masser af fejl i rådata og vi er nødt til at tjekke disse data – ligesom alt andet – før vi publicerer. Derfor gemmer vi data og renser dem, før vi analyserer. Vi gemmer også data, fordi vi ved, at der er stor risiko for at kilden senere ændrer i dem eller måske helt gør dem utilgængelige.

Hvordan håndterer vi fejl

Selv om vi renser og tjekker data, vil der næsten altid være fejl et eller andet sted. Vi håndterer det ved sammen med publiceringen at beskrive, hvad vi har gjort for at tjekke data. Og bliver vi gjort opmærksom på en fejl, så analyserer vi den i forhold til originaldata. Der kan være tale om en mere systematisk fejl, hvorefter vi retter de fejl, der er i materialet og publicerer denne fejlrettelse. Vi er åbne om fejl.

Åbenhed om scraping

Ligesom vi som journalister normalt er åbne om at vi er journalister og hvor vi kommer fra. Der vil dog være nogle særlige tilfælde, hvor vi ikke oplyser det af frygt for at vi ikke får adgang til centrale data. Populært kan man sige, at vi går undercover i scraping.

Løbende scraping

I mange tilfælde scraper vi det samme sted flere gange. I nogle tilfælde hvert tiende minut. Det giver os et unikt billede af, hvad der har været tilgængeligt hvornår, ligesom det giver mulighed for at bruge oplysningerne til løbende publicering. Ved løbende scraping markerer vi hver post med firstExtracted og LastExtracted, så vi altid kan se første og seneste tilstedeværelse af posten.

Derfor scraper nyhedsmedier websider

Om nyheder

Kategorier