Etik i data- og robotjournalistik: Fejlenes herre
- Nils Mulvad
- Publiceret 22. august 2024
- Sidst ændret 26. august 2024
Min største journalistiske bommert skete i maj 2001 – det sidste år, hvor jeg arbejdede på Jyllands-Posten. På det tidspunkt var data om folkeskolernes afgangskarakterer strengt fortrolige. For alligevel at afdække forskelle mellem skolerne havde jeg, gennem en specialkørsel fra Danmarks Statistik, fået oplyst gymnasiefrekvenser for hver enkelt folkeskole, dvs. hvor mange elever fra 7. klasse, der tre år senere gik i gymnasiet.
Sammen med data havde jeg fået oplyst forældrenes indkomst og uddannelsesniveau. Historierne viste store forskelle i gymnasiefrekvens fra skole til skole og desuden, at forældrenes baggrund kunne forklare cirka halvdelen af disse forskelle. Et flot danmarkskort viste mønstrene.
Der var bare et problem.
Danmarks Statistik havde trukket forkerte data ud om forældrenes uddannelsesbaggrund. Der var simpelthen alt for få med en længerevarende uddannelse. Ifølge data fremstod Danmark som et uddannelsesmæssigt uland.
Tendenser og konklusioner var sådan set rigtige nok, men alle data var forkerte. Dagen efter kørte Jyllands-Posten sin måske største fejlrettelse med de rigtige data for alle skolerne og et nyt Danmarkskort. Avisen skrev, at Danmarks Statistik påtog sig hele ansvaret for fejlen.[1]
Jeg skulle have set det.
Jeg burde have studset over, at der var så få med længerevarende uddannelse. Medierne skal ikke bare viderebringe oplysninger og data, men har et selvstændigt ansvar for, at alt er rigtigt. Vi skal hele tiden tænke over, om data nu også afspejler virkeligheden, om der er fejl eller mangler i data. Og til det skal vi først og fremmest bruge vores sunde fornuft. Det lyder nemt, men når man står i den konkrete historie, kan det være svært at håndtere.
Som mange andre journalister husker jeg de fleste af mine professionelle fejl. For eksempel blev jeg 14 år tidligere som praktikant på Politiken kaldt ind på chefredaktør Jørgen Grunnets kontor, fordi jeg i en forside artikel havde brugt ordet "langmodig" forkert. Jeg mente "langsom," men skrev "langmodig," der betyder tålmodig.
Jeg husker det. Jeg hader fejl. Som formentlig næsten alle andre journalister.
Overdødelighed for medlemmer af 3F
Intet er garanteret fejlfrit. Der er næsten altid fejl i data, såsom stavefejl, indtastningsbommerter, forkerte eller ukomplette udtræk og fejlagtige metoder i beregninger og analyser. Ligesom der kan være huller i folks hukommelse og skæverter i udtalelser, observationer og pointer.
Massemedier har derfor metoder til at undgå flest mulige af disse fejl – og når forkerte oplysninger alligevel slipper igennem nåleøjet, er nogle af medierne indimellem åbne om det og har en praksis for at rette fejlene.
Men mens journalister og medier hader fejl, så har de tit endnu sværere ved at indrømme og rette fejl. Desværre.
I datajournalistik arbejder vi altid med metoder for at fange fejl. Vi tjekker antal, sum, beregninger, ekstremer – og ikke mindst analysens konklusioner i forhold til virkeligheden. Da Kaas & Mulvad i 2009 producerede de første robothistorier om overdødelighed for medlemmer af 3F med historier om, hvor stor overdødelighed der var for lige netop denne gruppe og af denne sygdom, skete det med samme tilgang i forhold til at tjekke fejl i data og i resultatet i form af historier – før Fagbladet/3F publicerede historierne på deres hjemmeside.[2]
Principperne i data- og robotjournalistik er kort fortalt, at vi gemmer data, tjekker dem for fejl, analyserer og bringer resultater i form af journalistisk vinklede historier – ikke blot en uoverskuelig opremsning af tal.
200-300 daglige historier om ejendomshandler
Da Kaas & Mulvad i 2018 hjalp Ritzau med at bygge en boligrobot, som stadig er aktiv, havde vi samme tilgang. På basis af tinglysningsdata leverer robotten dagligt omkring 200-300 historier om ejendomshandler baseret på udtræk fra tinglysningen.[3] Hver enkelt ejendomshandel optræder med oplysning om købspris, købere og sælgere, placering og en række andre oplysninger.
En fordel ved ejendomsdata er, at de er tastet ind af Tinglysningsretten selv og derfor har en meget høj troværdighed med meget få fejl. Til gengæld er data meget komplekse, idet et skøde kan dække flere ejendomme eller blot en andel af en ejendom, og skødet kan omfatte en eller flere købere og sælgere. Der er også mange forskellige former for overdragelser af ejendom.
Kaas & Mulvad brugte lang tid på at analysere strukturen i data og mulige fejl i de automatiserede konklusioner, som skulle med i de færdige robothistorier. Derfor[1] undtog vi nogle af handlerne i de automatiserede historier. Den type handler var simpelthen for komplicerede.
I begyndelsen hentede vi oplysninger om sælgere fra en tidligere handel. Men det betød, at vi offentliggjorde navne på sælgere, der efterfølgende havde fået adressebeskyttelse. Det blev klart, da vi fik henvendelser fra utilfredse sælgere, som havde henvendt sig til det medie, hvor historien var offentliggjort.
Det lykkedes os dog at finde en anden metode til at udtrække sælgere af ejendomme og herefter bruge helt aktuelle data. Det stoppede dog ikke henvendelser fra utilfredse sælgere og købere. Nu kom de fra folk, der var blevet opmærksomme på, at deres navn var offentliggjort, og derefter bad de om navnebeskyttelse.
På Tinglysningens hjemmeside kommer der i sådanne situationer efterfølgende til at stå, at det er en person med navne- og adressebeskyttelse. Men historierne baserer sig på oplysningerne ved handlens offentliggørelse, og man har derfor ikke pligt til at rette artikler med tilbagevirkende kraft, når personer senere får navne- og adressebeskyttelse. Noget andet er, hvis der er særlige private forhold for en person, der taler for beskyttelse. Medierne strækker sig langt for at rette i forhold til navnebeskyttelse, også selv om der ikke var navnebeskyttelse, da oplysningerne blev trukket.
Pressenævnet blåstemplede robothistorie
Robothistorierne om ejendomsdata udløste også så vidt vides den første klage i Pressenævnet om robothistorier.
Købere af et hus i Pandrup klagede over en af boligsalgs historierne i Nordjyskes netavis den 20. august 2020. Parret klagede over, at de ikke blev hørt, før historien blev bragt, og at der blev bragt urigtige oplysninger om renovering af huset baseret på data fra BBR-registret.
Kendelsen fra Pressenævnet gav mediet medhold. Det er ikke nødvendigt at indhente kommentarer fra købere eller sælgere af et hus. Og det er også i orden at bringe oplysninger om, at der ikke er sket større renoveringer af huset ifølge BBR. Selv om der måske er sket en renovering, så er den konkrete oplysning rigtig, når den renovering ikke er indberettet til BBR, og artiklen dermed korrekt gengiver BBR.[4]
Men det rokker ikke ved, at oplysningen giver et forkert billede og altså er forkert.
Netop det sidste er spændende og er en af de store udfordringer, når medier publicerer data automatisk – enten i tabeller eller som robothistorier. Først skal vi prøve at finde fejlene. Dernæst skal vi tage stilling til, hvornår fejl i data er så graverende, at vi skal undlade at bruge dem til historier? Der er ikke nogen enkel løsning.
Tommelfingerreglen er, at jo mere ufarlig oplysningen er, jo mere går det an blot at publicere den, selv om den måske er forkert eller ikke helt rigtig. Men afvejningen er altid meget konkret og kan være meget svær. Redaktører og journalister er ofte i tvivl og også ofte uenige om, hvor langt man skal gå.
Dilemmaer om offentliggørelse af data
Jeg har oplevet flere tilfælde, hvor jeg har hjulpet medier med at håndtere data og er stødt på forskellige dilemmaer omkring offentliggørelse af information.
I 2019 hjalp jeg TV2 med oplysninger om vederlag til kommunalbestyrelsesmedlemmer, men stødte på udfordringer, da Københavns kommune afviste at oplyse faktiske udbetalinger og kun angav beregningsmetoden. TV2 undlod at bringe oplysningerne om disse kommunalbestyrelsesmedlemmer, da informationerne ikke[2] kunne bekræftes. Jeg har stadig en klage over sagen hos Indenrigsministeriet og Folketingets Ombudsmand, som efter en indtil marts 2024 foreløbig sagsbehandlingstid på 32 måneder endnu ikke er afgjort.[5]
Når det kommer til offentliggørelse af data om landbrugsstøtte i Europa, har jeg tidligere valgt at udgive alle oplysninger baseret på myndighedernes angivelser af beløb og suppleret med udvalgte historier om modtagere, uden yderligere kontrol, selv om der helt sikkert er fejl i nogle af disse data. Det er umuligt at kontrollere for alle modtagere og vigtigere at oplysningerne kommer frem end bliver i det skjulte.[6]
Dog har jeg valgt ikke at udgive alle oplysninger om danske dyrlægers udskrivelse af antibiotika, da en dyrlæge kontaktede mig med oplysning om, at data om hans medicinudskrivning var helt fejlagtig og byggede på forkerte indberetninger fra apotekerne. Alt tydede derefter på, at der var mere omfattende fejl i data. Det kunne føre til uretfærdig udhængning af dyrlæger for at udskrive for meget medicin.[7]
Da Højesteret i 2016 underkendte Landbrug og Fødevarers forsøg på at få fødevaremyndighederne til at hemmeligholde resultatet af MRSA-undersøgelser fra 2014, besluttede jeg en ret kringlet plan for offentliggørelse.[8]
Først bragte jeg listen over alle dem, hvor der ikke var fundet MRSA. Den fulde liste. Dernæst tjekkede jeg alle de bedrifter, hvor der var fundet MRSA, og bragte en liste over MRSA-bedrifter med samme ejere som ved undersøgelsen to år tidligere. Jeg undlod altså at oplyse om de bedrifter med MRSA, hvor nye ejere havde overtaget landbrugsvirksomheden. Jeg bad Landbrug og Fødevarer om kommentarer til MRSA-listen, men ikke de enkelte landmænd, der stod på listen.[9]
Redaktionel afvejning mellem offentliggørelse og beskyttelse
Jeg nævner disse eksempler for at understrege, at offentliggørelse af data kræver konkret redaktionel vurdering, hvor man afvejer mulige fejl, beskyttelse af private oplysninger og offentlighedens krav på at vide besked. Hvert medie kan have sin egen praksis, men det er vigtigt at reflektere over denne praksis og dokumentere og diskutere den. Ufejlbarlighed er ikke en mulighed, så derfor må der være åbenhed om valg, fejlmuligheder og om fejl.
For både Pressenævnet og Datatilsynet er det vigtigt at følge disse områder og måske senere justere praksis. For de forskellige leverandører af data, Tinglysningsretten, Domstolsstyrelsen, Erhvervsstyrelsen, Arbejdstilsynet og mange andre er det oplagt at indgå i dialog med medierne og andre brugere om, hvordan vi benytter data, så det sker med den rette afvejning af personbeskyttelse og risiko for fejl over for massemediernes pligt til at viderebringe vigtige historier.
Åbenhed og dialog om, hvor der måske er uhensigtsmæssig anvendelse af data, er den logiske vej frem nu. Det vil sige, at vi skal beskrive vores metoder konkret. Og når vi bliver gjort opmærksom på fejl, skal vi beskrive, hvordan vi har håndteret dem.
Kunstig intelligens i robotjournalistik
Kaas & Mulvad er begyndt at få erfaringer med at anvende kunstig intelligens – fx når vi trækker data fra Fødevaremyndighederne om sure smileys, hvor begrundelserne er gemt forskellige steder i pdf-rapporterne og ikke let kan ekstraheres ved hjælp af traditionel tekstgenkendelse.
For at løse denne udfordring bruger vi nu kunstig intelligens til at udtrække kortfattede og præcise begrundelser for sanktioner. Selvom vi tester og justerer resultatet, er vi også stødt på fejl, som f.eks. AI's tildeling af en ikke-eksisterende bøde til en virksomhed. En klar fejl, som skal undgås, når vi åbner for systemet. Vi tester derfor med særligt fokus på at undgå sådanne fejl og vil være åbne om, at der stadig kan være en risiko for, at fejl kan opstå.
Vi kan dog stadig ikke være sikre på, at vi har skrevet en algoritme, som sikrer 100 procent mod fejl. Skal vi så lade være med at benytte den? Eller skal vi skrive et forbehold og bede om, at folk selv tjekker og vender tilbage til os, hvis der er fejl?
Vi vælger det sidste, når vi er oppe på en meget høj grad af sikkerhed for, at der meget sjældent vil være fejl. Her er det ud fra samme tankegang som i anden robotjournalistik og datajournalistik. Vi kan aldrig garantere 100 pct. mod fejl. Vi kan åbent beskrive vores metode. Vi kan være åbne om fejl. Og vi kan være glade for, at der bliver indberettet fejl. Vi synes selv, at vi bliver bedre og bedre til det. Og vi kan helt sikkert blive endnu bedre og kan faktisk mærke, at det giver større tiltro til oplysningerne.
Måske kan den erfaring om behandling af fejl også bruges i andre områder af journalistik.
Andre er ikke helt så besat af fejl
Andre faggrupper har en mere lemfældig holdning til fejl. I megen forskning publicerer forskerne ikke de enkelte data, men leder udelukkende efter mønstre og fjerner outliers. Det samme gælder analyser fra offentlige myndigheder. I journalistik publiceres det hele, og ekstremer benyttes til cases som en metode til at finde årsager og beskrive virkeligheden. Vi viser sorterede lister med top og bund og har ofte case-historier om ekstremerne. Derfor er fejltjek af ekstremer så vigtigt.
Når vi publicerer historien, fortæller vi, hvordan vi har gjort. Og hvis vi efter publiceringen bliver opmærksomme[3] på fejl, så gentager vi proceduren med at gå tilbage og finde årsagen. Men nu fortæller vi det også til læsere og lyttere. At der har været denne fejl, hvorfor, og at vi har rettet den.
Når vi bruger AI i journalistik, er tilgangen nøjagtig den samme. Fokus på fejl får nu gudelignende status, akkurat som når drengene i William Goldings bog ”Fluernes Herre” danner deres egne afstumpede afguder. Særligt tydeligt da drengen Jack ophøjer et svinehoved på en kæp til en gudelignende herre over fluerne.
I robotjournalistik svirrer jagten på fejl inde i journalisternes hoveder. Vi vil forstå og fjerne fejl, som når jeg til et fødselsdags selskab spørger: ”Hvem mangler vi”, efter at have talt tallerkener og de fremmødte og konstateret, at der er én tallerken mere end gæster og vært tilsammen.
Jeg tjekker. Og tjekker.
[1] Jyllands-Posten 30/05-2001: Data-fejl i gymnasietal
[2] 25/6-2009 Fagbladet3F: Se hvad du dør af
[3] 1/8-2019: Kaas & Mulvad: Aalborg: Hus på Østervangsvej er handlet for 2,8 millioner
[4] 12/1-2021: Kendelse fra Presenævnet
[5] 10/10-2021, TV2.DK: Se alle kommunalpolitikernes vederlag her
[6] Farmsubsidy.org
[7] 3/7-2012 Åbenhedstinget: Vi skal ikke hænge bønder og dyrlæger ud uretmæssigt
[8] 21/4-2016, Åbenhedstinget: Landsrettens kendelse: Endelig og fuldstændig sejr i MRSA-retssag
[9] 19/2-2016, Investigative Reporting Denmark: Her lever de MRSA-inficerede svin
Teksten er først bragt som et kapitel i bogen "Tag ansvar!", Forlaget Ajour 2024. Bogen, der er redigeret af Roger Buch og Thomas Pallesen, indeholder 17 indlæg om etik i journalistik i dag. Køb bogen her.