Een hittegolven-rapport dat geen extreme hitte analyseert

Temperatuurrecords van Nederlandse weerstations. Bron: W. in ’t Erland, Onweer Online

Als we de afgelopen weken iets hebben kunnen merken over het klimaat, dan is het wel dat extreme hitte extremer wordt. In Nederland sneuvelde het warmterecord van 38,6°C uit 1944 in Warnsveld. Niet met een beetje, het werd met meer dan 2°C verpulverd. En dat niet alleen: in 3 dagen tijd werden er door de 34 KNMI-weerstations in Nederland maar liefst 24 maximumtemperaturen gemeten boven dat tot dan toe onaantastbare record. Waarvan 9 hoger dan 40°C. Ook elders in West-Europa werden tal van hitte-records verbroken, met temperaturen die een eeuw geleden zo goed als onmogelijk waren.

Het is natuurlijk volkomen logisch dat in een warmer klimaat de kans op extreme hitte groter is. Toch blijken er, zelfs na de recente recordregen, mensen te zijn die deze simpele logica weigeren te accepteren. Bijvoorbeeld aan de hand van het rapport van Dijkstra et al. dat de door het KNMI uitgevoerde homogenisatie van de temperatuurdataset van De Bilt bestrijdt. De suggestieve ondertitel maakt duidelijk dat het rapport niet bedoeld is als objectieve contra-expertise, maar als aanval op het KNMI: “Hoe het KNMI historische hittegolven uit de boeken schrapte”. De door het KNMI uitgevoerde homogenisatie werd op dit blog net voor de hittegolf van juli nog bevestigd door de analyse van Tinus Pulles. Omdat de verdachtmakingen daarna gewoon door zijn gegaan zijn we wat dieper in het rapport van Dijkstra c.s. gedoken. En de kwaliteit van wat we aantroffen valt bepaald niet mee. We lichten er hier enkele methodologische missers en onjuistheden uit.

Feiten en misvattingen over de homogenisatie van De Bilt

Op social media komen nogal wat halve waarheden en hele onwaarheden voorbij over de homogenisatie van de temperatuurdata van De Bilt. Daarom hier kort een overzicht van de feiten en de regelmatig terugkerende misvattingen.

In 1950 en 1951 vonden er enkele veranderingen plaats aan het weerstation in De Bilt. De thermometerhut werd vervangen: in plaats van een zogenaamde pagode met een open onderkant kwam er een Stevensonhut. Die biedt een betere afscherming tegen zonlicht, waardoor temperatuurmetingen lager uitvallen, vooral op warme en zonnige dagen. Een jaar later is de thermometerhut verplaatst van een door bomen en gebouwen beschutte locatie naar een open terrein. Ook dit heeft invloed op de metingen. Vermoedelijk moest dit vanwege nieuwbouw snel gebeuren en was er geen tijd voor parallelmetingen.

Om een zo goed mogelijk beeld te krijgen van het werkelijke temperatuurverloop in De Bilt moet er gecorrigeerd worden voor deze veranderingen. Dat gebeurde in 2016 via een statistische analyse waarin KNMI-station Eelde als parallelreeks werd gebruikt, omdat dat station qua ligging en meteorologische omstandigheden het meest overeenkomt met De Bilt. De resultaten van die homogenisatie zijn dit voorjaar nog eens getoetst aan andere beschikbare informatie: vergelijkende metingen tussen pagode en Stevenson in de periode 1947 – 1950, recente parallelmetingen tussen een gereconstrueerde pagode en Stevenson, en vergelijkende metingen uit 2003 – 2005 van verschillende locaties op het KNMI-terrein. Die vergelijkingen laten zien dat de in 2016 uitgevoerde correcties realistisch zijn.

Misvattingen:

  • Het spreekt voor zich dat de totale correctie de optelsom is van het effect van de veranderde thermometerhut én de verplaatsing. Pogingen om de homogenisatie verdacht te maken door de totale correctie te vergelijken met het effect van één van die veranderingen zijn misleidend.
  • Bij de vergelijking van verschillende locaties op het KNMI-terrein uit 2003 – 2005 is ook op de oude plek van de pagode gemeten. Maar de situatie daar is onvergelijkbaar met destijds, zoals het KNMI uitdrukkelijk meldt: “The results for the former historical site Test1 can probably not be used for correcting the jump in summer maximum temperature around 1951. The temperature observations at this site are too much affected by the growth of trees and placement of buildings since 1951.” Dat de correcties voor de verplaatsing niet overeenkomen met de gemeten verschillen is te verwachten. Toch worden er pogingen gedaan de homogenisatie hiermee verdacht te maken.
  • Een rapport van Kramer uit 1954 vergelijkt de pagode een speciaal ontworpen thermometerhut voor micro-meteorologische metingen. Het is dus geen vergelijking dus de pagode en de Stevensonhut, zoals door diverse mensen is beweerd. Stevenson wordt wel zijdelings genoemd, maar de opmerking die hierover wordt gemaakt wordt niet onderbouwd en is bovendien in tegenspraak met de resultaten van de parallelmetingen tussen pagode en Stevenson.

De allergrootste fout: het rapport analyseert helemaal geen hittegolven of extreme temperaturen, maar doet daar toch uitspraken over. Dijkstra en zijn kompanen rekenen voor hun versie van de homogenisatie met jaargemiddelde maximumtemperaturen, en zo hier en daar met het seizoensgemiddelde over de zomer. Door de temperatuur over zo’n lange periode te middelen wordt de meeste informatie over hittegolven simpelweg uit de gegevens verwijderd. Of er wel of geen hittegolf is hangt af van de maximumtemperatuur op een beperkt aantal dagen. Het KNMI-rapport dat ze menen te bekritiseren heeft niet voor niets de titel: Homogenization of daily temperature data of the five principal stations in the Netherlands. Weersextremen zijn bijzonderheden, informatie daarover is alleen te vinden in de details van de metingen. Details die weggegooid worden door de metingen te middelen over een lange periode.

Een tweede probleem van die werkwijze is het beperkte aantal datapunten dat ze overhouden voor hun analyse: enkele tientallen en soms zelfs nog minder. Zo weinig gegevens zijn onvoldoende voor een deugdelijke klimatologische analyse.

Het “raadsel van de verdwenen hittegolven” – dat is de titel van het rapport van Dijkstra et al. – is daarmee opgelost: ze beginnen hun analyse zelf met gegevens waar alle informatie over hittegolven al uit is verdwenen. Om die er later weer in te goochelen met aannames en rekentrucs. Het ideale recept om op de vooraf gewenste uitkomst uit te komen. Maar met wetenschap heeft het niks te maken.

Wat ook niks met wetenschap te maken heeft is het verhaal dat ze houden over een “klimatologische neergang” die er ergens rond 1950 zou zijn. Het enige “bewijs” dat ze ervoor leveren is een kringetje om een kronkel in een temperatuurgrafiek, waarin nog een hele hoop vergelijkbare kronkels te zien zijn. Van een statistische analyse die op een trendbreuk of sprong in de data zou moeten wijzen is geen sprake. De kronkels in de grafiek laten niet het werkelijke temperatuurverloop zien, want dat varieert van jaar tot jaar. Ze zijn verkregen met een zogenaamde LOESS-smooth, dat er zo’n mooie gladde lijn van maakt. Dat filter is toegepast over een span van 8 jaar, een volkomen arbitraire keuze. Voor een klimaatanalyse zou een periode van 30 jaar meer voor de hand hebben gelegen.

Verloop van de maximumtemperatuur in Duitsland en De Bilt, met een verzonnen klimaatsprong. Bron: Dijkstra et al.

Collega-blogger Jos heeft voor de zekerheid nog geprobeerd om met een statistische analyse toch een trendbreuk op te sporen in de Duitse data die Dijkstra heeft gebruikt. Het zal niemand verbazen dat hij die trendbreuk niet heeft kunnen vinden. Als voorbeeld hiernaast het resultaat van een breekpuntanalyse, uitgevoerd met het statistische pakket R (package changepoint – methode PELT), van de jaargemiddelde maximumtemperatuur van Postdam (data van ECA&D). Van een breekpunt rond 1951 is geen sprake. Voor de andere stations die Dijkstra gebruikt is het resultaat niet anders.

Er is hier natuurlijk niet meer of minder aan de hand dan de normale variabiliteit van het weer. De grafiek hieronder van de gemiddelde zomertemperatuur in Duitsland (omdat Dijkstra zo veel naar Duitse temperaturen kijkt doen we dat hier ook maar) geeft nog wat meer informatie. Eind jaren ‘40 waren er enkele erg warme zomers en halverwege de jaren ‘50 kwamen er wat koele zomers voor.

Verloop van de zomertemperatuur in Duitsland van 1881 – 2018. Bron: Deutscher Wetterdienst

De suggestie dat de wetenschappers van het KNMI geen rekening zouden houden met de variabiliteit van het weer is niet alleen een grove onderschatting, maar ook een belediging van de deskundigheid van deze mensen. En het wordt nog erger. Want het lijkt er sterk op dat het groepje van Dijkstra zelf de fout maakt die ze het KNMI impliciet – en onterecht, mocht dat nog niet duidelijk zijn – aanwrijven. Dat komt door de houtje-touwtje methode die ze gebruiken bij hun eigen poging tot homogenisatie en de aannames die ze daarbij doen.

Hun methode vertrekt vanuit de veronderstelling dat het verschil tussen de wat warmere jaren voor 1950 en de wat koelere jaren erna in De Bilt hetzelfde zou moeten zijn als in een set van referentiestations die ze hebben gekozen. De omslachtige manier waarop ze die referentiestations kiezen laten we hier maar even voor wat hij is. De uiteindelijke keuze valt op een aantal stations die allemaal op enige afstand ten zuidoosten van De Bilt liggen. De kaartjes hieronder (Bron: KNMI Klimaatatlas) laten, net als de kaart met records bovenaan deze blogpost, zien waar de meest extreme zomertemperaturen in Nederland voorkomen: in het zuidoosten.

Het is natuurlijk ook basale klimaatkennis: verder landinwaarts worden extreme temperaturen extremer omdat de matigende invloed van de zee afneemt. Waarschijnlijk zijn warme zomers in de referentie-stations van Dijkstra dus een stuk warmer dan in De Bilt, terwijl het verschil in koelere zomers kleiner zal zijn. Daarmee zijn die referentiestations niet geschikt voor de methode die ze gebruiken om te homogeniseren, vooral als het gaat om zomertemperaturen of extreme hitte. Dat geldt des te meer als een periode met een aantal warme zomers vergeleken wordt met een periode waarin de zomers relatief koel zijn.

De keuze voor Eelde als referentiestation die het KNMI maakt is dus zo gek nog niet. Op hun website legt het KNMI uit waarom ze Eelde hebben gebruikt:

Vanwege het ontbreken van geschikte parallelmetingen ter plaatse is voor de correctie van De Bilt station Eelde gebruikt als parallelreeks. Qua ligging en weersomstandigheden komt het station het dichts in de buurt van De Bilt. (De kuststations liggen te dicht bij zee, station Beek ligt te hoog en te dicht bij het Maasdal. Daarnaast hebben Eelde en De Bilt een vergelijkbare afstand tot grote wateroppervlakken).

Een vergelijkbaar antwoord heeft Dijkstra in zijn correspondentie met het KNMI gekregen, zo blijkt uit bijlage 3 van het rapport.

Ook wordt er nog gesuggereerd dat Eelde niet geschikt zou zijn als referentie omdat het door het KNMI niet is opgenomen in de Centraal Nederland Temperatuur dataset. Maar de reden daarvoor is niet zozeer meteorologisch of klimatologisch als wel geografisch: Eelde ligt dicht bij Groningen, een deel van het land dat in het algemeen niet tot centraal Nederland wordt gerekend.

Eigenlijk wordt het vrij vroeg in het rapport van Dijkstra al duidelijk wat er nu echt misgaat. Ze melden daar dat het ze niet lukt om (in een spreadsheet) de analyse van het KNMI (uitgevoerd met het specialistische pakket R voor statistische analyses) te reproduceren. In plaats van verder te zoeken naar een verklaring waarom dat niet lukt, of zich af te vragen of ze misschien de finesses van die (best complexe) analyse over het hoofd zien, besluiten ze om het wiel opnieuw uit te vinden. Zonder zich te verdiepen in de wetenschappelijke literatuur over homogenisatie en de methoden die al zijn ontwikkeld.

Ze hadden misschien advies moeten vragen aan Richard Muller, van Berkeley Earth. Die had in 2010 ook zijn twijfels over temperatuurdata en correcties die werden toegepast. En ook hij besloot het allemaal nog eens na te kijken, maar dan zoals een echte wetenschapper dat doet: door zich er grondig in te verdiepen in de bestaande kennis en daarmee een eigen analyse uit te voeren die rekening hield met alle details die ertoe doen. Dat is de wetenschappelijke manier. Op basis van een slecht doordachte natte-vinger-analyse hoog van de toren blazen dat je het beter weet dan alle experts is retoriek, geen wetenschap.

Update, 7 oktober 2019:

 

16 Reacties op “Een hittegolven-rapport dat geen extreme hitte analyseert

  1. Een kleine opmerking, de hoogste temperatuur in Nederland 38,6 graden werd in 1944 gemeten en niet zoals vermeld in 1947. Op 23 augustus 1944 te Warnsveld om precies te zijn.

  2. Hans Custers

    Hans,

    Je hebt gelijk. Ik heb het gecorrigeerd. Dank.

  3. 38,6°C in de zomer van oorlogsjaar 1944. Wat deed dat met de oogst? En zes maanden later de beruchte hongerwinter met januari 1945 als meteorologische uitschieter van bijna -5°C onder het toenmalige januari gemiddelde. Lijkt me een interessant en relevant thema voor een ecologisch georiënteerde historicus.

  4. Hoi Hans, goed stuk. Die laatste twee alinea’s zijn een wat neutralere formulering voor mijn eerdere constatering dat ze er vooral niets van begrijpen.

    Ik wil wel dat “specialistische” karakter van R even nuanceren. Vrijwel iedereen die statistiek nodig heeft voor zijn onderzoek gebruikt dit soort software. Van oudsher waren dat commerciële pakketten als SPSS, SAS en Stata, maar tegenwoordig gebruikt men vrijwel uitsluitend Open Source. Zo ben ik bijv.. mede-auteur met 3 psychologen van een replicatie-artikel. Het origineel gebruikte SAS, maar wij gebruikten alle vier R.
    Het is dus geen “specialistische software” maar eerder standaard software voor specialisten.

    Dijkstra cs beheersen geen enkele van deze pakketten of alternatieven als Python of Matlab / Octave. En ze hebben ook de achterliggende kennis duidelijk niet in huis.

  5. @geoff – ja dat soort vragen stelde ik mij ook. Eelde heeft geen data vanaf sept 44 – eind mei 45. Hoe was het met de rest na Dolle Dinsdag 5 september 1944? Hoe verging het station Maastricht na de bevrijding van Maastricht 15 sept. 1944?

    In een relaas van mijn ouders waarin ze helaas veel details hebben weg gelaten bezoeken ze in 1942 en 43 enkele malen een ondergedoken bevriende Joodse familie ergens tussen Den Dolder en Bosch en Duin. Er zijn nog foto’s van – dan wordt zo’n weerrapport plotseling iets heel persoonlijks.

  6. Voor wie niet tegen de hitte kan een goed advies. Ga in Den Helder of Texel wonen. Het scheelt toch gauw een slok op de borrel. Zeker in vergelijking met Limburg. Ik had me voor genomen om volgende keer een enkele reis te boeken naar Ierland en dar met veel geschetter en toestanden asiel aan te vragen als klimaatvluchteling. Maar dat zou verkeerd zijn en oneerlijk tegenover echte vluchtelingen. Dan maar een weekje Texel. Als of dit een straf zou zijn.

  7. @mrooijer
    Een paar technische vragen n.a.v. je opm. over je replicatie-artikel met die psychologen.

    – Geldt dat ding van Dijkstra (ongeacht de methodologische kwaliteit ervan) als een replicatie van het KNMI onderzoek?
    – En de analyse van Tinus Pulles die hier onlangs gepubliceerd is, is dat als een replicatie-onderzoek te beschouwen?
    – Je zei in het draadje onder Tinus’ blokstuk dat je handen jeuken om e.e.a. eens rustig na te rekenen als je maar *alle* data had; is dat narekenen replicatie-onderzoek?

    Verder zag ik een paar dagen geleden een voor mij zeer informatief stuk van wiskundige Aubrey Clayton (gespecialiseerd in logic & probability) over de replicatie-thematiek, zie
    http://nautil.us/issue/74/networks/the-flawed-reasoning-behind-the-replication-crisis
    In dat essay maakt hij korte metten met de statistische replicatie-methode van ‘significance testing’ en pleit hij voor de ’Bayesian’ methode. Laatste vraag:

    – Klopt mijn vermoeden dat Dijkstra c.s verdwaald is in significance testing?

  8. Hans Custers

    Het verbroken record van Warnsveld is nog wel interessant om even te bekijken, als extra ontkrachting van complottheorieën over het KNMI. Ik werd er onlangs op gewezen dat er een foto is van dat weerstation. Die staat bijvoorbeeld in deze tweet, met commentaar van een weeramateur.

    Het KNMI heeft dat record in 2015 nog eens onder de loep genomen, samen met de laagste temperatuur die ooit in Nederland is gemeten (Hier te lezen). Het is wel duidelijk dat die meting niet aan de huidige normen voldoet. Dus als ze echt hadden gewild, hadden ze best een reden kunnen verzinnen om dat record te schrappen. Dat is (terecht, in mijn ogen) niet gebeurd.

  9. Willem Schot

    @ Hans Custers,

    Ja, of je nu uitgaat van de oorspronkelijke cijfers van de temperatuur, die nog met de aloude wijzen zijn gemeten en (nog) niet gehomogeniseerd zijn, of van gecorrigeerde cijfers door homogenisatie, duidelijk blijkt steeds dat de huidige maximum cijfers de oude pieken verre overtreffen. Ook zonder homogenisatie is dat zonder meer bewijzend voor opwarming, omdat duidelijk is dat de maximum temperaturen in het verleden iets te hoog waren door instraling. Homogenisatie is wel nodig, denk ik, om een goede reeks echt vergelijkbare gegevens te hebben van enkele stations over langere periodes. Zonder homogenisatie onderschat je de opwarming.

    Het gezeur van mensen die de homogenisatie door het KNMI bekritiseren met de (politieke) bedoeling om het belang van de opwarming te ontkrachten is dus niet relevant en slaat nergens op. Dat wil echter weer niet zeggen dat het niet gezond zou zijn om überhaupt kritiek te hebben op enkele details van het KNMI.

  10. Hans Custers

    Willem,

    Natuurlijk kan kritiek op het KNMI best gezond zijn. Inhoudelijke en deugdelijk onderbouwde kritiek is prima. Ik ben ervan overtuigd dat het KNMI daar ook voor open staat. En ik ben er ook van overtuigd dat men binnen het KNMI kritisch is op elkaar, als daar reden voor is.

    Ik hoop dat ik niet de indruk heb gewekt dat ik per definitie tegen alle kritiek op het KNMI (of op welke wetenschapper of wetenschappelijke organisatie dan ook) ben. Dat is zeker niet het geval.

  11. @G.J.: er is een replicatie-crisis in de psychologie omdat belangrijke experimenten niet goed herhaalbaar blijken. Daardoor sla je een gat in de gangbare theorieën, en dat is een serieuze aanslag op het hele vak.

    Maar replicatie is ook het kunnen narekenen met de oorspronkelijke data. Want niet alle data komt uit experimenten die je kunt herhalen.

    Wat wij bekeken was gebaseerd op grootschalig bevolkingsonderzoek. We her-berekenden alles en het was daarmee meer een reproductie van resultaten met kritische technische noten. (https://psyarxiv.com/hbnm9/)

    Dijkstra cs is absoluut geen replicatie want ze hebben niet eens geprobeerd hetzelfde als het origineel uit te rekenen. Want dat origineel berekent nl. per maand en per 5%-temperatuurband een correctie. Uiteraard in samenhang met elkaar. Dus als je vindt dat er te veel maxima verdwenen zijn zul je toch moeten laten zien waar en hoe dat gebeurt en waarom dat fout is of minder juist. Maar dat doen ze niet, ze dragen “ander” bewijs aan dat we dan ook weer zouden moeten controleren.

    Wat Tinus laat zien is (hooguit) een aanzet tot replicatie, want ook hij gaat uiteraard niet zo ver om op het niveau van aanpassingen binnen maand en temperatuurband te berekenen. Maar het is wel een aanwijzing extra dat er niet veel van dat GRK-stuk klopt.

    Ja, dat narekenen van Brandsma is voor mij de start van een replicatie-onderzoek. Als ik eenmaal snap wat er gebeurt kan ik pas bedenken hoe het evt. beter of anders kan. Een mooi voorbeeld vind ik Lewis en Curry 2014 waar de vaak door Crok aangehaalde lage schattingen voor TCR en ECR uit komen. De programmatuur van Lewis staat op zijn site dus het is allemaal na te rekenen. En het klopte. Maar dan kun je ook laten zin dat het algoritme heel gevoelig is voor de gemaakte keuzes wat betreft input. Zo – even uit het hoofd – was zijn standaard inschatting voor TCR 1.34 maar als ik een andere temperatuurreks nam, BEST, was het 1.86. Toen ik daar op de site van Crok met Lewis over in discussie ging was zijn enige verweer dat de reeks van BEST niet peer reviewed is.

    Wat het GRK rapport betreft, ik weet niet wie het rekenwerk heeft verricht, Dijkstra of De Vos. Ik denk dat ze verdwaald zijn in Excel en in hun gebrek aan kennis. In R heb je in een paar regels code een tabel van 50000 (of 5 miljoen) observaties geladen, gecomprimeerd naar maand-niveau, ontdaan van seizoensinvloeden, en vervolgens kun je (experimenteel) kijken of je op maand- of jaarniveau breekpunten ziet in een regressie. In Excel heb je al minstens 3 andere tussen-tabellen nodig, dat is al bijna onwerkbaar. Aan vragen van significantie zullen ze niet zijn toegekomen.

    Ik vind een gemiddelde correctie van +/- -1 voor alle maximum temperaturen voor De Bilt voor de verhuizing. Dat is volledig in lijn met de correctie van Brandsma tussen -0.2 en -1.8. De uitsplitsing naar maand en temperatuur-band heb ik nog niet gemaakt.

  12. Jan,
    duidelijk! Dank voor je heldere toelichting.

  13. Pingback: De linke weekendbijlage (32-2019) - Kloptdatwel?

  14. Bart Vreeken

    Op het kaartje met maximumtemperaturen op 25 juli ontbreekt Wilheminadorp (Zeeland, ten NO van Goes) met een maximum van 40,3. Hiermee wordt het gebied met 40+ nog een stukje groter.
    http://www.logboekweer.nl/maand/2019/Wilhelminadorp_Juli_2019.pdf

  15. Hans Custers

    Update:

  16. Ben Lankamp

    Bedankt Hans voor het opnemen van de tweet. Het blijkt dat als je ook nog rekent houdt met verschillende manieren van afronden (‘weg van nul’), het verschil met de KNMI reeks afneemt tot gemiddeld 0,03 graden. Het aantal tropische dagen in de periode 1901-1950 wordt dan ook exact gelijk aan de officiële reeks (76 dagen).

    Ik zou nog uren kunnen spenderen aan het bijschaven van mijn code om de laatste minuscule verschillen weg te werken, maar die kunnen zelfs door bijvoorbeeld door de gebruikte computer of het besturingssysteem komen (een Intel-processor gaat iets anders om met ‘zwevende punt-getallen’ dan en AMD-processor; ook Linux of Windows kan uitmaken).

    Interessanter is de methode nu toe te passen met andere smoothing-parameters, een ander referentiestation, enz. Dat is iets wat ik in november wil doen.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s