Speaker
Description
De waarde van wetenschappelijk onderzoek hangt af van de kwaliteit van de data waar dit op gebaseerd is. Sinds jaar en dag is een gerandomniseerde trial dan ook de gouden standaard om betrouwbare conclusies over interventies (bijvoorbeeld het starten van een medicijn) te trekken. Door randomnisatie is de groep individuen die wordt blootgesteld aan de interventie vergelijkbaar met de controlegroep. Een systematisch verschil in karakteristieken (bv. leeftijd, geslacht of woonplaats) kan dus niet voorkomen, waardoor een verschil in uitkomst het gevolg is van de interventie. Echter, tegenwoordig wordt data steeds meer routinematig verzameld en makkelijker toegankelijk voor de gewone burger. Echter, deze zogenoemde observationele data biedt geen enkele garantie dat groepen blootgesteld aan een interventie qua andere eigenschappen vergelijkbaar zijn met groepen die niet zijn blootgesteld. Als een uitkomst verschilt voor deze groepen kan dat komen door (het verschil in) een andere eigenschap dan de interventie. Een voorbeeld betreft het verband tussen 5G straling en besmetting met het Coronavirus. Op basis van juiste data, werd er veelvuldig een foute causale relatie op sociale media, zie de bijgevoegde tweet. Zowel 5G masten en besmettingen vinden we terug in gebieden met een hoge populatiedichtheid. Dit verklaart de relatie (associatie) en laat zien dat er geen sprake is van een causaal verband. Tijdens deze lezing wil ik jullie introduceren in het vakgebied “causal inference” en kennis laten maken met kansrekening voor uitkomsten in een andere werkelijkheid (counterfactuals). Uiteindelijk zullen we bespreken hoe en onder welke aannames het mogelijk is om juiste causale conclusies te trekken uit observationele data.