Reactie op het ScienceGuide artikel ‘Publicaties in open access worden minder geciteerd, maar hebben meer impact’
Bianca Kramer & Jeroen Bosman
[This post in Dutch is a reaction to a Dutch language article in the online magazine ScienceGuide. In it we point at methodological issues in that article where it concerns calculating citation advantage ratios of open access publications.]
Een recent artikel in ScienceGuide ‘Publicaties in open access worden minder geciteerd, maar hebben meer impact’ ‘stelt dat open access (OA) artikelen vaker gedownload, gedeeld en bediscussieerd worden dan artikelen die niet open access beschikbaar zijn (vooral door lezers buiten de academische wereld), maar minder vaak worden geciteerd.
Het artikel rapporteert over onderzoek dat door Springer Nature is uitgevoerd met medewerking van de VSNU en de Nederlandse universiteitsbibliotheken. De stelling dat open access publicaties minder geciteerd worden is echter gebaseerd op een eigen analyse door ScienceGuide van de database Dimensions. Op deze analyse valt ons inziens het een en ander af te dingen, wat we hier met een korte check hopen te laten zien.
ScienceGuide stelt dat ‘een OA-artikel in 2020 gemiddeld 17 keer geciteerd werd, terwijl verwijzingen naar betaalde artikelen gemiddeld 20 keer voorkwamen’. Als gemiddeld aantal citaties per artikel in één jaar zouden dergelijke hoge aantallen sowieso vraagtekens moeten oproepen. Voor zover wij kunnen nagaan, is in de analyse van ScienceGuide het aantal citaties in 2020 naar alle OA publicaties in Dimensions gedeeld door het aantal OA publicaties uit 2020: 51,462,310 / 3,092,745 = 16,6 en idem voor gesloten publicaties: 61.099.078 / 3,007,612 = 20,3 (data van 6 maart 2021). Daarbij is niet gefilterd op artikelen, terwijl in de tekst wel wordt gesproken over artikelen. Waar we hier echter op in willen gaan is dat de berekening zoals die is uitgevoerd niet zinvol is en een onjuiste suggestie wekt.
Als de intentie is geweest om na te gaan hoe vaak in 2020 gemiddeld verwezen werd naar een een OA artikel versus een gesloten artikel, zou het aantal citaties in 2020 gedeeld moeten worden door het totaal aantal artikelen in de database (voor zowel OA en gesloten artikelen). Die grove berekening, eveneens uitgevoerd in Dimensions, wijst op een citatievoordeel voor OA artikelen (49,664,551 / 28,393,702 = 1,7 citaties per artikel) vergeleken met gesloten artikelen (56,164,426 / 67,479,719 = 0,8 citaties per artikel).
Het is ook mogelijk om te kijken naar het totaal aantal citaties per artikel (dus niet alleen citaties uit 2020). Als we dat doen voor artikelen uit de jaren 2012-2020 (zie data en berekeningen), zien we opnieuw een citatievoordeel voor OA artikelen, dat toeneemt naarmate artikelen langer geleden gepubliceerd zijn (en dus langer de tijd hebben gehad om geciteerd te worden). Als we de artikelen uitsplitsen naar type OA, blijkt het citatievoordeel het sterkst voor green OA (artikelen gedeeld in een repository) en hybrid OA (OA artikelen in abonnementstijdschriften, die ook gesloten artikelen bevatten). Green OA betekent hier ‘green only’: artikelen die niet ook gold of hybrid of bronze open access zijn.

Omdat gemiddelde aantallen citaties per artikel sterk beïnvloed kunnen worden door een klein aantal artikelen dat extreem vaak geciteerd wordt, hebben we ook gekeken naar de mediaan van het aantal citaties per artikel, een parameter die ook getoond wordt in Dimensions. Hieruit blijkt voor artikelen uit de meest recente jaren geen algemeen citatievoordeel voor OA artikelen versus gesloten artikelen, maar nog steeds wel voor green OA.

Ten slotte hebben we gekeken naar het percentage artikelen dat (volgens de informatie in Dimensions) ten minste één keer geciteerd is. Het stuk in ScienceGuide noemt de lage citatiegraad van artikelen, naar we aannemen die uit 2020. Dat is niet verwonderlijk omdat artikelen uit dat jaar nog nauwelijks de kans hebben gehad om geciteerd te worden. Sommige artikelen uit 2020 zijn pas net verschenen. Zoals te verwachten is het percentage geciteerde artikelen hoger naarmate artikelen ouder zijn. We zien hier dat, in vergelijking met gesloten artikelen, OA artikelen die ouder zijn 2 jaar wat vaker minimaal één keer geciteerd zijn. Dit geldt in sterke mate voor green OA artikelen, waar het effect voor alle jaren zichtbaar is. Al deze berekeningen en data in deze post zijn overigens beschikbaar.

In tegenstelling tot de berekening die ScienceGuide heeft toegepast, lijken al deze data te wijzen op een (licht) citatievoordeel voor OA artikelen, wat in lijn is met een aantal eerdere onderzoeken, waaronder de grootschalige studies van Archambault et al. (2016) en van Piwowar et al. (2018) en de overzichtsstudie van Lewis (2018). Tevens is er een nuttige lijst van SPARC Europe met tientallen studies waarin is gekeken naar het vermeende citatievoordeel.
Ook in de studie van Springer Nature die door ScienceGuide besproken wordt, is behalve naar downloads en altmetrics data, gekeken naar citaties. Voor 350K publicaties (artikelen, conference proceedings en boekhoofdstukken) uit 2017 die gerelateerd zijn aan de Sustainable Development Goals werd in Dimensions geen direct citatievoordeel gevonden voor OA versus gesloten publicaties, maar wanneer een regressiemodel werd toegepast met correcties voor ‘meerdere variabelen op het niveau van de publicatie, auteur en tijdschrift’ leek er alsnog een citatievoordeel te zijn voor hybrid OA (zie de figuur hieronder, overgenomen uit het Springer Nature rapport, p. 15). In de studie van Springer Nature is overigens in het geheel niet gekeken naar green OA.

Het is goed te bedenken dat de door ons uitgevoerde analyses afhankelijk zijn van de compleetheid van publicatie- en citatiedata in Dimensions. Elke database met citatiegegevens heeft zijn eigen beperkingen, maar een vergelijkbare analyse in Lens (een vrij beschikbare bibliografische database) geeft hetzelfde beeld (zie data en grafieken). En uiteraard impliceren statistische verbanden niet automatisch causale verbanden. De populaties waarnaar gekeken wordt kunnen onderling verschillen op andere aspecten dan alleen open access status, wat een effect kan hebben op de gevonden patronen. Het kan om die reden bijvoorbeeld ook interessant zijn om te kijken naar verschillen tussen vakgebieden (zie data en grafieken). Een analyse hiervan voert hier echter te ver.
De gevonden opvallend hogere waarden voor artikelen die via green OA zijn gedeeld komt overeen met wat werd gevonden in de studies van Piwowar et al. en Archambault et al. Hogere waarden voor green en ook hybrid OA, vooral ten opzichte van artikelen in full gold open access tijdschriften kunnen mogelijk worden verklaard uit het feit dat green en hybrid open access vooral van toepassing is op traditionele tijdschriften, met gemiddeld een grotere bekendheid en op dit moment nog vaak sterkere reputatie dan veel van de nieuwere full gold open access tijdschriften. Specifiek voor green OA komen daar mogelijk nog 2 effecten bij: het effect van de glossy tijdschriften waarin open access publiceren tot voor kort niet mogelijk was (zoals Nature, Science en Cell), en waar green OA dus de enige mogelijkheid was, en het effect dat veel tijdschriften in Life Sciences artikelen green OA beschikbaar maken via PubMed Central en dat veel auteurs in Physical Sciences artikelen delen in arXiv.
De stelling in het ScienceGuide artikel dat OA artikelen minder geciteerd worden dan gesloten artikelen, blijkt in onze analyse niet door de gebruikte data ondersteund te worden. Er zijn wel degelijk sterke aanwijzingen dat open access artikelen vaker geciteerd worden. Los hiervan zijn we geen voorstander van het tegen elkaar afzetten van citaties en ‘externe impact’ als doelen, zeker waar dit laatste wordt afgemeten aan een eendimensionale maat als een geaggregeerde Altmetric score. Het doet geen recht aan de vele manieren waarop impact bereikt kan worden en doet tevens geen recht aan aan de vele beweegredenen om open access te publiceren.
Deze post heeft een CC BY 4.0 license.