Pyeongchang. Ik heb geen idee hoe je dat moet uitspreken. De echte schaatsliefhebbers weten het vast wel. In ieder geval is hen bekend dat hier de Olympische Winterspelen worden gehouden. Straks in februari met een breed palet aan disciplines, van kunstschaatsen tot curling. In Pyeongchang dus, een van de noordelijkste provincies van Zuid-Korea. Voor ons telt eigenlijk alleen het schaatsen, wellicht inclusief dat maffe shorttrack. Met dat shorttracken erbij halen we vast wel weer de top-5 in het landenklassement van Olympische medailles. En dat zou knap zijn. Maar voordat de Oranje-schaatsers oostwaarts trekken zijn er eerst nog een paar hobbels te nemen, zoals besluiten wie er gaan. Nederland telt een groot aantal medaillekanshebbers. Maar omdat er van het IOC maar tien mannen en tien vrouwen – ik heb het nu over het echte schaatsen – mogen starten per land, moet er zeker een aantal toppers thuisblijven. Tja, hoe pak je die selectie dan aan?
Realisaties en prognoses: maar al te vaak dekken ze elkaar niet en krijgen statistici de hoon van volk en media over zich heen als hun voorspellingen niet uitkomen. Zou dit ook te maken kunnen hebben met de term ‘voorspellen’? Die zou namelijk de suggestie kunnen wekken dat statistici de glazen bol begluren om de toekomst te kennen. De termen verwachting en prognose hebben die connotatie niet. Ook bij selecteren gaat het om verwachtingen: nu beslissen in de verwachting dat later de medailles komen. Acht jaar geleden alweer, zo ergens in november voor de Vancouver-spelen, kreeg ik het idee om het selecteren van schaatsers voor Olympische Spelen volledig door de computer te laten uitvoeren. Te berekenen dus, in plaats van te ‘beredeneren’.
Wat was dan wel dat idee? Maar daartoe eerst wat wiskundig jargon. Centraal stond een weighted complete bipartite graph. Tussen haakjes, ik krijg de Nederlandse vertaling hiervan niet goed uit mijn pen: ’Graaf’ dat klinkt toch nergens naar in dit verband, om niet te spreken over ‘bipartiet’ of ‘tweedelig’. ‘Bhaiparthait’, dat klinkt als een klok in de collegezaal. OK. De nodes ‘links’ in de graph betreffen de schaatsers en de nodes ‘rechts’ de Olympische schaatsstartplekken. Daartussen liggen de edges met bij elke edge een getal, weight genaamd, dat aangeeft wat de kans is dat de schaatser links op die edge een medaille wint op de startplek rechts op die edge. Zo was er, voor wat betreft de Vancouver-spelen, een edge tussen de node van Kramer naar een startplek (er waren er toen drie) op de 5 kilometer met een weightkans van 100%, of beter gezegd 1. De edge van Kramer naar een startplek op de 500 meter bevatte de kans 0. Mutatis mutandis geldt dit verhaal natuurlijk ook voor de schaatssters.
Dat bipartite-gedoe hebben we omgezet in een integer linear optimization model met de benodigde beperkingen, zoals het quotum van maximaal 10 schaatsers en de aantallen startplekken op de diverse afstanden. Ook het oplossen ervan is nauwelijks schokkend voor een doorgewinterde OR-er, hoewel een tweedejaars student OR hier toch gauw het if-then constraintje vergeet. En dat studenten het dan vaak hebben over ‘integur programmerun’ neem ik dan maar voor lief, al klinkt het nergens naar.
Een maand later, tijdens het OKT (Olympisch Kwalificatietoernooi) in december belde ik Arie Koops, de Technisch Directeur van de KNSB en verantwoordelijk voor de gang van zaken bij de Olympische schaatsselecties langebaan. Een dag later al zat ik bij hem aan tafel en een week later hadden we met terugwerkende kracht de selectie voor de Winterspelen van Turijn berekend. Onze computerberekening week op twee plaatsen af van die van de KNSB. Zo zou de computer Gerard van Velde laten starten op de 500 meter in plaats van Beorn Nijenhuis die slechts 35ste werd, en Mark Tuiter op de 1500 meter in plaats van Simon Kuiper die teleurstelde met een vierde plaats. Koops was verrast maar niet onthutst. Jac Orie, de zeer succesvolle ‘wetenschappelijke’ schaatscoach van beide niet-geselecteerde heren, stak beide armen omhoog toen de Groningse computer hem alsnog in het gelijk stelde. Van Velde stopte daarna met wedstrijdschaatsen en Tuitert won vier jaar later in Vancouver goud op de 1500 meter.
De bipartite graph was de start van een nauwe samenwerking tussen RUG en KNSB, waarbij later ook ORTEC-sports werd betrokken. Voor de Spelen van Vancouver hebben we op eigen houtje de computerselectie bepaald, maar mochten die niet openbaar maken. Buiten de mediaschijnwerpers hebben we de kansen in de bipartite graph berekend en genoteerd in de Prestatiematrix, een voor de vrouwen en een voor de mannen. Op basis van de beide Prestatiematrices werden vervolgens de zogenaamde Selectievolgordes vastgesteld. Zo’n Selectievolgorde is niks meer dan een lijst van alle individuele startplekken gerangschikt van grootste naar kleinste medaillekans van die plekken. Zo stond bij de Spelen van Sotchi, vier jaar geleden, de 10 kilometer bij de mannen bovenaan en bij de vrouwen was dat de 1.500 meter.
De Prestatiematrix is inmiddels omgedoopt tot Kansenmatrix en de term Selectievolgorde is ver-acronymd tot SeVo. Zoals gezegd bevat de SeVo alle individuele startplekken. Dat zijn er drie voor de 500, de 1.000 en de 1.500 meter. Ook de 3.000 vrouwen en de 5.000 mannen kennen beide drie startplekken. Daarentegen zijn er voor de 5.000 vrouwen en de 10.000 mannen slechts twee startplekken per land beschikbaar. Dit jaar staat ook de Mass Start op het programma, die goed is voor twee extra startplekken op de SeVo. Totaal dus 16 individuele startplekken voor beide seksen.
De grote slag vindt plaats op het OKT in Heerenveen. Het evenement duurt vijf dagen en begint op tweede kerstdag. Op basis van de uitslagenlijsten van dat OKT worden tien namen ingevuld op de SeVo. Zodra de tiende man en vrouw zijn genoteerd, worden de resterende startplekken ingevuld met de reeds genoteerden, ook hier in de volgorde van de OKT-uitslagen. Voor de Mass Start gelden andere invulregels; zie de KNSB-site. Ten slotte hebben we nog de Team Pursuit, waarvan de deelnemers gerekruteerd moeten worden uit de tien schaatsers die op de SeVo zijn genoteerd.
P.S. U vraagt zich wellicht af wat die h’s moeten in bhaiparthait. Dat zit zo. Een opmerkzame lezer van een vorige versie van dit verhaal maakte mij erop attent dat ik op college het woord bipartite op zich wel goed uitsprak, maar dat mijn Neder-Saksische roots… Afin duidelijk. Bhaiparthait: heerlijk.
STAtOR 2017 nr. 4 pagina 32-33.
Gerard Sierksma is emeritus hoogleraar Kwantitatieve Logistiek en Sportstatistiek aan de Rijksuniversiteit Groningen.
E-mail: g.sierksma@rug.nl