Die Marathonsaison 2023 ist in vollem Gange. Letztes Wochenende wurde in Boston bereits der zweite der sechs jährlichen «Marathon Majors» ausgetragen und heute fand in Zürich der grösste Schweizer Marathon der Saison statt. Tausende Läuferinnen und Läufer verfolgen bei diesen Veranstaltungen persönliche Ziele, offizielle Rekorde oder sogar sporthistorische Marken wie die Zwei-Stunden-Schallmauer.
Eine solche Marke im Marathonlauf ist die Zwei-Stunden-Schwelle bei den Herren: Der offizielle Weltrekord aus dem letzten Jahr liegt bei 2:01:09, aufgestellt vom Kenianer Eliud Kipchoge. Im Jahr 2019 lief dieser in einem inoffiziellen Rennen (mit reglementswidrigen Tempomachern und Verpflegungsstellen) gar eine Zeit von 1:59:40 und deutete damit an, dass die historische Zwei-Stunden-Marke schon bald auch offiziell fallen könnte.
Aus Modellierungsperspektive stellt sich die interessante Herausforderung, das Jahr vorherzusagen, in welchem der erste Mensch in einem offiziellen Marathon diese Zwei-Stunden-Schallmauer durchbrechen wird. Wir haben uns deshalb mit den Schweizer Data-Science-Spezialisten von Datahouse zusammengetan, um den magischen Moment vorauszusagen. Das Spin-off der ETH Zürich geht das Problem in drei Schritten an:
Wie bei jeder Analyse ist die zugrundeliegende Datenbasis auch hier sehr wichtig. Welche historischen Daten stehen zur Verfügung? Welche Datenpunkte werden miteinbezogen? Welche sind nicht relevant und werden ignoriert? Für die Modellierung der Marathon-Weltrekorde haben wir diesbezüglich folgende Entscheidungen getroffen:
Als Datengrundlage sollen also die Weltjahresbestzeiten im Marathonlauf der Herren aus den letzten 50 Jahren dienen:
Auf der Basis der ausgewählten Daten wird nun ein Zeitreihenmodell erstellt. Die Zeitreihenanalyse ist eine spezielle Art der Regressionsanalyse. Sie wird dazu verwendet, Muster oder Trends in einer Reihe von Daten, die über die Zeit gesammelt wurden, zu untersuchen und Vorhersagen über ihren Weiterverlauf zu machen. In unserer Marathon-Zeitreihe seit 1970 fallen zwei Punkte auf: Die Zeitreihe ist näherungsweise linear und es besteht ein klar abfallender Trend:
Im Regressionsmodell zeigt sich, dass der Verbesserungstrend ~10 Sekunden pro Jahr beträgt und dass eine «zufällige» (also nicht durch das Modell erklärte) Streuung von ca. ± 45 Sekunden um die Trendlinie besteht. Anhand dieser Erkenntnisse aus der historischen Modellierung können nun Aussagen über die weitere Entwicklung der Zeitreihe gewagt werden.
Wir extrapolieren den modellierten Trend und simulieren unter Beachtung der beobachteten Streuung mögliche Weiterverläufe der Zeitreihe in den nächsten Jahren:
So lassen sich Wahrscheinlichkeitsaussagen machen:
Es ist zu beachten, dass diese Resultate nur im Rahmen der getroffenen Annahmen – also dass die Zeitreihe weiterhin den gleichen Gesetzen wie seit 1970 folgt – gültig sind. Unvorhergesehene und nicht-mitmodellierte Ereignisse wie beispielsweise eine plötzliche Reglementsänderung des Leichtathletik-Weltverbandes können den weiteren Verlauf der Marathon-Zeitreihe stark beeinflussen und unsere Schätzungen somit gefährden. Trotzdem: Im «Normalfall» dürfte das Modell zutreffen und somit in etwa 10 Jahren mit dem ersten offiziellen Marathon unter zwei Stunden zu rechnen sein.
Jedoch ist ein lineares Modell in einer degressiven Entwicklung vielleicht nicht der richtige Ansatz, sonst sind im Jahr 2843 Zeiten von unter 0 möglich… ;-)