{:de}Konzeptarbeit „Datengetriebenes Scouting im Fußball“{:}{:en}Concept work „Data-driven Scouting in Football“{:}

{:de}Konzeptarbeit „Datengetriebenes Scouting im Fußball“{:}{:en}Concept work „Data-driven Scouting in Football“{:}

{:de}

Sommerpause – Zeit, als Fan die Beine ein wenig hochzulegen und sich von den Strapazen der nervenaufreibenden Saison zu erholen. Für mich bedeutet das, dass ich mich mit einem meiner Lieblingsthemen beschäftigen kann: Der Datenanalyse im Fußball (und Euch hierzu einen Longread liefere, der den Namen auch verdient hat). Das mag für viele ein staubtrockenes Thema sein. Für mich ist es aber nicht viel weniger als eine absolute Herzensangelegenheit. Das wird vermutlich daran liegen, dass ich meinen Beruf (Naturwissenschaftler) und meine Leidenschaft (Fußball) sehr gut unter dem Deckmantel Datenanalyse verbinden kann. Beides kann ich ein bisschen. Das reicht für eine fundierte Konzeptarbeit – oder aber ganz viel Halbwissen (dürft ihr nach Lesen des Textes selbst entscheiden). Ich bin jedenfalls davon überzeugt, dass wir in weniger als fünf Jahren in nahezu allen professionellen Fußballvereinen Positionen a la „Head of Data Analysis“ haben werden.

Aber warum ist das so? Welchen Mehrwert können Datenanalysen wirklich im Fußball liefern? Und, auch sehr wichtig, was können sie nicht liefern? Ich habe häufig das Gefühl, dass die Datenanalyse von einigen im Profibetrieb verteufelt wird, weil es „weiche“ Faktoren gibt, die eben nicht anhand von Daten bewertet werden können. Weil das Spiel „zu komplex“ sei, um es „durchzuanalysieren“. Das ist richtig. Im US-Sport (Basketball, Football, Baseball) ist das sehr viel simpler, da sich Standardsituation an Standardsituation reiht oder aber das Spielfeld und die Anzahl der Spieler geringer sind.
Sicher ist, dass tiefgehende Datenanalysen nie die klassische visuelle Analyse von Teams und Spielern ablösen werden. Aber darum geht es bei der Diskussion auch nicht. Manchmal habe ich das Gefühl, dass bei Verantwortlichen eine Art „Angst vor Neuerungen“ bei dem Thema vorhanden ist. Denn sicherlich werden viele der Schritte in einer Datenanalyse nicht von jedem im Klub nachvollzogen werden können. Und vermutlich haben viele auch die Sorge, dass Datenanalysen den von ihnen ausgeübten Job ablösen könnte. Aber tiefgehende Datenanalysen dienen nicht als Ersatz für die visuelle Bewertung von Spielern/Spielen/Spielzügen. Sie dienen vielmehr als Zusatz. Sie verbessern die Bewertung und machen das Bild dadurch runder, fundierter und, davon bin ich überzeugt, werden letztendlich dazu führen, dass Klubs sehr viel bessere Entscheidungen treffen können.

Ich habe mir ein paar Gedanken zum Thema Datenanalyse im Scouting gemacht, da es da bei einem offenen Sommertransferfenster auch immer viel zu bereden gibt, wie da die Abläufe sind. Das Scouting ist sicher der Bereich, in dem die intensive Nutzung von Daten den größten Effekt haben kann (neben der Spiel- und Standardanalyse und in medizinischen Abteilungen). Das liegt vor allem daran, dass die Verpflichtung und der Unterhalt von Spielern einer der Geldpools in Klubs ist, bei dem es am schwersten vorherzusagen ist, ob man für sein Geld auch das bekommt, was man „gekauft“ hat. Um besser einzuschätzen, ob Spieler wirklich die Skills haben, die das eigene Team weiterbringen, sind tiefgehende Datenanalysen eigentlich unabdingbar. Drei Gründe warum:

  • Das visuelle Scouting ist voll von Fehlern (Biases). Hierzu interessante Beispiele (und hier der Text, in dem ich u.a. dazu gelesen habe):

    Confirmation bias. Cristiano Ronaldo ist sicher ein toller Fußballer (menschlich ist der Typ, naja…). Als er damals das erste Mal für Real Madrid in der Champions League antrat, erzielte er gleich zwei Tore per Freistoß. Na klar, er ist halt ein Extra-Könner bei ruhenden Bällen. Da sind wir uns alle einig, da fast alle von uns bereits ein Freistoß-Tor von ihm gesehen haben. Aber ist er das wirklich – ein Extrakönner? Sicher kann er den Ball ganz gut treten, aber ein Extra-Könner ist er nicht. Seine Quote ist nicht viel mehr als mittelmäßig (vor allem im Vergleich zu Lionel Messi – später mehr dazu). Wie viele von uns denken aber, wenn der schmalzige Portugiese zum Freistoß antritt „Ouh, gefährlich, der kann das richtig gut.“, weil wir mal gesehen haben, dass er einen Freistoß (von seinen unglaublich vielen) versenkt hat? Und wie viele fühlen sich mit der These bestätigt, wenn er dann mal wieder einen trifft, obwohl er unzählige davor nicht versenkt hat?
    Der confirmation bias sorgt bei uns dafür, dass unsere eigenen Erwartungen an ein Ereignis bestätigt werden („Ronaldo ist ein Freistoß-Gott“). Wir blenden die Informationen, die dabei nicht ins Bild passen (Vielzahl verschossener Freistöße) aus, damit unsere Erwartungen nicht wiederlegt werden.

    Anchor bias. Noch so ein großes Problem im visuellen Scouting ist, dass es für eine Bewertung von Spielern immer eine Art Anker geben muss (sowas wie ein Richtwert, an dem sich ein Spieler messen lassen muss). Und das ist meist das erste Spiel oder die erste Aktion, die man von einem Spieler mitbekommt (im Fall von Ronaldo z.B. seine beiden Freistoß-Tore im ersten CL-Spiel für Madrid). In Verbindung mit dem confirmation bias führt das zu massiven Fehleinschätzungen, da wir Informationen ausblenden und womöglich den falschen Richtwert definieren. Das tun wir, weil es das menschliche Gehirn nicht anders kann.

    Outcome bias.Der FC St. Pauli hat diese Saison gruselig gespielt, denn er hat nur soundsoviele Punkte geholt.“ – der outcome bias ist wirklich am einfachsten zu erklären, aber auch meist einer der größten Fehler. Denn er geht vom Ergebnis aus. Da aber im Fußball nicht immer das bessere Team als Sieger vom Platz geht, hat der outcome bias Raum zur Entfaltung. Denn viele stellen sich die Frage: „Wir haben verloren – was war schlecht?“ oder „Wir haben gewonnen – was war gut?“ und bewerten Situationen aufgrund des Ergebnisses positiver oder negativer, obwohl zur Bewertung nicht das Ergebnis einzelner Spiele als maßgeblich gelten müsste.

    Similarity bias. Wir Menschen sind schon ziemlich Ego-Tiere. Daher gibt es z.B. auch den similarity bias, aufgrund dessen wir Menschen, die uns ähnlich sind, besser bewerten als solche, die sich von uns unterscheiden. Ihr könnt Euch sicher vorstellen, dass der Effekt, den so ein Bias auf das Scouting haben kann, enorm ist.

    Alle diese Fehleinschätzungen können durch Datenanalyse als Assistent zum visuellen Scouting verhindert werden. Und die Liste der Fehleinschätzungen kann nahezu beliebig verlängert werden (schaut mal hier den „Cognitive Bias Codex – und wenn ihr nur einen Link in diesem langen Text anklicken wollt, dann nehmt diesen bitte). Das ist keine Kritik an visuellen Scouts. Es ist halt einfach eine Art menschliche Fehleinschätzung, die da passiert und kann entsprechend nur von Menschen, nicht von Datenanalysen gemacht werden (wobei auch die Datenanalyse menschengemacht und daher nicht gänzlich frei von Fehleinschätzungen ist).
  • Mithilfe von Datenanalyse kann die visuelle Arbeit von Scouts viel effektiver gemacht werden.
    Viele PodcasthörerInnen werden sich bereits schon einmal mit der Frage befasst haben, wie zur Hölle man den ganzen Kram, den man gerne hören möchte auch hören kann. Das Abspielen in 1,5facher Geschwindigkeit ist für die meisten zwar eine Lösung, aber es geht doch einiges an Hörvergnügen flöten. Noch schwieriger wird es beim Scouting, denn Spiele in 1,5facher Geschwindigkeit sind sicher noch unerträglicher. Aber um die Aktionen von Spielern komplett zu erfassen bedarf es nun einmal visuelles Scouting. Dazu gibt es inzwischen WyScout und InStat, die von Spielern Videoschnipsel von allen möglichen Aktionen anbieten. Aber auch diese ganzen Aktionen müssen angeschaut und vor allem bewertet werden. Wenn nun im Vorwege eines solchen Scoutings bereits eine tiefgehende Datenanalyse stattfindet, dann reduziert sich die Zahl der Spieler, die visuell gescoutet werden müssen automatisch und steigert die Effektivität.
  • Datenanalyse kostet einen Klub nicht mehr, sie kostet weniger.
    Nehmen wir mal an, dass ein Spieler 250.000 € pro Saison verdient. Ich würde schätzen (sehr konservativ, also eher unterschätzt), dass das in etwa der Mittelwert der Spielergehälter in der 2.Liga ist. Wenn ein solcher Spieler also zu einem Klub kommt und einen Zwei- oder Drei-Jahresvertrag unterschreibt, dann ist das eine Entscheidung, die nicht mal eben durch 20 zusätzlich verkaufte Bier im Stadion oder zehn T-Shirts im Fanshop refinanziert werden kann. Und wir reden hier nur von einem einzigen Spieler. Pro Saison sind das inkl. Vertragsverlängerungen Summen, bei denen mir persönlich schnell übel wird. Eine ebenso vorsichtige Schätzung meinerseits geht von 100.000 € für die mögliche Sektion „Datenanalyse“ aus (ein „Head of“, zwei Informatik-Studierende, die die „Drecksarbeit“ machen und Kosten für die Daten selbst, die man bei verschiedenen Anbietern erwerben muss).
    Ich bin zwar kein BWLer, aber wenn man mit tiefergehenden Datenanalysen nun die Trefferquote von Transfers nur um 5-10% hochschrauben kann (sicher kein unrealistisches Szenario), dann ist das ein lohnendes Investement und spart an anderer Stelle massiv Geld ein. Und gerade jetzt, wo aufgrund der Coronakrise die Einnahmen eben nicht mehr stetig wachsen und alle Klubs sparen müssen, werden sich in naher Zukunft wohl auch die Klubs durchsetzen, die im Scouting sehr effektiv arbeiten.
Talent oder nicht? In diesem Fall sicher leicht zu erkennen.
(c) Peter Boehmer

Wie müsste datengetriebenes Scouting aussehen, damit sich ein solches Investement lohnt?

Letztendlich fischen alle im selben Teich nach Spielern. Spätestens seit Plattformen wie InStat und vor allem WyScout Informationen und Daten zu nahezu jedem Spieler in jeder Profiliga der Welt bieten können, wird es nicht mehr so sein, dass Scouts im tiefen Südamerika, nach 1.910 Stunden Flugzeit, Übernachtungen in übelriechenden Hotels und über zahllose Kontakte einen Spieler zu sehen bekommen, den vorher noch nie jemand gescoutet hat.
Es geht also vielmehr darum, was man aus den Daten macht, die einem angeboten werden. Wenn man sich einfach auf die handelsüblichen Daten und Statistiken verlässt, dann wird man weiterhin mit allen anderen Klubs im selben Teich fischen. Und die Trefferquote wird sich entsprechend nicht groß unterscheiden bzw. ist komplett abhängig vom visuellen Scouting, welches ja nun voll von Fehlern ist. Wenn man die vorhandenen Daten jedoch in die Hand nimmt und daraus ein eigenes Modell, ein Profil, zugeschnitten auf die Bedürfnisse eines Klubs bzw. Teams erstellt, dann fischt man zwar immer noch im gleichen Teich nach Spielern, aber man hat eine andere (bessere?) Angel zur Verfügung. Und nur so wird man dann anhand von Daten auch Spieler entdecken, die vielleicht vorher unterm Radar geschwommen sind. Und nur dann wird man (auch preislich) auf dem Transfermarkt anders agieren können, als es alle anderen Angler am Teich tun.

Welche Daten werden angeboten?

Es gibt inzwischen unglaublich viele Anbieter im Fußball, die Daten aufbereiten und anbieten – und lobpreisen das Scouting damit zu vereinfachen. Die Plattformen InStat und vor allem WyScout vereinfachen das Scouting vor allem dahingehend, dass man sich Videoschnipsel von Spielern anschauen kann und die Skills von Spielern mit denen anderer vergleichen kann. Es gibt aber jede Menge Anbieter, die noch mehr eigene Datenanalysen anbieten. Ich stelle Euch mal ein paar vor:

Statsbomb
Der aktuelle „Poster-Boy“ der Datenaufbereitung und Visualisierung ist sicher Statsbomb und da besonders die sogenannten Radar-Charts. Diese zeigen die Skills von einzelnen Spielern, nach Ansprüchen je Positionen, im Vergleich zu allen anderen Spielern auf der gleichen Position an.

Radar-Charts von Statsbomb.
Grundsätzlich gilt bei der Betrachtung: Je mehr Farbe im Spiel ist, umso höher ist der spezielle Skill eines Spielers.
Der Vergleich von N’Golo Kantè und Kevin de Bruyne zeigt zum Beispiel, dass beide Spieler enorm stark im Mittelfeld sind, jedoch mit ganz unterschiedlichen Skills. Während de Bruyne mit Vorlagen und wichtigen Zuspielen die Maßstäbe in der Premier League setzt, tut Kantè das gleiche, aber mit defensiven Skills wie Tacklings, Ballgewinnen und im Pressing.

Auf diese Art und Weise kann doch relativ schnell erkannt werden, welche Spieler wirklich dauerhaft über gewisse Fähigkeiten verfügen. Spannend auch, dass die Fähigkeiten auch in ein Verhältnis von allen Ligen und nicht nur von der Liga gesetzt werden, in der die Spieler aktuell spielen. So zeigte auch der mal von mir via Twitter angefragte Radar-Chart zu Mats Møller Dæhli, dass dieser vor allem im Bereich „Ballgewinne durch Pressing“ international vorne mit dabei ist.

Radar-Chart von Mats Møller Dæhli von Statsbomb.
Die Daten in der Graphik zeigen die Werte im Vergleich zu allen Daten (auch international). In der Tabelle sind die Werte im Vergleich zur allen Spielern seiner Position der 2.Liga aufgezeigt. Ziemlich beeindruckend, sowohl die Leistung von Mats, aber auch die Darstellung von Statsbomb.

Keine Frage, die Daten von Statsbomb sind schon recht schick. Und viele Klubs arbeiten auch bereits mit Statsbomb im Scouting zusammen.

Goalimpact
Ein weiterer interessanter Anbieter von tiefergehenden Daten im Fußball ist Goalimpact. Wobei „tiefgehend“ hierbei eher der falsche Begfriff ist, es ist eher eine große Datenemenge. Denn der Entwicklung des Goalimpact liegt ein relativ simples, aber dadurch nahezu auf jede Popel-Liga und entsprechend jeden Spieler anwendbares Prinzip zugrunde: Basierend auf dem Ergebnis der Spiele und der Spieler auf dem Feld wird eine Art +/- Statistik angewendet. Zusätzlich gibt es immer noch auch gewisse Erwartungen an ein Spiel (vereinfacht: wenn Bayern München gegen den 1. FC Rumpelballhausen antritt, dann wird ein 1-0-Sieg anders gewichtet als wenn sie diesen gegen Real Madrid einfahren).
Das interessante an diesen Daten ist, dass die Statistik damit auch versucht off-ball actions der Spieler zu erfassen. Denn die meisten der angegebenen Statistiken beruhen auf Ball-Aktionen der Spieler, auf Zweikämpfen, Torschüssen, Pässen. Wie aber kann der Wert eines Spielers gewichtet werden, der Räume geschickt zustellt und so die Bälle gar nicht im Zweikampf gewinnen muss oder ein Spieler der durch einen klugen Laufweg eine Lücke in der gegnerischen Kette reißt und so den erfolgreichen Schnittstellenpass seines Mitspielers ermöglicht? Das ist ziemlich schwer zu bewerten.
Diesen Wert, den Spieler auf das Spiel des eigenen Teams haben, erfasst der Goalimpact allein schon dadurch, dass er den Erfolg eines Teams für alle Spieler eines Teams „gutschreibt“. Aber so einfach diese Statistik auch ist, es hat natürlich auch eine Menge Nachteile, wenn das reine Ergebnis als Faktor für die Leistung eines Teams herangezogen wird, da nicht jedes Team für seine Leistung auch in Form von Siegen belohnt wird. und natürlich ist auch bei positivem Ergebnis nicht immer die Leistung eines jeden einzelnen Spielers positiv zu bewerten. Aber der Goalimpact ist sicher eine Statistik, die für das Scouting gerade von jüngeren Spielern interessant ist, da das Modell auch immer eine Prognose der Entwicklung von Spielern angibt. Aber er ist eben als alleinige Statistik nicht aussagekräftig genug.
(Wer mehr über den Goalimpact erfahren möchte, kann sich gerne mal das Interview durchlesen, dass ich mal mit Thorsten Wittmütz von Goalimpact geführt habe).

Impect – Packing
Auch eine Art „Poster Boy“, wenngleich dieser vor allem von Mehmet Scholl bei der EM-Berichterstattung anno 2016 ganz schlecht dargestellt wurde, ist das „Packing“ der Firma Impect. Die Firma, gegründet von den beiden ehemaligen Spielern Jens Hegeler und Stefan Reinartz bietet eine andere Art der Auswertung von Pässen an: Es wird gezählt, wieviele Spieler durch Pässe „überspielt“ werden, also wieviele gegnerische Spieler nach einem erfolgreichen Pass weiter weg von ihrem eigenen Tor sind als der Ball als vorher. Es handelt sich hierbei um eine recht spezielle Statistik, aber diese ist von hoher Bedeutung, da sie damit die Passquote als solches ganz anders gewichten lässt.
Besonders anschaulich ist es als Beispiel: Wenn ich als Innenverteidiger konstant Quer- und Rückpässe spiele, dann habe ich sicher ne gute Passquote, aber bin ich dann wertvoller für das eigene Team im Vergleich zu einem Spieler, der häufiger vertikal spielt, damit die Wahrscheinlichkeit eigener Tore erhöht, aber auch mehr Fehlpässe produziert? Da beim Impect die Anzahl der überspielten Spieler gezählt wird, wird so der Qualität des vertikalen Passes mehr Gewicht verliehen (das Beispiel von Hummels und Subotic ist da sehr aufschlussreich).

Graphik der Impect-Werte von Spielern der 1. Bundesliga und der Premier League. Ihr könnt Euch sicher sein, dass neben dem roten Punkt ganz rechts oben der Name Thiago stehen müsste.

American Soccer Analysis – g+
Wie viele von Euch wissen, ist die Nutzung von Daten im US-Sport sehr viel weiter fortgeschritten und akzeptiert, als im europäischen Fußball. Daher ist es auch nicht verwunderlich, dass der Blog American Soccer Analysis eine Art Vorreiter in der Datenanalyse im Fußball ist. Und pünktlich zur Coronapause präsentierten sie eine, wie ich finde, sehr interessante und aussagekräftige Metrik: goals added, kurz g+. Diese Metrik beruht auf Basis der von mir so geliebten expected goals. Mit dem Unterschied, dass bei dieser Metrik nicht nur den Torabschlüssen sondern jeder Aktion auf dem Platz eine Tor- und Gegentorwahrscheinlichkeit zugeordnet wird. So ist es möglich auszurechnen, wie sehr sich die eigene Torwahrscheinlichkeit und die des Gegners durch eine Aktion (z.B. gewonnener Zweikampf) verändert. Erhöht sich die eigene und/oder verringert sich die gegnerische Torwahrscheinlichkeit wird das dem entsprechenden Spieler, der die Aktion ausführte gutgeschrieben. Dadurch erfährt jeder Schuss, jeder Pass, jeder Zweikampf oder Ballgewinn/-verlust eine Gewichtung und Bewertung, die letztendlich die Bewertung aller Aktionen jedes einzelnen Spielers ermöglicht.
Diese Metrik ist recht fancy und hübsch ausgearbeitet, aber sie ist nicht so neu. Letztendlich ist sie sehr ähnlich zu der non-shot xG-Metrik, die auch versucht alle Aktionen fernab von Torschüssen und Torschussvorlagen zu bewerten. Und auch andere Anbieter haben ähnliche Metriken (Statsbomb z.B. xGBuildup, welches Pässe vor einem Torschuss bewertet oder xG Thread (xT) von Karun Singh (da wird das auch sehr schön mathematisch aufgedröselt) und, recht neu, der possession value, kurz PV, der Pässe bewertet und auch negative Werte ausspucken kann; meine Güte, es gibt sogar ein xG-Modell, welches nicht nur die Position des Torschusses sondern auch den Torschuss selbst mit einer Torwahrscheinlichkeit versieht, wird dann shot placement xG genannt). Aber es gibt auch aus dem Bereich der Sportwissenschaften einen ähnlichen Messwert der mit der schönen Wortschöpfung Dangerousity versehen wurde. Ihr seht, mit der Metrik expected Goals ist in den letzten Jahren unglaublich viel passiert.
Die Wachablösung der expected Goals als beste Metrik ever?
Und während ich vor mehr als zwei Jahren mal vollmündig ankündigte, dass expected goals in naher Zukunft die „normalen“ Torschuss-Statistiken in der medialen Berichterstattung ersetzen werden, tue ich an dieser Stelle gleiches, nur beziehe mich dabei auf goals added. Ich bin davon beeindruckt, wie aus der Metrik xG weitere Metriken geschaffen wurden. Von xG, über expected Assists (xA), hin zu tieferen Passketten (xG Thread, xG Buildup und PV) und mit Dangerousity hin zu der Bewertung der Aktion auf dem Feld bei jeder Aktion, die mit g+ & non-shot xG womöglich eine Art Vollendung findet. Ich halte die Aussagekraft von g+ im Scouting zwar für begrenzt, weil es eben eine allgemeine Bewertung und keine Bewertung der einzelnen Skills ist (was nicht bedeutet, dass man sie im Scouting nicht nutzen sollte), aber die Metrik ist recht gut verständlich und für eine grobe Einschätzung der Leistung von Spielern zigmal besser als die bisher präsentierten Laufdistanzen, Zweikampfwerte und Passquoten.

21st Club
Im Stile einer Beratungsagentur kommt 21st Club daher. Und die Beratungen, die sie anbieten, sind auch häufig sehr viel weiter gefasst, als der Blick auf die einzelnen Skills von einzelnen Spielern. Da geht es dann eher um Fragen wie: Welches ist aus wirtschaftlicher Sicht das beste Alter um Spieler zu kaufen/verkaufen? Wie sehen die Leistungs-Unterschiede der einzelnen Ligen aus? Kann ein Spieler aus Liga X auch die gleiche Performance in Liga Y zeigen? Welche Altersstruktur im Kader haben erfolgreiche Teams? Welcher Trainer passt zu einem Kader? (ich hoffe die letzte Frage wurde kürzlich beim FCSP laut gestellt)
Es handelt sich also nicht unbedingt um einen Anbieter von Daten sondern ein Unternehmen, welches, basierend auf Daten, eine Art Handlungsempfehlungen für längerfristige Kaderstrukturen etc. gibt. Im weitesten Sinne ist also auch 21st Club ein Anbieter, der für datengetriebens Scouting sehr interessant sein kann. Und ich kann allen Verantwortlichen von Fußballklubs die Lektüre dieser Artikel empfehlen.

Global Soccer Network
Ziemlich nahe an das, was Klubs im Scouting benötigen, kommt aus meiner Sicht das was Global Soccer Network anbietet. Und zwar richtig nahe. Ich kenne die dahinterliegenden Daten nicht, auf deren Basis letztendlich der GSN-Index gebildet wird, aber genau so müsste jeder Klub im Scouting vorgehen (wenn auch nicht gleich so aufwändig, weniger würde bereits reichen, um sich von anderen Klubs signifikant abzuheben). Um die angebotenen Daten und auch die Ideen hinter sowas etwas besser zu verstehen, empfehle ich Euch wärmstens das Interview vom VfL Bochum Fan-Blog einsachtvieracht mit einem der Macher von Global Soccer Network.
Spannend finde ich persönlich vor allem, dass hier nicht nur die Skills der einzelnen Spieler bewertet werden sondern man auch schauen kann, ob der Spielstil des eigenen Teams mit dem von anderen Teams zusammenpasst und es daher für Spieler einfacher sein könnte, sich an das neue Team anzupassen. Oder aber auch, dass, wie es Statsbomb auch bereits mit seinen Daten macht, Spieler je nach Ansprüchen der einzelnen Positionen bewertet werden. Ein weiterer Schritt als Statsbomb ist wohl der, dass auch geschaut werden kann, ob die Skillsets der Spieler auch zu anderen Positionen passen. Und es gibt auch eine Prognose für die einzelnen Spieler. Inwiefern diese zutreffen, kann ich natürlich überhaupt nicht sagen, aber da steckt schon einige Denkarbeit und Datenanalyse dahinter, wenn ich das oben verlinkte Interview beachte. Wie gesagt, auf den ersten Blick, mehr Einblick in die Daten und Prozesse von Global Soccer Network habe ich nicht, erscheint das wie ein Scouting-Tool, welches Klubs wirklich weiterhelfen kann.

Das ist nur eine kleine Auswahl an Anbietern von Daten zur Verbesserung der Bewertung von Fußballern und es sind wohl die bekanntesten Player auf diesem Markt. Es gibt noch viele weitere und sicherlich wird auch der FCSP Woche für Woche Angebote für solche Produkte erhalten, bei den der Anbieter einem die ultimative Verbesserung des eigenen Scoutings verspricht. Für weniger Daten-affine Menschen ist es dort sicher schwierig den Überblick zu behalten und wertvolle von wertlosen Daten zu unterscheiden (diese Frage bekommt gleich einen eigenen Abschnitt im Text). Übrigens ist es häufig optaSports, die der Daten-Lieferant sind für die ganzen Metriken, Indexe und Prognosen die solche Anbieter liefern (aber es gibt auch einige Anbieter, die die Daten selbst produzieren).

Und ganz allgemein gilt bei der Nutzung solcher externer Datenanbieter auch, dass weiterhin alle im selben Teich und dann entsprechend auch mit der gleichen, sehr viel besseren Angel arbeiten. Um sich wirklich im Scouting abzuheben und auch wirklich die Daten so zu nutzen, dass sie perfekt auf die Ansprüche eines Klubs, eines Spielsystems passen, benötigt es hauseigene Datenanalysen, bestenfalls in Verbindung mit externen Datenanbietern.
Eine eigene Abteilung für Datenanalysen und eine Nutzung mehrerer Quellen der Daten ist übrigens auch deshalb sinnvoll, um die Definitionen der einzelnen Bewertungskriterien kritisch hinterfragen zu können. So hat sich zum Beispiel mal Florian Zenger von Clubfans United damit befasst, warum FCN-Spieler Hanno Behrens bei drei verschiedenen Daten-Anbietern zu drei doch recht unterschiedlichen Zweikampfquoten kommt. Diese Definitionen sollten daher grundsätzlich hinterfragt und bestenfalls selbst entwickelt werden, damit es eben nicht zu einer falschen Einschätzung kommt.

Wertvolle oder wertlose Daten?

Wenn man sich dazu entscheidet bei der Suche nach neuen Spielern auf Daten zu vertrauen, dann sollten es natürlich auch die richtigen bzw. aussagekräftigen Daten sein. Das Beispiel Cristiano Ronaldo und Freistöße eignet sich perfekt für diesen Abschnitt: Denn wow, er hat ganze 30 Tore im Dress von Real Madrid per Standard erzielt. Betrachtet man diesen Wert, so würde man klar behaupten, dass wir dringend versuchen sollten ihn zu verpflichten, wenn wir einen Standard-Spezialisten suchen. Zur Wahrheit gehört aber auch, dass Ronaldo 410 Freistöße im gleichen Zeitraum direkt auf das Tor getreten hat. W.O.W! Bleibt also eine Erfolgsquote von knapp über 7%, was auf einmal nicht mehr so richtig dolle für einen absoluten Standard-Spezialisten spricht. Denn die durchschnittliche Conversion rate von Freistößen liegt bei knapp 6%. Die der 150 besten in Europa sogar bei knapp 13% (alles hier nachzulesen). Cristiano Ronaldo ist also nur ganz leicht mehr als ein durchschnittlicher Freistoßschütze. Und das Beispiel von Hummels und Subotic mit dem Vergleich ihrer Passquoten und dem dazugehörigen Packing habe ich bereits weiter oben beschrieben.
Wenn man also Daten für die Evaluierung von Spielern nutzen will, dann ist es unglaublich wichtig zwischen wertvollen und wertlosen Daten zu unterscheiden und die Aussagekraft sämtlicher Daten zu bewerten.
Aber welche Daten sind denn nun wertvoll bzw. wertlos?

Da bin ich natürlich bei weitem nicht der erste, der sich diese Frage stellt und in vielen Verein wird ja bereits mit Datenanalysten gearbeitet oder aber es werden von Anbietern Daten genutzt. Ganz grundsätzlich ist es natürlich sinnvoll und absolut einleuchtend, wenn die Spieler anhand unterschiedlicher Kriterien je nach Positionen gescoutet werden (da ein Stürmer andere Skills als ein Verteidiger braucht). Entsprechend müsste sich jeder Verein im Scouting erst einmal die Frage stellen, welches die Kern-Skills von Spielern auf bestimmten Positionen sind, welche Skills in dem Fußball, den ein Team spielen möchte, überhaupt benötigt werden.

Ich versuche dieser Frage mal etwas genauer auf den Grund zu gehen indem ich mal aufliste, welche Daten aus meiner Sicht für das Spieler-Scouting relevant sind und in eine Datenanalyse einfließen müssten:

Allgemeine Faktoren

  • Alter
    Ganz allgemein muss ein Spieler ein Team natürlich besser machen. Entsprechend sollte das Alter eines Spielers bei dieser Frage nur eine geringe Rolle spielen. Aber aus ökonomischer Sicht und auch aus Sicht der Kaderentwicklung über Jahre spielt das Alter von Spielern eine enorm wichtige Rolle. Das Alter spielt nämlich allein schon bei der Frage nach dem Wiederverkaufswert eine Rolle. Und es muss sich natürlich auch die Frage gestellt werden, ob sich ein Spieler noch entwickeln kann und dadurch ggf. zu einem höheren Preis den Verein wieder verlässt. Und natürlich sollten Klubs immer versuchen, die Spieler genau dann zum Klub zu lotsen, bevor der Marktwert steigt. Hierbei handelt es sich um eine ganz allgemeine Frage: Wollen wir als Klub einen Spieler entwickeln und mit einem höheren Wert wieder veräußern oder brauchen wir gerade auf der vakanten Positionen einen Spieler der uns sofort weiterhelfen kann? Die Ideallösung ist natürlich beides zusammen: Ein Spieler, der weiterhilft, aber sich auch noch weiter entwickelt und sich dann später für höhere Aufgaben empfiehlt.
  • Körpergröße
    Ja, die Körpergröße ist wichtig, da man nur bedingt einen Innenverteidiger aufbieten sollte, der nur 1,82m misst, da dieser dann in Kopfballduellen unterlegen ist. Aber die Körpergröße ist dafür nicht entscheidend. Es ist muss eher eine Angabe zur Sprunghöhe sein, die bei der Suche nach den entsprechenden Spielern berücksichtigt wird (die kann anhand physiologischer Eigenschaften ausgerechnet werden). Warum ich gerade 1,82m genannt habe? Schaut Euch mal die Sprunghöhe an:
Leo „Air“ Østigård – wir werden ihn vermissen!
(imago images / via OneFootball)
  • Geschwindigkeit
    Ein ganz zentraler Skill. Und in vielen Medien wird auch immer wieder mit Maximalgeschwindigkeiten hantiert. Das ist so richtig wie falsch. Denn was sagen uns schon die Maximalgeschwindigkeiten, wenn es viel wichtigere Werte im Bereich der Geschwindigkeit gibt? Ich persönlich würde beim Scouting z.B. viel mehr darauf achten, was ein Spieler auf den ersten 5, 10 und 25 Metern leisten kann, wie gut er beschleunigt. Denn wie oft werden Spieler pro Spiel überhaupt ihre maximal abrufbare Geschwindigkeit erreichen (müssen)? Eher selten. Aber kurze Beschleunigungen sind oft gefragt und daher wichtig (übrigens ist auch die Anzahl der Sprints pro 90min ein wichtiger Parameter).
    Wer privat „FIFA“ spielt kennt dies auch, denn unter dem Oberbegriff „Schnelligkeit“ ist „Beschleunigung“ einer der wichtigsten Unterpunkte bei den Spielern.
  • Verletzungshistorie
    Brauche ich sicherlich niemandem zu erklären, warum der leidgeprüfte Marc Hornschuh aktuell bei vielen Vereinen durch das Scouting-Raster fällt. Denn Verletzungen sind vermutlich in jedem Verein der größte Posten an Wertverlusten.
    Entsprechend sollte im Scouting sehr genau auf eben jene Verletzungshistorie geschaut werden. Wie oft war ein Spieler verletzt? Welche Art von Verletzungen gab es? Hat ein Spieler einfach Pech gehabt? Oder steckt mehr dahinter, wie z.B. schlechtes Training, unprofessionelles Verhalten? Ich habe das mal in diesem Text etwas genauer ausgeführt.
  • Marktwert
    Ist eh klar, dass man als ambitionierter Zweitligist keine Zeit darauf verschwenden sollte, in seinen Scouting-Modellen Spieler zu haben, die zu einer Anfrage aus der zweiten Liga maximal ein mildes Lächeln hervorbringen. Entsprechend muss ein Scouting-Modell eine Art Obergrenze für Spieler haben, damit bei einem Modell nicht immer direkt die ersten 20 Spieler aussortiert werden müssen, da sie eh nicht in das Preis- und Gehaltsgefüge eines Vereins passen. Der Marktwert von Spielern könnte in einem Scouting-Modell als eine Art Filter genutzt werden, um die Kategorie an Spielern außen vor zu lassen, die einen aufgrund der Preise nicht interessieren.
  • Goalimpact / GSN – Prognosen
    Die beiden bereits erwähnten Unternehmen Global Soccer Network und Goalimpact sind auch (oder besonders) deswegen interessant, da sie eine Prognose zu der Entwicklung der einzelnen Speiler liefern. Und obwohl die Trefferquote dieser Prognosen sicherlich nicht ansatzweise das ist, was sich die Macher, aber auch die Nutzer erhoffen (die individuelle Entwicklung von Spielern hängt halt viel zu krass mit der Situation in den Klubs (Spielzeit, System, Trainer, Konkurrenz) zusammen und das lässt sich über Jahre für einzelne Spieler schlicht nicht vorhersagen), so sind sie doch interessant und sollten beim Scouting berücksichtigt werden. Denn diese Prognosen basieren ja nicht auf Blicken in Glaskugeln, sondern wurden auch mittels historischer Daten, also der bereits abgeschlossenen Entwicklung von Spielern, validiert und so ist davon auszugehen, dass die Trefferquote zwar nicht optimal ist, aber sie kann neben der Einschätzung von visuellen Scouts eine weitere wichtige Bewertung liefern.

Skill-Set

  • Standards
    Grundsätzlich sollte bei der Einschätzung von Spielern die Performance bei Standards gesondert betrachtet werden. Als Beispiel dient Philipp Hofmann vom KSC, der diese Saison zwar beachtliche 17 Tore erzielt hat, davon jedoch drei per Elfmeter und (mindestens – war ne kurze Recherche) fünf nach einer Ecke. Rechnet man die Tore nach Standard-Situationen heraus, dann bleiben zwar immer noch ehrenwerte neun Tore übrig, aber so richtig beeindruckend ist das dann nicht mehr, was aus dem Spiel heraus passierte für einen Stürmer, der die Saison komplett unverletzt spielte und meist als alleinige Spitze agierte.
    Will sagen: Standard-Situationen können den spielerischen Wert eines Spielers auf der gesuchten Position etwas ungenauer erscheinen lassen, wenn man diese nicht gesondert betrachtet. Denn es ist ja auch eine Stärke des Spielers bei Standard-Situationen gut zu performen. Nur sollte das eben gesondert bewertet werden.
  • Successful actions
    Ganz unabhängig von der Position, die gesucht wird, sollte man die gesamten Skills, die für eine Position benötigt werden, im Ganzen betrachten. Wie hoch ist die Erfolgsquote aller Aktionen eines Spielers auf dem Feld? Seien es Pässe, Torabschlüsse, Zweikämpfe. InStat liefert zum Beispiel so eine Metrik.
    Zusätzlich sollten auch die Metriken g+, Dangerousity und/oder non-shot xG beachtet werden, da sie auch bei der Angabe der erfolgreichen Aktionen helfen, aber noch einen weiteren Mehrwert bieten, denn diese Metriken beinhalten noch Aussagen dazu, wie sich durch die Aktionen der Spieler die eigene Torwahrscheinlichkeit (und die des Gegners) verändert. Hilft uns ein Spieler dabei unsere Torwahrscheinlichkeit zu erhöhen und/oder die des Gegners zu verringern? Das ist die absolut zentralste Frage, die man sich beim Scouting stellen sollte. Und da ist die Nutzung der genannten Metriken sicher hilfreich.
  • Abschlüsse & Wege dahin
    Besonders bei Offensivspielern sicher eines der wichtigsten Skill-Sets. Neben den real erzielten Toren und Torvorlagen sollten hier natürlich xG und xA, aber auch weitere Metriken beachtet werden. Wie oft fanden Flanken ihr Ziel? Wie sieht es bei secondary Assists aus? So wird von opta z.B. auch die Metrik chances created definiert, welche die Torschussvorlagen, aber auch die vorangegangenen Pässe zusammenfasst.
    Bevor wir uns hier aber in Nebensächlichkeiten verlieren, möchte ich noch einmal auf die Wichtigkeit der xG/xA-Metriken bei der Bewertung der Performance von Spielern zu sprechen kommen: Es ist schlicht elementar für Offensivspieler, dass bei den Aktionen auch was rumkommt. Wenn der FCSP einen Außenbahnspieler verpflichtet, der in, sagen wir mal 50 Spielen ganze drei Torvorlagen und zwei Tore gemacht hat, dann sollte dieser Spieler in den Metriken xG und xA dringlichst aufgezeigt haben, dass da noch viel mehr möglich ist (ich habe da übrigens niemand spezielles im Sinn). Oder zumindest sollte ein solcher Spieler dann im Bereich secondary Assists/chances created ’ne absolute Ausnahmeerscheinung sein.
    Oder aber es gibt kluge Köpfe, die erkennen, dass ein solcher Spieler viel mehr Potenzial hat (aber das ist ein anderes, ein gänzlich eigenes Thema, später mehr dazu).
    Übrigens: expected Goals-Modelle können und sollten natürlich auch für die Bewertung von Defensivspielern genutzt werden. Mit dem Grundsatz „Je niedriger der xG-Wert des Gegners, umso besser die Defensivarbeit“ besteht zwar noch viel Raum für Fehlinterpretationen, aber im Ansatz kann die Metrik hierfür verwendet werden.
xG-Graphik von Marvin Ducksch aus der Saison 17/18.
Erstellt habe ich die mal mit Daten von Stratabet (gibt es inzwischen nicht mehr), die damals noch Daten für Blogger frei zur Verfügung stellten. Hier seht ihr übrigens, dass Marvin Ducksch mit 18 Treffern zwar Top-Torschütze von Holstein Kiel in der Saison war, jedoch auch mit satten 125 Torschüssen, die insgesamt einen xG-Wert von über 20 ergaben, noch ein paar mehr Tore hätte erzielen dürfen.
  • Arten von Pässen
    Sicher einer der wichtigsten Skills bei der Bewertung von Fußballern, da ein erfolgreicher und guter Pass viele Komponenten vereint (gute Technik, Reaktionsgeschwindigkeit, Raumgefühl). Wir hatten das Beispiel der Passquote bereits mit Subotic und Hummels. Ich schreibe es auch hier noch einmal ganz deutlich: Die Passquote aller gespielten Pässe ist nicht ansatzweise aussagekräftig. Wenn ein Spieler nur mit Rück- und Querpässen und entsprechend wenig Risiko im Passspiel agiert, dann darf sich gerne Lothar Matthäus auf Sky über die tolle Passquote eines Spielers freuen und irgendwas von „Weltklasse“ faseln. Aber solange die Pässe nicht weiter unterteilt werden, sind sie für das Scouting gänzlich uninteressant.
    Und es gibt unglaublich viele Wege, Pässe zu unterteilen, welches je nach Position sinnvoll ist. Für Aufbauspieler ist da natürlich das bereits erwähnte Packing aussagekräftig. Bei Statsbomb werden für Innenverteidiger auch immer „unpressured long balls“ als Metrik angegeben. Ähnlich zum American Football ist die Metrik progressive pass yards, die angibt wieviele yards an Raumgewinn ein Spieler mit seinen Pässen produziert hat (und da gibt es sicher auch Spieler, die eher für Raumverlust gesorgt haben).
    Ganz andere Pass-Metriken sollten z.B. beim Scouting von offensiven Außenbahnspielern betrachtet werden: Beim Packing wird nicht nur der Spieler in die Wertung aufgenommen, der mit einem Pass gegnerische Spieler überspielt hat. Auch die Spieler, die den Pass angenommen haben, werden mitgezählt bzw. die Anzahl der Spieler, die mit ihrer Ballannahme überspielt wurden. Das Packing ermöglicht also auch in gewissem Maße eine Bewertung des Freilaufverhaltens von Offensiv-Spielern. Und während z.B. progressive pass yards bei Offensiv-Spielern eher eine untergeordnete Rolle spielen (da sie ja meist bereits vorne sind und dort die Pässe spielen) bekommt dort die Metrik Pässe im Offensivdrittel eine besondere Bedeutung. Zusätzlich müssen gerade bei Außenbahnspielern auch die Flanken als solche von anderen Pässen gesondert betrachtet werden.
    Für zentrale Spieler, die für den Spielaufbau verantwortlich sind, sind dann z.B. Pässe mit denen Ketten überspielt werden interessant (bei WyScout heißen die z.B. smart passes).
    Und natürlich sollte auch bei allen Pässen, sofern es die Analyse hergibt, bewertet werden unter welchen Druck welche Art von Pässen gespielt wird. Hier kann eine Analyse von Positionsdaten hilfreich sein, um herauszufinden, unter welchem Gegnerdruck ein Spieler während des Passes stand.
    In ein Scouting-Modell sollte dann eine Art gewichtete Quote für die vielen eigens definierten Unterarten von Pässen eingehen (z.B. Nicht-Risiko-Pässe sind nicht so wertvoll wie Risiko-Pässe und erfolgreiche Pässe im Angriffsdrittel wertvoller als solche ohne Gegnerdruck im Aufbauspiel, etc.).
  • Zweikämpfe
    Klar, Zweikämpfe müssen auch bei der Betrachtung unterteilt werden. Handelt es sich um Defensiv- oder Offensiv-Zweikämpfe, ist es ein Boden- oder Luftzweikampf und wo auf dem Platz wurde der Zweikampf geführt? Auch hier gilt, dass die allgemein angegebene Zweikampfquote nicht so richtig viel Aussagekraft besitzt (aber aus meiner Sicht doch deutlich mehr als die allgemeine Passquote) und die Metrik besser wird, je mehr sie unterteilt wird. Und trotzdem sollte hier mit einer Quote gearbeitet werden. Spieler, die nur 30% ihrer Offensiv-Zweikämpfe gewinnen, sind vielleicht in der Offensive auch nicht hilfreich.
    Zur Metrik „Zweikämpfe“ zähle ich auch Dribblings, die bei Offensiv-Spielern eine hohe Bedeutung haben. Besonders auf den Außenpositionen wird es auch zukünftig einen Fokus auf 1-gegen-1-Situationen geben. Und nur, wenn es Spieler schaffen eine bestimmte Anzahl an Dribblings erfolgreich zu gestalten, kann er auch wirklich hilfreich sein und das eigene Spiel verbessern.
  • Ballgewinne / -verluste
    Eine weitere zentrale Metrik sind Ballgewinne und -verluste. Hierbei ist besonders wichtig, dass sie in Relation zum Ballbesitz eines Teams betrachtet werden. Bei Statsbomb werden z.B. possession adjusted values für Zweikämpfe und Ballgewinne angegeben. Denn es ist sicher einleuchtend, dass ein Team mit viel Ballbesitz weniger Ballgewinne insgesamt zu verzeichnen hat und entsprechend die absolute Anzahl an Ballgewinnen von Spielern dadurch anders ist als bei Teams, die weniger Ballbesitz haben.
    Bei der Bewertung von Ballgewinnen und -verlusten ist weiterhin auch die Position auf dem Spielfeld entscheidend (und natürlich der Gegnerdruck). Hat ein Stürmer viele Ballverluste in der gegnerischen Hälfte, weil er häufig allein gegen drei Gegenspieler agieren muss, ist das anders zu bewerten, als wenn einem Außenbahnspieler unbedrängt der Ball mehrfach verspringt.
  • Index
    Viele frei und nicht frei verfügbare Datenportale zu Spielern geben Indexe zur Stärke der Spieler an. Bei den frei verfügbaren werde ich sicherlich nicht die kicker-Durchschnittsnote erwähnen. aber es gibt z.B. whoscored und sofascore, die anhand von Daten einen Index für Spieler produzieren. Diese sind jedoch meist recht schlicht gehalten und ziehen in die Bewertung z.B. erzielte Tore überproportional mit ein.
    Und da ich vor wenigen Wochen mal einen Blick in die Daten von InStat werfen konnte, habe ich auch den dort vorhandenen InStat-Index kennengelernt. Aber es gibt natürlich auch von WyScout und GSN so einen Index.
    Wichtig bei der Nutzung: Wenn nicht klar ist, welche Kriterien wie genau für die Erstellung eines solchen Index genutzt werden, ist der Wert an sich zwar interessant, aber eben auch nicht die wichtigste Bewertungsgrundlage. Vor allem, wenn ein Klub einen eigenen Weg im Scouting gehen möchte, ist es ratsam sich nicht auf die für alle anderen Klubs ebenfalls verfügbaren Indexe der Anbieter zu verlassen.

Ein Scouting-Modell entwickeln

Nun haben wir eine ganze Reihe von Werten und Faktoren, die aus meiner Sicht im Scouting berücksichtigt werden müssen. Aber wenn man diese Werte alle einzeln betrachtet, wird man
1. völlig kirre, da man ob der Vielzahl von Faktoren ganz schnell den Überblick verliert und
2. nicht wirklich weiterkommen, da die Daten sich nicht einfach mal eben so zusammenrechnen lassen.

Welche Struktur brauchen die Daten also, damit man möglichst den Spieler damit erfasst, der einem Verein wirklich weiterhelfen kann? Und welche Struktur benötigt ein Verein, damit er sich im Scouting von anderen abhebt?
Machen wir es kurz: Ein Klub muss sein eigenes Scouting-Modell entwickeln. Ein Modell, das für jede gesuchte Position im Kader einen eigenen Index, gefüttert mit eigens definierten Ansprüchen, hervorbringt. Nur damit kann sich ein Klub wirklich nachhaltig von anderen Klubs abheben und eigene Wege im datengetriebenen Scouting beschreiten, da er sich nur durch ein eigenes Modell in seiner Bewertung von Spielern von anderen Klubs abhebt.

Wie entwickelt man aus den herausgearbeiteten wertvollen Daten nun ein Modell, welches in einem Verein zur Anwendung kommen kann? Es gibt natürlich auch bereits externe Anbieter, die sowas entwickelt haben – aber auch hier gilt: Wer anders sein möchte, muss sowas selbst erstellen, da sonst mit den gleichen Rahmenbedingungen im selben Teich gefischt wird. Zur Entwicklung eines klubeigenen Scouting-Modells ist ein Vorgehen in mehreren Schritten notwendig:

Schritt 1: Positionsprofile definieren
Ich habe bereits eine Reihe relevanter Daten für das Scouting hervorgehoben. Und dabei wurde auch schnell klar, dass es z.B. für einen Innenverteidiger erstmal unwichtig ist, wie hoch sein xG-Wert aus dem Spiel heraus ist. Viel wichtiger ist da natürlich sein Defensivverhalten (Boden- und Luftzweikämpfe, Anzahl an Klärungen/Ballgewinnen), sein Passspiel im Aufbau und so weiter.
Ein Klub sollte daher für jede einzelne Position im Kader ein Profil definieren, aus dem klar wird, welche Art von Daten für die entsprechende Position relevant sind und daher in ein Scouting-Modell mit einfließen sollten. Das ist Arbeit, die immer und immer wieder neu evaluiert werden muss, je nachdem, wie sehr sich die Ansprüche an einzelne Positionen oder an den Kader mit der Zeit verändern.

Schritt 2: Data Mining
Hat man erst einmal die Positionsprofile entwickelt, kommt der Schritt des Data Mining. Hierbei sollten sich Klubs zuerst die Frage stellen, ob sie die Daten selbständig erheben wollen (aus den Positionsdaten der einzelnen Spiele) oder ob sie diese von Daten-Anbietern sammeln.
Meine Meinung: Es bietet sich eine Mischung aus beiden Ansätzen an, da einige der Metriken, die für einen Klub interessant sind nicht „von der Stange“ zu bekommen sind. Wenn ein Klub Daten einkauft, sollte sich das nicht auf einen einzigen Anbieter beschränken. „Viel hilft viel“ muss hier das Credo lauten. Denn wie bereits das Beispiel mit den Zweikampfwerten gezeigt hat: Nicht jedes xG-Modell kommt zum gleichen Ergebnis, da z.B. bei einem Modell die Anzahl der gegnerischen Spieler zwischen Ball und Tor mit in die Berechnung einfließt, bei anderen Modellen diese Größe zwar fehlt, aber dort auch der Gegnerdruck (z.B. definiert als Anzahl der Spieler in bestimmten Radius um den auf das Tor schießenden Spieler) mit einbezogen wird. Daher ist es sinnvoll, möglichst viele verschiedene Daten-Quellen anzuzapfen, um ein möglichst genaues Bild zu bekommen.
Das Data Mining ist dann sicher auch der Punkt in der Entwicklung solcher Scouting-Modelle, bei dem viele „traditionelle“ Scouts und sportlich Verantwortliche im Fußball aussteigen. Es sind schlicht zu viele Daten. Bei einem einzigen Fußballspiel werden über 3 Millionen Positionsdaten erfasst. Und selbst die 2000-4000 Event-Daten pro Spiel (je nachdem welche Events erfasst werden), können schlicht nicht mehr gemütlich in eine Excel-Tabelle eingepflegt werden. Hier wird die Hilfe von Datenanalysten mit entsprechenden Programmier-Skills benötigt. Und ich kann aus eigener Erfahrung sagen, dass sich der Aufwand lohnt. Denn das schöne an so einer Datenanalyse in z.B. Python (my language of choice) ist, dass, sobald ein Skript erst einmal geschrieben wurde, die Prozesse wesentlich schneller laufen. Die Arbeit an einem Scouting-Modell mag an dieser Stelle zu Beginn die meiste Zeit fressen (wir reden hier nicht von Wochen sondern von Monaten), aber wenn die entsprechenden Skripte erst einmal geschrieben sind, dann nimmt das Data Mining erheblich weniger Zeit in Anspruch, da diese immer wieder verwendbar sind und selbst bei veränderten Positionsprofilen meist nur einer Feinjustierung bedürfen.

Schritt 3: Gewichtung der Daten
Hat ein Klub erstmal alle Daten zusammen, so muss eine Art Prioritäten-Liste erstellt werden. Welche Skills sind am wichtigsten? Worin muss ein Spieler definitiv gut sein? Gibt es Ausschlusskriterien? Die Gewichtung der für eine Position notwendigen Skills werden darüber entscheiden, ob ein solches Scouting-Modell zu einer allgemeinen Verbesserung des Scoutings in Klubs führen kann oder ob es sich eher um interessante, aber wenig aussagekräftige Zusatzinformationen zu Spielern handelt.
Entsprechend gründlich sollte an dieser Stelle gearbeitet werden. Der Vorteil, den ein eigens entwickeltes Scouting-Modell z.B. im Vergleich zu den Tools bei InStat bietet, ist vor allem, dass Spieler nicht nach Unterschreiten von gewissen Grenzwerten aus der Liste herausfliegen.
Ein Beispiel: Ich suche als Klub einen Spieler auf der Außenbahn, der vor allem viele Torschussvorlagen gibt. Entsprechend gut sollten seine Werte in den Bereichen expected Assists und bei der Flankengenauigkeit sein (um mal nur mit zwei Variablen in diesem Beispiel zu arbeiten – in Wahrheit sind es natürlich einige mehr). Bei InStat kann hierzu immer ein unterer Grenzwert definiert werden. Das führt dann aber dazu, dass Spieler, die den Grenzwert unterschreiten, komplett aus der Rangliste fliegen. Das wäre aber ziemlich doof, wenn es Spieler gibt, die allen anderen Ansprüchen mehr als genügen, nur eben nicht die erwünschte Quote bei Flanken erbringen. Arbeitet man jedoch mit der Gewichtung einzelner Skills, so wird ein Spieler zwar auch schlechter positioniert sein, wenn er eben nicht die gewünschte Flankengenauigkeit hat, aber nicht ganz aus der Rangliste fliegen. Ein wirklich wichtiger Unterschied, denn wenn es nur ein einziger Skill ist, der nicht die gewünschten Anforderungen erreicht, kann dieses Manko ausgeglichen werden, wenn ein Spieler in anderen Skills überragt. Es fliegt schlicht niemand aus der Wertung und somit kann auch niemand vom Radar verschwinden, der ins Raster passt, auch wenn einzelne Skills (noch) nicht so sind, wie gewünscht.
Um ein Modell zu erstellen, müssen die Werte dann auch noch aufeinander abgestimmt werden. Es ist wohl jedem klar, dass ein Wert von 20,3 bei der xG-Metrik nicht mal eben so mit einer Quote erfolgreich bestrittener Zweikämpfe in einen Topf geworfen werden kann. Entsprechend müssen die einzelnen Metriken mithilfe von Grenzwerten normiert werden, sodass am Ende einheitliche Zahlen ausgespuckt werden, die dann gewichtet werden können.
So ein Modell entwickelt sich natürlich nicht von heute auf morgen. Es wird Wochen bis Monate dauern bis aus den erhobenen und gesammelten Rohdaten ein gewichtetes Modell für jede einzelne Position entstanden ist. Aber auch hier gilt: Hat man erst einmal die Grundstruktur einer Rangliste für Spieler entwickelt, handelt es sich „nur noch“ um Feinjustierungen beim nächsten Schritt: Der Modell-Validierung.

Experten in der Talenterkennung unter sich: FCSP-U19-Trainer Timo Schultz und Thomas Reis, 18/19 noch Trainer der Wolfsburger U19, heute erfolgreicher Trainer in Bochum.
(c) Peter Boehmer

Schritt 4: Modell-Validierung
Der erste Entwurf eines Scouting-Modells wird also eine Rangliste von Spielern auswerfen. Sind die besten Spieler dieser Rangliste dann auch wirklich die Spieler, die zu den besten auf ihrer Position zu zählen sind? Das wird in der ersten Version sicherlich nicht der Fall sein. Das Modell benötigt eine tiefgehende Validierung, um wirklich hilfreich zu sein. Für solch eine Validierung sind dann Experten nötig, die entsprechenden Input geben. Mit Experten meine ich Scouts, Fußballlehrer und ausgewiesene Kenner des Spiels und der Spieler. Der Klub sollte an dieser Stelle alles zusammenkratzen, was er an Fußballexpertise in seinen eigenen Reihen hat, um das datengetriebene Scouting-Modell zu einem wirkungsvollen Tool im Spieler-Scouting werden zu lassen.
Hierzu müssen die Experten eine Einschätzung der Rangliste abgeben. Decken sich die besten Spieler auf der Rangliste mit der Einschätzung der Experten? Falls nicht (und das wird in den ersten Versionen der Fall sein), warum taucht Spieler XYZ in dieser Rangliste soweit oben auf? Wurde eine Metrik falsch gewichtet? Wird die Bedeutung eines Skills generell überschätzt?
Nach dieser Art der Feedback-Runde müssten vermutlich die Positionsprofile und auch die Gewichtung der Daten überarbeitet werden. Danach ginge es in die nächste Runde. Und die nächste. Und idealerweise werden sich alle irgendwann fragen, was mit dem Modell falsch ist, da sich zwei Spieler, die es immer wieder in die Top10 schaffen, bisher noch gar nicht auf dem klubeigenem Scouting-Radar befunden haben. Und dann stellt man womöglich fest, dass diese Spieler bisher falsch bewertet wurden, sei es aufgrund von wenig Spielzeit oder weil die gesuchten Skills der Spieler bei visueller Betrachtung einfach nicht so zur Geltung kommen, wie es die Daten zeigen. Und wenn diese Spieler dann zusätzlich auch noch bei anderen Klubs bisher nicht auf dem Radar erscheinen sind, ja dann… Jackpot!
Zugegeben: Das ist der ideale Fall, der so nicht immer bei jedem Scouting-Modell für jede Position auftreten wird. Meist wird es eher darauf hinauslaufen, dass die Einschätzung des visuellen Scoutings durch die Datenanalyse eine Feinjustierung erfahren wird und die Einschätzung zu einem Spieler dadurch verbessert wird (was ja schon einen enormen Mehrwert schaffen würde).

Scouting-Modell ungleich Scouting-Modell

Ein eigens entwickeltes Scouting-Modell benötigt also Zeit. Aber wenn es erstmal entwickelt wurde, dann kann es aus meiner Sicht zu einem wirklich hilfreichem Tool in der Scouting-Abteilung von Klubs werden. Ich schreibe hier ganz bewusst, dass es sich um ein Tool handeln kann. So ein Modell würde das traditionelle Scouting nicht ersetzen sondern kann es signifikant verbessern.
Zu berücksichtigen ist auch, dass die Performance von Spielern je nach Liga gewichtet werden muss. Ich denke es wird allen einleuchten, dass ein Spieler aus der Regionalliga nicht sofort die gleiche Performance in der 2. Liga auf den Platz bringen wird. Entsprechend müssen auch die Skills allgemein noch gewichtet werden, je nachdem in welcher Liga diese gezeigt wurden.
Bei der Entwicklung, aber vor allem der Interpretation eines solchen Modells muss auf jeden Fall beachtet werden, was für ein Spieler verpflichtet werden soll. Benötigt ein Klub eine Soforthilfe, die anhand des vorhandenen Skill-Sets und weiterer Parameter dem Klub auf einer Position sofort verbessern kann? Oder ist ein Klub auf der Suche nach Spielern, die sich im Schatten arrivierter Kräfte entwickeln können? Nach Spielern, die noch nicht (dauerhaft) die notwendige Performance aufbieten können, aber ein hohes Potenzial haben? Der Idealfall wäre natürlich beides: Ein Spieler ist bereits eine echte Verstärkung, entwickelt sich aber auch noch weiter zu einem noch besseren Spieler.
Je nachdem, um welche Art von Spielergesuch es sich handelt, muss auch das Scouting-Modell ausgerichtet werden (es handelt sich dann natürlich um mehrere Modelle). Denn gerade bei jungen Spielern ist es völlig normal, dass diese nicht dauerhaft die beste Performance liefern, dass ihre Leistung auf dem Platz enorme Schwankungen aufweist. Entsprechend muss beim Scouting eher auf die Peak-Performance geachtet werden, als dass der Mittelwert oder Median als Größe in ein Modell einfließt. Ein Scouting-Modell kann diese Peak Performance zwar abbilden, aber die Einschätzung, ob ein Spieler sich auch verbessern kann und diese Peaks irgendwann konstant abrufen kann, ist dann natürlich wieder den Experten überlassen.
Die Frage, ob aus den Peaks auch eine konstante Performance werden kann, ist nicht viel weniger als der Kern, um den sich im Scouting von jungen Spielern alles dreht. Und sie ist unglaublich schwierig zu beantworten. Ich empfehle zu dieser Thematik ein YouTube-Video von Rasmus Ankersen. Ankersen ist einer der Köpfe bei den doch recht datengetriebenen Klubs Brentford FC und FC Midtylland.

Eine Graphik, die hoffentlich bereits alle Scouts dieser Welt kennen: Die performance/potential-Matrix. Und alle Verantwortlichen wünschen sich Spieler aus der Kategorie „Potential Gem“ zu verpflichten, die eben noch nicht das abrufen, was sie maximal leisten können. Die Gründe für die niedrige Performance sind vielfältig und gehen von den Trainingsbedingungen (= wenig Training, schlechtes Training, falsches Training) bis hin zum Charakter des Spielers.
(hier die Quelle der Graphik)

Wie würde das Scouting idealerweise laufen?

Zurück zum Thema: Es muss ja nicht gleich ein ganzes Bataillon an Datenanalysten sein und eine ganz eigene Abteilung im Scoutingbereich in Klubs gegründet werden. Bei vielen Klubs könnte das Scouting mithilfe von Datenanalysen sicher bereits signifikant verbessert werden, wenn sie jemanden hätten, der/die aus der Vielzahl an verfügbaren bzw. „einkaufbaren“ Daten nur diese herausfiltert, die wirklich für das Scouting im Klub relevant sind und eben Scouting-Modelle für einzelne Positionen entwickelt. Das verlangt eine grundlegende Ahnung von Fußball und natürlich mindestens eine gewisse Affinität zur Datenanalyse, damit große Datenmengen auch entsprechend gehändelt und so aufbereitet werden können, dass EntscheiderInnen damit auch arbeiten können.

Ich habe keine Ahnung, ob und wie intensiv mit dieser Art von Datenanalyse bereits in der 2.Liga gearbeitet wird (die Bataillone an Analysten gibt es aber z.B. bereits in eigentlichen allen Klubs der Premier League und auch in der 1.Liga arbeiten viele Klubs mit hauseigenen Daten-Analysten). Aus meiner Sicht ist die Arbeit mit Datenanalysen, allein schon bei den Summen, die Klubs in Spieler investieren, zwingend notwendig, da bereits ein finanziell verhältnismäßig kleiner Posten einen doch recht großen Beitrag zu erfolgreichem Scouting beitragen kann. Ein Versuch ein solches Modell zu entwickeln würde im Verhältnis zu den Kosten des Spielerkaders jedenfalls eher einen kleinen Fleck in der Jahresbilanz ausmachen. Entsprechend wäre meine banausige Einschätzung: Versuch macht klug!

Noch mehr lesen?
Wenn ihr Interesse an den Bereichen habt, in denen Datenanalyse im Fußball sinnvoll ist und bei Klubs bereits angewendet wird, dann schaut mal hier:

  • Zum Beispiel eine super spannende Reportage über Ian Graham und seine Arbeit in Liverpool
  • Sehr zu empfehlen sind auch immer die Texte, die von optasports veröffentlicht werden
  • Eine allgemeine Beschreibung zur Nutzung von Daten bei Transfers findet ihr hier
  • Wenn ihr mal wissen wollt, wie Daten bei opta erhoben werden und was damit in Zukunft möglich sein könnte, dann schaut mal hier
  • Anwendung findet Datenanalyse z.B. beim Nachbarn bereits – und zwar im medizinischen Bereich
  • Und ganz allgemein möchte ich allen das Buch „Matchplan: Die neue Fußballmatrix“ von Christoph Biermann zu dem Thema empfehlen

// Tim

Alle Beiträge beim MillernTon sind gratis. Wir freuen uns aber sehr, wenn Du uns unterstützt.

MillernTon auf BlueSky // Mastodon // Facebook // Instagram // Threads // WhatsApp // YouTube

{:}{:en}

Summer break – for the usual fan, that’s the time to rest and recover from a nerve-wracking season. For me, it means that I can dedicate myself to one of my favourite topics: Data-analysis in football (and thus I can deliver a Longread to you which really deserves its name). For many, this might be a very boring topic. For me, it’s nothing less than an absolute affair of the heart. This might possibly be due to the fact that I can combine my profession (being a natural scientist) and my passion (football) perfectly under one roof called data-analysis. I am some sort of an expert in both. Thus, it’s enough for a profound concept work – or a lot of superficial knowledge only (you might be able to judge yourself after finishing reading this text). However, I am convinced that almost every professional football club will have job positions such as „Head of Data Analysis“ within the next five years.

But why is that? Which benefit might data analyses add to the football? And, also important, what do they actually not deliver? Frequently, I have the impression that data analysis is not appreciated within professional football by some because there are „soft“ factors which cannot be taken into account properly by analysing data only. Because the game is „too complex“ to „get analysed completely“. That’s true. Within US-Sport (Basketball, Football, Baseball) it’s much easier with set-pieces following on set pieces or because of the pitch and the numbers of players on it are smaller.
However, it’s certain that data analyses will never completely substitute the visual analyses of teams and players. But that’s not the point of this discussion. Sometimes, I get the impression that the persons in charge somehow „fear the new“ when it comes to this topic. Because, of course, not all steps of data analysis can be understood by everyone within the club. And, of course, many also might fear that data analyses might make their jobs redundant. But deep data analyses are by no means a substitute for the visual judgements of players/matches/moves. They are rather supposed to be an addition. They improve the overall judgements and thus complete the picture, make it more fact-based and – of which I am totally convinced – will thus eventually lead to clubs being able to make much better decisions.

I put some thoughts into the topic of data analyses within scouting as there’s always a lot to discuss with regards to the procedures of the summer transfer window. Scouting is for sure the area in which the intensive use of data might have the biggest outcome (besides the analyses of matches and set pieces and within medical departments). This is first and foremost due to the fact that contracting of and operating with a player is one of the money accounts within a club which is amongst the hardest to predict whether money actually buys what you paid for. To better predict if a player really possesses the skills which your team needs, sound data analyses are actually indispensable. Here are three reasons why:

  • The visual scouting is full of errors (biases). Here are some examples (and here is the text, which I have used amongst others):

    Confirmation bias. Cristiano Ronaldo is for sure a great footballer (from a human perspective he’s rather …err…). Within his first appearance in the Champions League with Real Madrid, he scored two goals after free kicks. Of course, he is outstanding when it comes to set-pieces. We can all agree to this as almost every one of us will have seen a set-piece goal of him. But is he really – outstanding? Of course, he’s quite good at kicking the ball, but he’s not outstanding. His ratio is not more than average (especially compared to Lionel Messi – but we’ll get back to that later). But many of us do always start to think „Aww, dangerous, he’s pretty good at that“ when the schmaltzily Portuguese prepares for a free-kick because we once witnessed that he scored through a free-kick (which was only one of his plenty attempts)? And many feel their impression confirmed when he manages to score another one albeit he also failed oftentimes before?
    The confirmation bias makes us believe our own expectations („Ronaldo is a god of free-kicks“). We fade out all the information which do not match our picture (A high number of missed free-kicks) to not screw our expectations.

    Anchor bias. Another problem within visual scouting is the need for some sort of anchor to judge upon a player (something like a reference value to which a player can be compared). And this is mostly the first match or the first action one witnessed a player in (in the case of Ronaldo, for example, his two free-kick goals in his first CL appearance for Madrid). In relation to the confirmation bias this leads to massive misjudging as we are fading out information and define faulty reference values. We do that because that’s how the human brain works.

    Outcome bias. „The FC St. Pauli did perform horribly during this season because they only scored soandsomany points.“ – the outcome bias is pretty easy to explain but also one of the biggest errors.  Because it focuses on the results only. But as the better team does not always leave the pitch as the winner, the outcome bias gets its chance. Because many simply wonder: „We lost – so what was wrong?“ or „We won – so what was good?“ and thus simply judge the result more as positive or negative, albeit to comprehensively judge the result is of minor importance only.

    Similarity bias. We, as humans, are rather considerable egoists. Thus, there’s e.g. the similarity bias, which assumes that we judge upon humans who are more similar to ourselves in a more positive way than those who are more different. You can for sure imagine that the effect, which is caused to scouting by such a bias, might be enormous.

    But all these misjudgements can be prevented by data analyses which are added to the visual scouting. And the list of misjudgements can almost arbitrarily be extended (just have a look at this“Cognitive Bias Codex„ – and if you only want to klick on one link within this text, choose this one here). This is by no means a criticism towards visual scouts. It’s simply some sort of human misjudgement which is happening there and can accordingly only be made by humans but not by data analyses (however, even data analyses are human-made and are thus not completely lacking misjudgements).
  • With the help of data analyses, the visual work of scouts can be made more effective.
    Many Podcast listeners might have wondered how the hell one should be able to actually listen to all the stuff one wants to listen to. To play the podcast on 1.5 speed is a way for most of them, however, there’s a lot of listening pleasure fading when done so. A lot more difficult is this solution when it comes to Scouting, as watching matches on 1.5 speed is even more unbearable. But to completely monitor the actions of players, there’s a need for visual scouting. To do this, meanwhile, there’s WyScout, which are offering video snippets of almost every possible actions. But all these actions have to be watched first and – even more important – be judged by someone. By doing sound data analyses before such scoutings happen, the number of players which have to get visually scouted reduces automatically and the efficiency is raised.
  • Data analyses are not adding to the costs of a club, they are a cheaper way of doing things.
    Let’s imagine a player is earning 250.000 € per season. I would guess (very conservatively, so rather underestimated) that this is roughly the average player salary in the 2nd league. So if such a player comes to a club and signs a two or three-year contract, it’s a decision that can’t be refinanced by 20 extra beers sold in the stadium or ten t-shirts in the fan shop. And we’re only talking about one player here. Per season, including contract renewals, these are sums that make me personally sick. An equally cautious estimate on my part assumes 100,000 € for the possible section „data analysis“ (one „head of“, two computer science students doing the „dirty work“ and costs for the data itself, which you have to buy from different providers).

    I’m not a business economist, but if you can only increase the outcome rate of transfers by 5-10% with deeper data analysis (certainly not an unrealistic scenario), then this is a worthwhile investment and saves a lot of money elsewhere. And just now, when due to the corona crisis the income is no longer growing steadily and all clubs have to save money, in the near future the clubs that work very effectively in scouting will probably prevail.
Talent or not? In this case, rather easy to decide. 
(c) Peter Boehmer

What would data-driven scouting have to look like for such an investment to be worthwhile?

After all, everyone is fishing for players in the same pond. At the latest since platforms like InStat and above all WyScout have been able to offer information and data on almost every player in every professional league in the world, it will no longer be the case that scouts in deep South America, after 1,910 hours of flight time, overnight stays in foul-smelling hotels and through countless contacts, get to see a player that no one has ever scouted before. 

So it’s much more about what you do with the data you’re offered. If you just rely on the data and statistics available on the market, you will continue to fish in the same pond with all the other clubs. And the hit rate won’t differ much and is completely dependent on visual scouting, which is full of mistakes. But if you take the existing data and create your own model, a profile, tailored to the needs of a club or team, then you will still be fishing for players in the same pond, but you will have another (better?) rod available. And only then will you be able to use the data to discover players who may have swum under the radar before. And only then you will be able to act differently on the transfer market (also in terms of price) than all other anglers on the pond.

Which data are offered?

There are now an incredible number of providers in football who prepare and offer data – and praise scouting for making it easier. The platforms InStat and above all WyScout simplify scouting especially by providing video snippets of players whose skills can be compared with those of others then. But there are a lot of providers who already offer their own data analysis. Let me introduce you to some of them: Statsbomb

The current „poster boy“ of data preparation and visualisation is certainly Statsbomb and especially the so-called radar charts. These show the skills of individual players, according to the demands of each position, compared to all other players in the same position.

Radar charts from Statsbomb.
Basically, the more colour in the game, the higher the special skill of a player.

The comparison of N’Golo Kantè and Kevin de Bruyne, for example, shows that both players are extremely strong in midfield, but with very different skills. While de Bruyne sets the standard in the Premier League with assists and important passes, Kantè does the same, but with defensive skills like tackling, winning the ball and pressing. In this way, it is possible to identify relatively quickly which players really do have certain skills on a permanent basis. It’s also exciting that the skills are also set in a ratio of all leagues and not just the league in which the players currently play. So the radar chart of Mats Møller Dæhli, which I once asked for via Twitter, showed that he is an international leader in the field of „Winning the ball through pressing“.

Radar-Chart from Mats Møller Dæhli from Statsbomb.
The data in the graph show the values compared to all data (also international). The table shows the values compared to all players of his position in the 2nd league. Pretty impressive, both the performance of Mats, but also the display of Statsbomb.
No question, the data of Statsbomb is quite fancy. And many clubs are already working with Statsbomb in scouting.

Goalimpact

Another interesting provider of in-depth data in football is Goalimpact. Where „deep“ is rather the wrong term here, it is rather a large amount of data. Because the development of Goalimpact is based on a relatively simple principle that can be applied to almost every popular league and every player: based on the results of the matches and the players on the field, a kind of +/- statistics is applied. In addition, there are still certain expectations of a match (simplified: if Bayern Munich plays against 1 FC Rumpelballhausen, a 1-0 victory is weighted differently than if they win it against Real Madrid).

The interesting thing about this data is that the statistics also try to capture off-ball actions of the players. Most of the statistics are based on ball actions of the players, on duels, goal kicks, passes. But how can the value of a player be weighted, who blocks spaces cleverly and so does not have to win the balls in a duel or a player who tears a gap in the opponent’s line by a clever running path and thus enables a successful pass of his teammate? That is quite difficult to evaluate.

The Goalimpact captures this value that players have on their own team’s game simply by „crediting“ a team’s success to all the players in a team. But as simple as this statistic is, there are of course a lot of drawbacks to using the pure result as a factor in a team’s performance, because not every team is rewarded for its performance in the form of wins. And of course, even if the result is positive, the performance of each individual player cannot always be positively assessed. But the goalimpact is certainly a statistic that is of interest for scouting, especially for younger players, because the model always gives a forecast of the development of players. But it is not meaningful enough as a statistic alone.
(If you want to know more about Goalimpact you can read the interview, I once did with Thorsten Wittmütz from Goalimpact).

Impect – Packing
Also a kind of „Poster Boy“, although this one was very badly portrayed by Mehmet Scholl during the European Championship coverage in 2016, is the „Packing“ of the company Impect. The company, founded by the two former players Jens Hegeler and Stefan Reinartz, offers a different way of evaluating passes: It counts how many players are „overplayed“ by passes, i.e. how many opposing players are further away from their own goal after a successful pass than the ball was before. This is a rather special statistic, but it is very important because it gives a completely different weighting to the pass quota as such.

It is particularly illustrative as an example: As a central defender, if I constantly play crosses and back-passes, I’m sure I have a good passing rate but am I more valuable to my team than a player who plays vertically more often, thus increasing the probability of scoring goals, but also producing more false passes? Since the Impect counts, the number of players played over, the quality of the vertical pass is more important (the example of Hummels and Subotic is very insightful in this regard).

Graph of the Impect-values of players of the 1st Bundesliga and the Premier League. You can be sure that the name Thiago should be next to the red dot in the top right corner.

American Soccer Analysis – g+
As many of you know, the use of data in US sports is much more advanced and accepted than in European football. Therefore it is not surprising that the blog American Soccer Analysis is a kind of pioneer in data analysis in soccer. And just in time for the corona-break they presented what I think is a very interesting and meaningful metric: goals added, or short g+. This metric is based on the expected goals that I love. The difference is that this metric assigns a goal and conceding goal probability to every action on the pitch, not just to the goal finishes. This allows to calculate how much the goal probability of the player and the opponent changes as a result of an action (e.g. a won duel). If your own goal probability increases and/or your opponent’s goal probability decreases, the player who performed the action will be credited with the difference. As a result, each shot, pass, duel or ball win/loss is weighted and evaluated, which ultimately allows the evaluation of all actions of each individual player. This metric is quite fancy and nicely elaborated, but it is not so new. In the end it is very similar to the non-shot xG-Metric, which also tries to evaluate all actions far away from goal shots and goal templates. Other providers have similar metrics (Statsbomb e.g. xGBuildup, which evaluates passes before a goal is scored, or xG Thread (xT) von Karun Singh (where it is mathematically unravelled) and, fairly new the possession value, short PV, which evaluates passes and can also prompt negative values; my goodness, there is even an xG model, which gives not only the position of the goal shot but also the goal shot itself a goal probability, is then called shot placement xG ). But there is also a similar reading from the field of sports science that has been given the beautiful word creation Dangerousity. You see, with the metric expected Goals a lot has happened in the last years.

The dawn of a new guard of expected goals as best metric ever?
And while I once announced more than two years ago that expected goals will replace the „normal“ goal-shooting statistics in media coverage in the near future, I do the same here, but refer to goals added. I am impressed by the way metrics xAdded metrics have been created from metric x. From xG, to expected assists (xA), to deeper pass-chains (xG thread, xG builddup and PV) and with dangerousity to the evaluation of the action on the field for each action, which may find some kind of completion with g+ & non-shot xG. I think the significance of g+ in scouting is limited, because it is a general evaluation and not an evaluation of individual skills (which doesn’t mean that you shouldn’t use it in scouting), but the metrics are quite understandable and for a rough estimation of the performance of players it is umpteen times better than the running distances, duel values and pass rates presented so far.

21st Club
21st Club comes along in the style of a consulting agency. And the advice they offer is often much broader than just looking at the individual skills of individual players. It’s more about questions like: What is the best age to buy/sell players from an economic point of view? What are the differences in performance between the individual leagues? Can a player from league X show the same performance in league Y? What is the age structure in the squad of successful teams? Which coach fits to a squad? (I hope the last question was asked out loud recently at the FCSP)

It is therefore not necessarily a provider of data but a company which, based on data, provides a kind of recommendations for action for longer-term management structures etc. In the broadest sense, 21st Club is also a provider that can be very interesting for data-driven scouting. And I can recommend reading these articels to all those responsible for football clubs.

Global Soccer Network
Pretty close to what clubs need in scouting is, in my opinion, what Global Soccer Network offers. And it’s really close. I don’t know what the underlying data is used to build the GSN index, but that’s exactly how every club in scouting should do it (although not as complex, less would be enough to make it significantly different from other clubs). To better understand the offered data and also the ideas behind something like this, I highly recommend the interview from the VFL Bochum fan blog einsachtvieracht with one of the creators of Global Soccer Network.
I personally find it exciting that not only the skills of the individual players are evaluated here, but also that you can see if the playing style of your own team matches with that of other teams and therefore it might be easier for players to adapt to the new team. Or, as Statsbomb is already doing with its data, players will be rated according to the demands of the individual positions. A further step as Statsbomb is probably that it can also be checked if the skill sets of the players fit to other positions. And there is also a forecast for the individual players. I can’t tell you how accurate this is, but there is a lot of thought and data analysis behind it, if I look at the interview linked above. As I said, at first glance, I don’t have more insight into the data and processes of Global Soccer Network, it seems like a scouting tool that can really help clubs.

This is only a small selection of providers of data to improve the rating of footballers and they are probably the most well-known players in this market. There are many more and certainly the FCSP will receive offers for such products week after week, where the provider promises you the ultimate improvement of your own scouting. For less data-affine people it is surely difficult to keep track of the data and to distinguish valuable from worthless data (this question will get its own section in the text). By the way, it is often optaSports, that is the data provider for all the metrics, indexes and forecasts that such providers provide (but there are also some providers that produce the data themselves).

And in general, when using such external data providers, it also applies that everyone continues to work in the same pond and then accordingly with the same, much better fishing rod. In order to really stand out in scouting and to really use the data in such a way that it fits perfectly to the requirements of a club, a game system, it requires in-house data analysis, at best in conjunction with external data providers.

A separate department for data analysis and the use of several sources of data is, by the way, also useful for critically questioning the definitions of the individual evaluation criteria. Florian Zenger of Clubfans United for example, once looked into why FCN player Hanno Behrens gets three quite different duel odds with three different data providers. These definitions should therefore be questioned and at best developed by the players themselves, so that a false assessment is not made.

Valuable or worthless data?

If you decide to rely on data when searching for new players, then it should of course be the correct or meaningful data. The example of Cristiano Ronaldo and free kicks is perfect for this section: wow, he scored a whopping 30 goals in Real Madrid’s kit through free-kicks. Looking at this figure, it would be clear that we should urgently try to sign him if we are looking for a set piece specialist. But the truth is that Ronaldo kicked 410 free kicks directly onto the goal in the same period. W.O.W! That leaves a success rate of just over 7%, which suddenly doesn’t really speak well for an absolute set piece specialist. Because the average conversion rate of free kicks is just under 6%. That of the 150 best in Europe is even just under 13% (you can read all about it here). Cristiano Ronaldo is therefore only slightly more than the average free-kick taker. And I already described the example of Hummels and Subotic with the comparison of their pass rates and the corresponding packing above.

So if you want to use data for the evaluation of players, it is incredibly important to distinguish between valuable and worthless data and to evaluate the validity of all data.

But which data is valuable or worthless?

Of course, I am not the first person to ask this question and many clubs already work with data analysts or use data from providers. Basically, it makes sense and makes absolute sense if the players are scouted according to different criteria depending on their positions (because a striker needs different skills than a defender). Accordingly, every club in scouting would first have to ask itself what the core skills of players in certain positions are, which skills are needed at all in the football a team wants to play.

I will try to get to the bottom of this question by listing which data are relevant for player scouting and should be included in a data analysis:

General factors

  • Age
    In general, a player must of course make a team better. Accordingly, the age of a player should only play a minor role in this regard. But from an economic point of view and also from the perspective of squad development over the years, the age of players plays an enormously important role. Age alone plays a role in the question of resale value. And of course, the question must also be asked whether a player can still develop and thus possibly leave the club again at a higher price. And of course clubs should always try to get players to the club before the market value increases. This is a very general question: Do we as a club want to develop a player and sell him at a higher value or do we need a player who can help us immediately, especially in the vacant position? The ideal solution is of course both together: A player who helps us, but who also develops further and then recommends himself later for higher tasks.
  • Height
    Yes, height is important, as you should only be able to use a central defender who is only 1.82m tall, as he will be inferior in header duels. But height is not the deciding factor. It must rather be an indication of the jump height, which is taken into account when searching for the appropriate players (this can be calculated on the basis of physiological characteristics). Why did I just mention 1.82m? Take a look at the jumping height:
Leo „Air“ Østigård – we will miss him!
  • Speed
    A very central skill. And in many media, maximum speeds are used again and again. That is as right as it is wrong. After all, what do maximum speeds tell us when there are much more important values in the area of speed? I personally would pay much more attention to what a player can do on the first 5, 10 and 25 meters, how well he accelerates. After all, how often will players (have to) reach their maximum retrievable speed per game? Rather rarely. But short accelerations are often required and therefore important (by the way, the number of sprints per 90min is also an important parameter).
    Whoever plays „FIFA“ privately knows this, because under the generic term „speed“, „acceleration“ is one of the most important sub-points for the players.
  • Injury history
    I certainly don’t need to explain to anyone why the long-suffering Marc Hornschuh is currently falling through the scouting grid at many clubs. Because injuries are probably the biggest item of lost value in every club.
    Accordingly, scouting should look very closely at the history of injuries. How often was a player injured? What kind of injuries were there? Did a player simply have bad luck? Or is there more to it, such as bad training, unprofessional behaviour? I  have elaborated on that in this text
  • Market value
    Anyway, it’s clear that as an ambitious second division team, you shouldn’t waste time on having players in your scouting models who bring a mild smile to a request from the second division at most. Accordingly, a scouting model must have a kind of upper limit for players so that a model does not always have to sort out the first 20 players directly, as they do not fit into the price and salary structure of a club anyway. In a scouting model, the market value of players could be used as a kind of filter to exclude the category of players that are of no interest to you because of their prices.
  • Goalimpact / GSN – Forecasts
    The two companies already mentioned, Global Soccer Network and Goalimpact, are also (or especially) interesting because they provide a forecast of the development of the individual players. And although the hit rate of these forecasts is certainly not anywhere near what the creators, but also the users hope for (the individual development of players is simply far too closely linked to the situation in the clubs (playing time, system, coaches, competition) and this simply cannot be predicted for individual players over the years), they are nevertheless interesting and should be taken into account in scouting. After all, these predictions are not based on gazes in glass balls, but have also been validated by means of historical data, i.e. the already completed development of players, and so it can be assumed that the hit rate is not optimal, but it can provide another important evaluation in addition to the assessment of visual scouts.

Skill-Set

  • Set pieces
    As a general rule, performance at set pieces should be considered separately when assessing players. Philipp Hofmann from KSC serves as an example. Although he scored a remarkable 17 goals this season, three of them by penalty kick and (at least – was a short research) five after a corner. If you subtract the goals scored through set pieces, there are still nine honourable goals left, but it’s not really impressive what resulted out of the game for a striker who played the season completely uninjured and was usually the sole leader.
  • Successful actions
    Regardless of the position you are looking for, you should consider all the skills required for a position as a whole. What is the success rate of all a player’s actions on the field? Be it passes, goal finishes, duels. InStat for example provides such a metric.
    Additionally, the metrics g+, Dangerousity and/or non-shot xG should also be considered, as they also help to indicate the successful actions, but offer another added value, because these metrics also contain statements on how the player’s actions change his own goal probability (and that of the opponent). Does a player help us to increase our goal probability and/or decrease the opponent’s? This is absolutely the most central question to ask when scouting. And that’s where the use of these metrics is certainly helpful.
  • Finishes & ways to that 
    Especially for offensive players it is certainly one of the most important skill sets. In addition to the goals and assists actually scored, xG and xA, but also other metrics should be taken into account. How often did  centre passes find their target? What about secondary assists? For example, opta also defines the metric chances created, which summarises the goal templates, but also the previous passes.
    But before we get lost in secondary assists, I’d like to talk about the importance of xG/xA metrics in assessing player performance: It’s simply elementary for offensive players to get something out of the action. If the FCSP hires an outfield player who has scored three goals and two goals in, say, 50 games, then that player should urgently show in the xG and xAmetrics that there is much more possible (I don’t have anyone specific in mind). Or at least such a player should be an absolute exception in the secondary Assists/chances created section.
    Or there are clever minds who recognize that such a player has much more potential (but that’s another matter, a completely separate topic, more about that later).By the way: expected Goals models can and should of course also be used to evaluate defensive players. With the principle „the lower the xG-value of the opponent, the better the defensive work“ there is still much room for misinterpretation, but in the beginning, the metric can be used for this.
xG-Graph of Marvin Ducksch from the season 17/18.
I created them with data from Stratabet (which doesn’t exist anymore), which at that time provided data for bloggers for free. Here you can see that Marvin Ducksch was the top scorer of Holstein Kiel with 18 goals in the season, but he could have scored a few more goals with 125 shots, which resulted in a total xG value of over 20.
  • Sort of passes 
    Certainly, one of the most important skills in the evaluation of footballers, since a successful and good pass combines many components (good technique, reaction speed, feeling for space). We already had the example of the pass quota with Subotic and Hummels. I’ll make it very clear again: The pass quota of all passes played is not at all meaningful. If a player is only using back and cross passes and therefore has little risk in the passing game, then Lothar Matthäus on Sky can be happy about the great pass quota of a player and talk something about „world-class“. But as long as the passes are not further divided, they are completely uninteresting for scouting.
    And there are incredibly many ways to further subdivide passes, which makes sense depending on the position. For advanced players, the already mentioned packing is of course meaningful. In Statsbomb for central defenders „unpressed long balls“ are always given as metric. Similar to American Football, the metric is progressive pass yards, which indicates how many yards of space a player has produced with his passes (and there are certainly players who have caused a loss of space).
    Completely different pass metrics should be considered when scouting offensive outfield players, for example: When packing, not only the player who has passed over opponent players is included in the score. The players who have taken the pass are also counted, or the number of players who have been passed with their pass. The packing therefore also allows an evaluation of the free-running behaviour of offensive players to a certain extent And while progressive pass yards play a minor role for offensive players (since they are usually already in front and play the passes there), the metric passes in the offensive third get a special meaning. In addition, the crosses have to be considered separately from other passes, especially for players on the outside lane.
    And, of course, all passes, if the analysis allows it, should be evaluated under which pressure which kind of passes are played. In this case, an analysis of position data can be helpful to find out under what pressure a player was under during the pass
    A scouting model should then include some kind of weighted quota for the many specially defined subtypes of passes (e.g. non-risk passes are not as valuable as the risk passes and successful passes in the attacking third are more valuable than those without opponent pressure in the build-up game, etc.).
  • Duels
    Of course, duels must also be subdivided when looking at them. Is it a defensive or offensive duel, is it ground or air duel and where on the field was the duel fought? Again, the generally given duel quota is not really meaningful (but in my opinion, it is much more than the general pass quota) and the metric gets better the more it is divided. Nevertheless, the quota should be used here. Players who only win 30% of their offensive duels might not be helpful in the offence.
    The metric „duels“ also includes dribblings, which are very important for offensive players. Especially on the outside positions, there will be a focus on 1-on-1 situations in the future. And only if a player manages to do a certain number of dribblings successfully, he can be really helpful and improve his own game.
  • Ballgains / -losses
    Another key metric is ball wins and losses. It is particularly important that they are considered in relation to a team’s possession of the ball. In Statsbomb, for example, possession adjusted values are given for duels and ball wins. This is because it is certainly obvious that a team with a lot of possession will have fewer ball wins overall and the absolute number of ball wins by players will, therefore, be different from teams with less possession
    When assessing ball wins and losses, the position on the pitch (and, of course, the pressure on the opponents) is also decisive. If a striker loses a lot of balls in the opposing half, because he often has to play alone against three opponents, this should be assessed differently than if a player on the outside of the pitch has the ball bouncing several times without pressure
  • Index
    Many freely and not freely available data portals on players provide indexes on the strength of the players. Among the freely available ones, I will certainly not mention the kicker average score. but there are e.g. whoscored and sofascore, which produce an index for players based on data. However, these are usually quite simple and take into account the scoring of goals scored disproportionately. 
    And as I could have a look into the data of InStat a few weeks ago, I also got to know the InStat index there. But of course, WyScout and GSN also have such an index.
    Important when using it: If it is not clear which criteria are used how exactly for the creation of such an index, the value itself is interesting but not the most important basis for evaluation. Especially if a club wants to go its own way in scouting, it is advisable not to rely on the indexes of the providers, which are also available for all other clubs.

Develop a scouting model

Now we have a whole range of values and factors which, in my opinion, must be taken into account in scouting. But if you look at these values all individually, you will 
1. get completely tangled, because one loses the overview very quickly due to the multitude of factors and 
2. not really get ahead, because the data cannot simply be added up.

So what structure do the data need to be structured so that the player who can really help a club can be identified? And what structure does a club need in order to stand out in scouting?
Let’s put it briefly: a club must develop its own scouting model. A model that produces a separate index for every position sought in the squad, fed by specially defined requirements. This is the only way for a club to really set itself apart from other clubs in the long term and to go its own way in data-driven scouting because only by using its own model it can stand out from other clubs in its evaluation of players. How do you develop a model from the valuable data that has been worked out that can be used in an association? Of course, there are already external providers who have developed such a model – but here, too, if you want to be different, you have to create such a model yourself, otherwise, you will be fishing in the same pond with the same basic conditions. To develop a club’s own scouting model, a procedure in several steps is necessary:

Step 1: Define position profiles
I have already highlighted a number of relevant data for scouting. And it quickly became clear that for a central defender, for example, it doesn’t matter how high his xG value is when playing out of the game. Much more important, of course, is his defensive behaviour (ground and air duels, number of clearances/ball wins), his passing game in the build-up and so on.

A club should, therefore, define a profile for each individual position in the squad, which makes it clear what kind of data is relevant for that position and should, therefore, be included in a scouting model. This is work that needs to be re-evaluated over and over again, depending on how much the demands on individual positions or on the squad change over time.

Step 2: Data Mining
Once the position profiles have been developed, comes the step of data mining. Here clubs should first ask themselves whether they want to collect the data independently (from the position data of the individual games) or whether they want to collect them from data providers. 
My opinion: A mixture of both approaches is a good idea because some of the metrics that are interesting for a club are not available „off the shelf“. If a club buys data, it should not be limited to one single provider. „A lot helps a lot“ must be the credo here. Because as the example with the duel values has already shown: Not every xG model comes to the same result, because e.g. in one model the number of opponent players between ball and goal is included in the calculation, while in other models this value is missing, but there the opponent pressure (e.g. defined as the number of players in a certain radius around the player shooting the goal) is also included. Therefore, it makes sense to tap as many different data sources as possible in order to get the most accurate picture possible.

Data mining is then certainly the point in the development of such scouting models where many „traditional“ scouts and sports officials in football drop out. There is simply too much data. In a single football match, more than 3 million position data are recorded. And even the 2000-4000 event data per match (depending on which events are recorded) simply cannot be comfortably entered into an Excel spreadsheet. This is where the help of data analysts with appropriate programming skills is needed. And I can say from my own experience that the effort is worth it. Because the nice thing about such a data analysis in e.g. Python (my language of choice) is that once a script is written, the processes run much faster. Working on a scouting model may eat up most of the time at this point at the beginning (we are not talking about weeks but months), but once the corresponding scripts have been written, data mining takes much less time, because they can be used again and again and even if the position profiles have changed, they usually only need fine-tuning.

Step 3: Weighting of the data
Once a club has all the data together, a kind of priority list must be created. Which skills are most important? What must a player definitely be good at? Are there exclusion criteria? The weighting of the skills required for a position will determine whether such a scouting model can lead to a general improvement in scouting in clubs or whether it is more a question of interesting but not very meaningful additional information on players.

Correspondingly thorough work should be done at this point. The advantage of a specially developed scouting model, e.g. in comparison to the tools in InStat, is above all that players do not get kicked off the list after falling below certain limits. 

An example: As a club, I am looking for a player on the wing, who above all gives a lot of scoring assists. His values should be correspondingly good in the areas of expected assists and flank accuracy (to work with only two variables in this example – in reality, there are of course a few more). With InStat you can always define a lower limit value for this. But this will lead to players who fall below the limit being banned from the ranking completely. That would be pretty stupid if there are players who more than meet all other requirements, but just don’t have the desired quota on the flanks. However, if you work with the weighting of individual skills, a player will also be in a worse position if he doesn’t have the desired flank accuracy, but won’t be completely removed from the ranking. This is a really important difference because if it is only one skill that does not achieve the desired accuracy, this shortcoming can be compensated if a player excels in other skills. No one is thrown out of the ranking and therefore no one can disappear from the radar who fits the grid, even if some skills are not (yet) as desired.

In order to create a model, the values have to be adjusted to each other. It is probably clear to everyone that a value of 20.3 in the xG metric cannot be lumped together with a quota of successfully contested duels. Accordingly, the individual metrics have to be standardised with the help of limit values so that in the end uniform figures are spit out which can then be weighted.

Such a model does not, of course, develop overnight. It will take weeks to months to create a weighted model for each individual position from the raw data collected and collated. But again, once you have developed the basic structure of a ranking for players, it is „only“ a matter of fine-tuning the next step: the model validation.

Experts in talent recognition among themselves: FCSP U19 coach Timo Schultz and Thomas Reis, 18/19 still coach of the Wolfsburg U19, today successful coach in Bochum.
(c) Peter Boehmer

Step 4: Model-Validation
So the first draft of a scouting model will throw out a ranking of players. Are the best players on this ranking list really the players who are to be counted among the best in their position? This will certainly not be the case in the first version. The model needs a deep validation to be really helpful. For such validation, experts are needed to provide the appropriate input. By experts, I mean scouts, football teachers and proven experts in the game and the players. At this point, the club should scrape together all the football expertise it has in its own ranks to make the data-driven scouting model an effective tool in player scouting.

To do this, the experts must provide an assessment of the ranking. Do the best players on the ranking list agree with the experts‘ assessment? If not (and this will be the case in the first versions), why does player XYZ appear so far up in this ranking? Was a metric weighted wrong? Is the importance of skill generally overrated?

After this kind of feedback round, the position profiles and also the weighting of the data would probably need to be revised. Then we would move on to the next round. And the next one. And ideally, everyone will ask themselves at some point what’s wrong with the model, since two players who repeatedly make it into the top 10 have not yet been on the club’s own scouting radar. And then you might find out that these players have been wrongly rated so far, either because of a lack of playing time or because the skills the players are looking for simply don’t show up on visual inspection as the data shows. And if these players have not yet appeared on the radar of other clubs, well then… Jackpot!

Granted: This is the ideal case, which will not always occur with every scouting model for every position. Most of the time it will be more likely that the assessment of the visual scouting will be fine-tuned by the data analysis and the assessment of a player will be improved (which would already create an enormous added value).

No two scouting models are the same

A specially developed scouting model therefore takes time. But once it is developed, I think it can become a really helpful tool in the scouting department of clubs. I am writing here quite deliberately that it can be a tool. Such a model would not replace the traditional scouting but can significantly improve it.
It should also be taken into account that the performance of players has to be weighted according to the league. I think it will make sense to everyone that a player from the regional league will not immediately bring the same performance to the pitch in the 2nd division. Accordingly, the skills in general still have to be weighted, depending on the league in which they were shown.
During the development, but above all during the interpretation of such a model, it is important to consider what kind of player should be signed. Does a club need immediate help, which can immediately improve the club on a position based on the existing skillset and other parameters? Or is a club looking for players who can develop in the shadow of established strengths? Looking for players who are not yet able to provide the necessary performance (permanently), but have a high potential? The ideal case would, of course, be both: A player is already a real reinforcement, but is also developing into an even better player.

Depending on the type of player’s application, the scouting model must also be aligned (of course there are then several models). Because especially with young players it is completely normal that they do not permanently deliver the best performance, that their performance on the court shows enormous fluctuations. Accordingly, scouting must pay more attention to peak performance than to the average or median as a parameter in a model. A scouting model can represent this peak performance, but the assessment of whether a player can also improve and can at some point consistently retrieve these peaks is then naturally left to the experts. The question of whether the peaks can also become a constant performance is not much less than the core around which everything revolves in the scouting of young players. And it is incredibly difficult to answer. I recommend a youtube-Video by Rasmus Ankersen on this topic. Ankersen is one of the heads of the rather data-driven clubs Brentford FC and FC Midtylland.

A graphic, which hopefully all scouts of this world already know: The performance/potential matrix. And all responsible persons would like to engage players from the category „Potential Gem“, who just don’t call up what they are able to perform at maximum. The reasons for the low performance are manifold and range from the training conditions (= little training, bad training, wrong training) to the character of the player.
source  fort he graph)

How would the scouting ideally go?

Back to the topic: It doesn’t have to be a whole battalion of data analysts and a separate scouting department in clubs. For many clubs, scouting with the help of data analysis could certainly be significantly improved if they had someone who could filter out only those data from the multitude of available or „purchasable“ data that are really relevant for scouting in the club and develop scouting models for individual positions. This requires a basic understanding of football and, of course, at least a certain affinity for data analysis, so that large volumes of data can be handled accordingly and prepared in such a way that decision-makers can work with them.

I have no idea if and how intensively this kind of data analysis is already used in the 2nd division (the battalions of analysts are already in place in all clubs of the Premier League and also in the 1st league many clubs work with their own data analysts). From my point of view, working with data analyses is absolutely necessary, even with the sums that clubs invest in players, since even a financially relatively small position can make a quite large contribution to successful scouting. At any rate, an attempt to develop such a model would make a rather small stain on the annual balance sheet in relation to the costs of the player squad. Accordingly, my banal assessment would be: Attempt makes wise!

Want to read even further?
If you are interested in the areas where data analysis is useful in football and is already used by clubs, take a look here:

  • For example a super exciting report about Ian Graham and his work in Liverpool
  • The texts published by optasports are always highly recommended
  • A general description of the use of data for transfers can be found here
  • If you want to know how data is collected at opta and what might be possible in the future, take a look here
  • Data analysis is already being used, e.g. by neighbours – in the medical field
  • And in general, I would like to present the book „Matchplan: Die neue Fußballmatrix“ by Christoph Biermann on the topic

// Tim (Translated by Arne)

MillernTon Twitter //
MillernTon YouTube //
MillernTon Facebook //MillernTon Instagram //

If you like what we do here, here you’ll find the information on how to support us.

{:}
Print Friendly, PDF & Email

20 thoughts on “{:de}Konzeptarbeit „Datengetriebenes Scouting im Fußball“{:}{:en}Concept work „Data-driven Scouting in Football“{:}

  1. Vielen Dank für den umfassenden und sehr interessanten Einblick in die Thematik und vollste Zustimmung von mir hinsichtlich der Bedeutung von Daten beim Scouting und der Kaderentwicklung!

    Vorweg: Bislang konnte ich noch nicht alles lesen, sondern hab es aus Zeitgründen am Ende überflogen.
    Trotzdem möchte ich kurz einen Gedanken loswerden, den ich nicht gefunden, aber als sehr wichtig empfinde:

    Puh, schwierig das was ich ausdrücken will, kurz, knackig und verständlich aufzuschreiben, aber ich versuche es. 🙂
    Ein wichtiger Aspekt kann m.E. sein, die Daten der eigenen Spieler so zu erheben dass sie aussagekräftig aufgearbeitet werden können und auch für das Scouting genutzt werden (das hat natürlich auch weitere positive Aspekte…). Mit den daraus gewonnen Erkenntnissen über den eigenen Kader, kann dann eine „Angel“ gebaut werden, die aus dem Teich der Datenanbieter die Fische fängt, die den eigenen Kader (sukzessiv) verbessern.
    Denn es geht ja nicht nur darum den besten Transfer in der BuLi zu machen, sondern eher darum den eigenen Kader sinnvoll und dazu möglichst preiswert zu verbessern…
    …Bewertungen ergeben ja erst Sinn, wenn es nen Vergleichswert gibt 😉

    Aufgrund der rasanten Entwicklung sollte wohl auch darauf geachtet werden, dass die Basis möglichst flexibel bleibt. Eigene Modelle erweiter- und anpassbar bleiben.
    Ist echt ein Riesenfeld, dass super interessant ist! 🙂

    1. Ja klar beinhaltet ein Scouting-Modell, welches nach Spielern sucht, die zum FCSP passen auch die Rückfrage, welche Spieler zum eigenen Kader passen. Dieser Vergleichswert muss bereits bei den zu erstellenden Positionsprofilen erschaffen werden und immer wieder neu hinterfragt werden.

  2. …beim nochmaligen Lesen meines Beitrages lese ich in meinem „Beitrag“ zu wenig Demut heraus.
    Hab mich mit dem Thema natürlich nicht so ausgiebig beschäftigt und bin nur ein interessierter Leser, der von aussen seinen schnellgedachten und seinen wenig euphorisierten Senf dazugibt (hab ja noch nicht mal alles gelesen!). Einen Senf, der wahrscheinlich schon bedacht wurde. Es kam mir halt nur sofort in den Sinn, mußte raus. Wollte das Thema halt mit dieser, äh, vorschnellen Äußerung von Gedanken unterstützen *verschämt wegguck*

  3. Vielen Dank Tim, dass du meine Wochenendplanungen über den Haufen geworfen hast.
    Nun also erstmal Scouting und dann Saisonrückblick Statistiken. ?

    Werde mich erst mal durch die zahlreichen verlinkten Artikel wühlen. War doch das eine oder andere Neuland dabei.

    ???

  4. Hi Tim,
    Sehr cooler Text. Danke sehr!
    Was ich super spannend finden wueder waere, mehr zum Thema Bias zu lesen–angewendet darauf wie Spauli Fans und Medien betsimmte Spieler, Trainer oder Spoirtchesf wahrnehmen. Waere sicherlich kontrovers–aber koennte auch sehr hilfreich sein um fuer uns selsbt mehr Refletion zu entwickeln.

    Zum Thema Data Science:
    Es gibt eine ganze Reihe von Studien die zeigen, dass Technologien in Organisation nur dann effektiv eingesetzt werden, wenn sie mit der Organisationsstruktur und -praxis im Einklang stehen.

    Fuer den FCSP stellen sich da mehrere Fragen:
    (1) Ist es besser die Data Sceince Kompetenz regelmaessig von aussen einzukaufen (von einer ‚festen freien‘ Beratungsfirma, die fuer mehrere Vereine arbeitet) anstatt jemanden einzustellen (der eventuell nach einer bestimmten Zeit nicht ,mehr „up to date“ ist–denk mal an einige IT Experten in Organisationen)?
    (2) Wo wuerde man eine solche Stlle ansiedeln? Trainerstab? Sportdirektor? (Was ist wenn der neue Trainer seinen egenen Analysten will?) Vertrieb/Marketingabteilung? (Aus meiner Sicht koennte der FCSP MINDESTENS GENAUSO davon profitieren Data Science im Marketing/Vertrieb einzseten wie im Profibereich)

    Aus meiner Sicht waere es das beste wenn der neue Vize-Praesident eine gewisse Expertise im Bereich Data Science mitbringen wuerde. Der/die koennte dann als interner Experte agieren, und Trainer/SportDi/Marketing dabei unterstuetzen, zu entscheiden welche externen Data Science Tools/Berater sie einsetzen sollten.

    HH ist Braun weiss,
    Zet

    1. Hi Zet,
      ja, das sind sicher interessante Ansatzpunkte – war z.B. Chris Nöthe wirklich so lauffaul, wie ihm dauerhaft nachgesagt wurde?
      Und ja, die Frage, ob es besser wäre jemanden von außen als Art Berater zu holen oder jemanden einzustellen, hat mich auch beschäftigt. Ich bin der Meinung, dass es eher hilfreich ist, wenn der Klub sich selbst jemanden ranholt, da die Strukturen teils über Monate/Jahre wachsen müssen, damit Data Science ein effektives Tool wird (was es aus meiner Sichtr defintiv werden kann, wenn sich ein Klub traut diesen Schritt zu gehen).

      1. Ok. Wenn Du aber jemanden einstellen willst, wie kannst Du sicherstellen, dass die neue Expertise „instituionalisiert“ wird–also auch genutzt wird und nicht von Trainer/SpoDi ignoriert wird?

        Deswegen ja meine Idee mit dem Vizepraesidenten, der das Thema dauehaft pushen koennte–und waere (erstmal) auch ohne Zusatzkosten, zu Zeiten der Corona Krise sicherlich auch bedenkenswert. 🙂

        1. Ja, es ist natürlich ganz grundsätzlich ratsam, dass in (personal-)verantwortlichen Positionen Menschen sitzen, die da auch dauerhaft so etwas vorantreiben.

  5. Danke, echt interessant!
    Gibt es auch ein Analyse Tool für die Sozialkompetenz des Spielers?
    – Passt er zum Verein?
    – Passt er zu den Mitspielern?
    – Verhalten auf und neben dem Platz?
    – Lebensstil, Trainingsfleiß, Teamfähigkeit?
    Das ist alles mindestens so wichtig wie die Fachkompetenz!

    1. Jupp, viele Klubs (vornehmlich aus der Premier League) erarbeiten komplette Psychogramme von Spielern. Aber da ist natürlich auch sehr viel mehr Geld dahinter.

  6. Danke für diesen sehr schönen Text. Für mich wäre das ein sehr guter Schritt in die richtige Richtung. Wie schon in den Kommentaren angemerkt, müsste man die Daten neben „hard“ Skills auch um „soft“ Skills irgendwann erweitern. Es ist ja nicht nur ein Vorurteil gegenüber Spielern, aber man sieht ja auch immer wieder, dass Spieler die sich sehr mit dem Verein identifizieren sehr gute Leistungen bringen (siehe Leo oder James diese Saison, bzw. Team von den dritten in die erste Liga).
    Der nächste Schritt, wenn man dann ordentliche Daten hat wäre eine vernünftige Automatisierung. Wenn man dann in Richtung Neuronale Netze/ Deep Learning geht, braucht man halt aber auch schon sehr viele und gute Daten, sonst hat man wieder ein ganz anderes Bias Problem. Wenn man dies aber schafft hätte man schon halb gewonnen, was Vorhersagen zu Spielern auf einzelnen Positionen angeht. Hierbei müsste man idealerweise auch noch eigene Modelle anderer Teams aufbauen, mit deren Transfers, um damit seine eigenen Vorhersagen zu verbessern. So jetzt genug weiter rumgesponnen. Wie gesagt, wäre ein sehr guter erster Schritt und ich glaube, man sollte dort interne Expertise aufbauen. Auch wenn dieses durch Bruttolöhne leider bestimmt mehr als die 100k kostet. Bis man weiter gen Automatisierung kommt, werden leider bestimmt noch Jahre vergehen.

  7. Hallo Tim,

    der Artikel ist mal wieder super! Was ich zusätzlich zum Scouting.-Aspekt interessant und lohnenswert finden würde, wäre eine Anwendung auf den eigenen Kader – nicht nur im Sinne der Trainingsbeobachtung, sondern auch im Sinne eines Benchmarking. Ist der Kader wirklich nicht zweitligareif, wie manche sagen, oder liegt es an Motivation/Aufstellung der Spieler bzw. einem System, das andere Tugenden fordert und erfordert? Das ist nicht ganz so einfach, wie es klingt, denn um so ein Modell zu entwickeln, muss man natürlich dann auch die Gegenproben mit Falsch-Positiven und Falsch-Negativen-Kontrollen machen. Trotzdem wird man dadurch sicher nicht dümmer und die oft unterschätzten Sportdirektoren waren am Ende wichtiger für den Erfolg der Mannschaft als die Trainer, denen der Erfolg viel schneller zugeschrieben wurde.

    Beste Grüße

    Jan

    1. Moin Jan,
      klar, allein schon um zu analysieren welche Positionen neu oder anders besetzt werden müssen, sollte eine solche Analyse durchgeführt werden.
      Und einfach ist das alles nicht. Aber ich bin fest davon überzeugt, dass es sich absolut lohnt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert