NBA-Modell v2: Datenpipeline auf ESPN umgestellt — volle Stärke wiederhergestellt
Ein Modell ist nur so gut wie die Daten, die es speisen. Letzten Monat stieß unsere NBA-Pipeline an eine Wand: stats.nba.com begann, Anfragen von europäischen Servern mit HTTP-Fehlern abzublocken. Der Collector lief lautlos weiter, holte aber nur noch 65 von rund 1.300 Saisonspielen — und null Spieler-Gamelogs. Das Modell arbeitete de facto mit veralteten Daten. Wir haben die gesamte Pipeline von Grund auf auf ESPNs öffentliche Daten umgebaut, die Advanced Efficiency Stats wiederhergestellt und basketball v2 veröffentlicht. Hier ist genau, was kaputt war, was wir getan haben und was das für NBA-Value-Bets bedeutet.
Was kaputt war: ein stiller Datenausfall
stats.nba.com, der offizielle NBA-Datendienst, blockiert Anfragen von Nicht-US-IPs. Unser Prediction-Server läuft in Europa, weshalb jeder API-Aufruf lautlos scheiterte. Kein Absturz, kein Alarm — der Collector kam einfach leer zurück. Als wir es bemerkten, hatten wir ein saisonlanges Datenloch: ein winziger Bruchteil der Spiele gesammelt, keine Effizienz-Stats und ein Modell, das Prognosen auf einem Bruchteil der benötigten Daten erstellte.
Die naheliegende Lösung — den Traffic durch einen US-Proxy zu leiten — hätte laufende Kosten und eine Abhängigkeit von einem Drittanbieter bedeutet, den wir nicht kontrollieren. Wir wählten einen anderen Weg: eine Datenquelle finden, die ohne Umwege von Europa aus erreichbar ist.
Die Lösung: ESPN als neue Daten-Grundlage
ESPNs öffentliche Box-Score-Endpunkte sind von EU-Servern aus erreichbar. Wir haben den NBA-Collector komplett auf ESPN umgeschrieben und die gesamte Saison 2025-26 rückwirkend nachgefüllt: rund 1.400 abgeschlossene Spiele mit vollständigen Box-Scores sowie die fehlenden Gamelogs. Die Pipeline ist jetzt idempotent — jeder Durchlauf schließt Lücken und aktualisiert aktuelle Ergebnisse ohne Duplikate.
Das schwierigere Problem waren die Advanced Stats. Offensive Rating, Defensive Rating, Pace, Effective Field-Goal Percentage, Offensive Rebound Percentage — das sind die Effizienz-Metriken, die dem Modell seinen Vorteil gegenüber einfachen Sieg-Niederlagen-Bilanzen verschaffen. ESPN liefert sie nicht direkt aus den Box-Scores. Wir haben sie aus den Grundformeln berechnet: Standard-Basketball-Formeln, angewandt auf die rohen Box-Score-Zahlen, die ESPN veröffentlicht. Anschließend haben wir die berechneten Werte gegen die Skala der ursprünglichen Quelle validiert.
Wer verstehen möchte, warum Advanced Efficiency Stats für ein Wettmodell mehr zählen als Punkte pro Spiel: Offensive Rating normalisiert auf Ballbesitze und Tempo, sodass ein schnell und ein langsam spielendes Team auf derselben Skala gemessen werden. Rohe Zählstatistiken vermischen diese Effekte. Die wichtigsten Features des Modells — Home Offensive Rating, Pace-Differenz, Elo-Abstand — setzen alle voraus, dass saubere Effizienz-Daten vorhanden sind.
Was sich für Prognosen verändert hat
Die ehrliche Antwort: Die Prognosequalität ist wieder auf dem Stand vor dem Pipeline-Ausfall — nicht dramatisch besser. Die Modell-Architektur ist unverändert (XGBoost-Classifier für Moneyline, zwei Regressoren für Spreads und Totals, 44 Features). Der Brier Score auf dem wiederhergestellten Datensatz liegt bei rund 0,1877 — im Einklang mit dem Modell vor dem Ausfall (~0,186). Wir behaupten keinen Durchbruch — wir behaupten, dass eine funktionierende Pipeline, die kaputt war, jetzt wieder funktioniert.
- ~1.400 Spiele nachgefüllt für die Saison 2025-26, plus vollständige Gamelogs — das Datenloch ist geschlossen.
- Advanced Efficiency Stats wiederhergestellt per ESPN-Box-Score-Formeln — Offensive/Defensive Rating, Pace, eFG%, OREB% allesamt vorhanden und validiert.
- Keine Geoblock-Abhängigkeit — die Pipeline läuft sauber von EU-Servern ohne Proxys oder Umwege.
- Idempotenter Collector — läuft alle 6 Stunden, schließt Lücken, aktualisiert Ergebnisse, keine Duplikate.
- Brier ~0,1877 — entspricht dem Modell vor dem Ausfall; Kalibrierungsparität mit Pinnacles impliziten Wahrscheinlichkeiten.
Wir haben die Gelegenheit auch genutzt, ein Datenqualitätsproblem zu beheben, das älter ist als der Geoblock: Das Feld `season` in der Matches-Tabelle war für einen großen Teil der historischen Daten NULL. Das wurde im Rahmen der v2-Migration nachgepflegt. Wenn du wissen möchtest, wie Wettmodelle funktionieren: Das Season-Tag ist wichtig, weil das Modell Regular-Season- und Playoff-Kontexte unterschiedlich behandelt.
Neu: NBA-Player-Props
Parallel zum Pipeline-Umbau haben wir eine erste Version von NBA-Player-Props-Projektionen eingeführt — Punkte, Rebounds und Assists pro Spiel. Diese Projektionen stammen aus denselben Gamelog-Daten, die auch das Hauptmodell nutzt. Sie sind auf der Modellseite als zusätzliches Signal neben den bestehenden Moneyline-, Spread- und Totals-Märkten live. Wir tracken den CLV von Beginn an; wie bei allem anderen werden die Live-Ergebnisse zeigen, ob der Vorteil real ist.
Was das für NBA-Value-Bets bedeutet
Die NBA Finals laufen gerade, und die reguläre Saison startet im Oktober neu. Die Infrastruktur ist solide: ein geoblock-resistenter Datenfeed, vollständige Effizienz-Stats, ein idempotenter Collector, der aktuell bleibt. Wenn die Saison 2025-26 endet, trainieren wir das Modell auf dem vollständigen Datensatz neu und veröffentlichen aktualisierte Leistungszahlen. Bis dahin ist das Modell wieder in voller Stärke — Prognosen werden mit den Daten erstellt, die sie haben sollten.
Wie immer: Der Closing Line Value ist die Kennzahl, die wir am genauesten verfolgen. Ein positiver CLV über eine große Stichprobe zeigt, dass das Modell Edges findet, die der Markt als real bestätigt — auch wenn einzelne Wetten gegen uns laufen. Wir werden eine Saisonabschluss-CLV-Auswertung veröffentlichen, sobald die Stichprobe groß genug ist, um aussagekräftig zu sein. Vergangene Ergebnisse garantieren keine zukünftigen; bitte verantwortungsvoll wetten, ab 18 Jahren.