Baseball-Modell v2: Datenleck behoben und präzisere Run-Totals
Jede Modell-Überprüfung beginnt mit derselben Frage: Was macht das Modell falsch, das wir tatsächlich beheben können? Bei der Baseball-Auswertung dieser Saison fanden sich zwei klare Antworten. Die erste war ein Datenleck — ein subtiles, das die Trainingsgenauigkeit aufblähte, ohne in der Produktion wirklich zu helfen. Die zweite war ein Totals-Problem, das konkrete Verlustbetten erzeugte. Beide sind in Baseball v2 behoben, das jetzt live ist.
Das Datenleck: Training auf die Zukunft
Das ursprüngliche Modell wurde auf saisonalen Pitcher- und Team-Statistiken trainiert. Auf den ersten Blick klingt das vernünftig — ERA, Strikeout-Rate, Bullpen-ERA, Offensivproduktion, alle erwartbaren Eingaben. Das Problem lag im Timing. Für jedes Spiel in den Trainingsdaten schaute das Modell auf die Saisonabschluss-Statistiken des Spielers — die endgültigen Zahlen, die über alle 162 Spiele angesammelt wurden.
Die Lösung heißt punkt-in-Zeit-Statistiken: Anstelle des endgültigen Saison-Gesamts verwendet das Modell jetzt nur, was vor dem ersten Wurf bekannt war — einen Saisondurchschnitt bis zum Spieltag, aufgebaut aus individuellen Spielprotokollen je Start. Für Spiele früh in der Saison überbrückt ein Vorjahres-Fallback die Lücke. Das Modell sieht jetzt genau das, was ein Wetter und ein Quotenersteller am Spieltag sahen — nicht mehr.
Das ist nicht die Art von Korrektur, die sich dramatisch in den Schlagzeilen-Genauigkeitsmetriken zeigt — ein Look-ahead-Leck lässt Trainingszahlen besser aussehen als sie sein sollten, nicht offensichtlich falsch. Aber es macht das Modell ehrlich. Die Live-Genauigkeitszahlen können im Laufe der Saison gegen eine echte, leckagefreie Basis verfolgt werden.
Das Totals-Problem: Wissen, wann man nachgibt
Das zweite Problem war im Gewinn und Verlust deutlicher sichtbar. Eine Halbsaison-Überprüfung der Over/Under-Wetten zeigte, dass das Modell Run-Totals systematisch zu niedrig schätzte. Nicht stark — aber genug, um es konstant in Richtung 'Under'-Wetten zu drängen, die in nennenswerter Rate verloren.
Der schwierigere Befund war dieser: auf dem Totals-Markt speziell war das Modell tatsächlich schwächer als der scharfe Markt. Wir maßen die Korrelation zwischen unseren vorhergesagten Totals und den tatsächlichen Spielergebnissen — und verglichen das dann mit dem in Pinnacles Linie enthaltenen impliziten Total. Die Korrelation unseres Modells mit der Realität: 0,14. Pinnacles impliziertes Total: 0,25. Bei dieser konkreten Frage — wie viele Runs werden heute Abend erzielt — hatte der scharfe Markt deutlich bessere Informationen als unser Modell.
Die Lösung ist eine Technik, die wir auch im Tennis-Modell verwenden: Schrumpfung in Richtung der scharfen Zahl. Dort, wo unser Modell nachweislich schwächer ist als der scharfe Markt, mischen wir unsere vorhergesagte Wahrscheinlichkeit in Richtung Pinnacles implizierter Wahrscheinlichkeit. Bei Totals bedeutet das, dass die Over/Under-Wahrscheinlichkeit nicht rein die Ausgabe unseres Modells ist — sie ist an der Linie des scharfen Markts verankert, gewichtet nach dem Vertrauen in unser eigenes Signal.
Das Ziel ist nicht, Pinnacle einfach zu kopieren — das würde jeden Vorteil eliminieren. Das Ziel ist, unser Signal mit ihrem in den richtigen Verhältnissen zu kombinieren. Bei Märkten, wo wir einen bewiesenen Vorteil haben, behalten wir mehr von unserem eigenen Signal. Bei Totals vertrauen wir stärker der scharfen Linie.
Was nicht verändert wurde
Die Moneyline- und Run-Line-Märkte — Heim-/Auswärtssieger und ±1,5 Runs — wurden unverändert gelassen. Eine Überprüfung abgewickelter Wetten auf diesen Märkten zeigte positiven Closing Line Value, was die wichtigste Kennzahl für langfristige Profitabilität ist. Wenn das Modell konsistent Wert identifiziert, den der Schlusskurs bestätigt, reparieren wir nichts, was nicht kaputt ist.
- Moneyline (ML) — unverändert. Positiver CLV bestätigt; Modellkalibrierung bei Sieg/Niederlage solide.
- Run Line (RL ±1,5) — unverändert. Dasselbe starke Signal wie bei der Moneyline mit angemessener Marge.
- Erste 5 Innings (F5 ML + F5 Totals) — unverändert. Starter-getriebener Markt, wo Punkt-in-Zeit-Pitcher-Statistiken jetzt sauber greifen.
- Over/Under-Totals — Schrumpfung in Richtung Pinnacle jetzt aktiv. Weniger Wetten, höhere Gewinnrate.
Das ist die ehrliche Herangehensweise, die wir auf jeden Markt und jeden Sport anwenden: weniger wetten und besser wetten. Ein Modell, das auf alles wettet, ist kein gutes Modell — es ist ein Modell, das seine eigenen Grenzen nicht kennt. Baseball v2 weiß, wo es stark ist und wo es nachgeben sollte.
Das richtige Ziel: den schärfsten Markt erreichen
Der Maßstab, an dem wir uns über alle Sportarten hinweg messen, ist derselbe: die Kalibrierung des schärfsten Marktes erreichen und dann weiche Buchmacher finden, die über der fairen Linie einpreisen. Wir versuchen nicht, Pinnacles Schlusskurs in absoluter Genauigkeit zu schlagen — das ist ein sehr hoher Anspruch, den die meisten quantitativen Teams nie erreichen. Wir versuchen, gut genug kalibriert zu sein, damit wenn ein weicher Buchmacher 2,20 auf etwas anbietet, das wir und Pinnacle näher an 1,95 einschätzen, wir mit Überzeugung auf diese Lücke reagieren können.
Die Leckage-Korrektur und die Totals-Disziplin dienen beide diesem Ziel. Ein Modell, das auf zukünftigen Daten trainiert wurde, sieht kalibriert aus, ist es aber nicht. Ein Modell, das seine eigene relative Schwäche bei Totals ignoriert, blutet die ganze Saison mit Under-Wetten. Keine dieser Modellversionen nutzte echten Vorteil aus — v2 tut es. Die Live-Performance ist auf unserer Modellseite einsehbar.
Wir werden CLV-Zahlen fortlaufend veröffentlichen, wenn sich abgewickelte Wetten ansammeln. Hundert Wetten sagen wenig — fünfhundert beginnen, statistisch bedeutsam zu werden. Wir verfolgen es und werden teilen, was die Daten sagen.