Abstrak
Kami mengusulkan kerangka kerja pembelajaran mesin untuk memprediksi hasil pertandingan tenis profesional menggunakan kumpulan data 57.000 pertandingan (2003–2024). Dengan menggabungkan statistik ATP yang direkayasa dengan odds taruhan sebelum pertandingan, model ini menangkap dinamika pemain dan ekspektasi pasar. Hasil perbandingan menunjukkan bahwa fitur berbasis ATP saja mencapai kinerja dalam 1-2% dari model yang hanya menggunakan odds, menegaskan kekuatan rekayasa berbasis domain. Model XGBoost akhir kami mencapai akurasi hampir 70% pada pertandingan yang tidak terlihat hanya menggunakan data sebelum pertandingan.
Pendahuluan
Tujuan utama dari pekerjaan ini adalah untuk menentukan apakah mungkin bagi Pembelajaran Mesin (ML) untuk menyediakan dasar dalam menemukan keunggulan statistik dalam taruhan olahraga, terutama dalam pengaturan dunia nyata [1], [2]. Studi ini murni statistik dan terlepas dari perjudian; faktanya, tujuannya adalah untuk menguji efektivitas model prediksi dalam konteks terkendali dan bukan untuk mendefinisikan strategi taruhan. Salah satu aspek terpenting dari penelitian ini adalah metodologi ketat yang diikuti dalam proses pengumpulan data, rekayasa fitur, dan konstruksi model untuk membuat kerangka kerja lebih realistis.