bet analyser

bet analyser

Tes Taruhan: Mengidentifikasi Masalah dalam Analisis Uji A/B Bayesian

Skenario Umum

"Uji A/B ini meningkatkan konversi sebesar 200%!" Orang yang aktif di komunitas eksperimen mungkin pernah melihat klaim seperti ini, yang kemudian diikuti oleh penentang yang mengacu pada konsep yang disebut Hukum Twyman. Per Wikipedia, Hukum Twyman menyatakan bahwa "Setiap angka yang terlihat menarik atau berbeda biasanya salah." Idenya adalah kita harus skeptis terhadap peningkatan besar yang dilaporkan karena itu mengejutkan. Siapa pun yang berpengalaman dalam menjalankan uji A/B biasanya melihat efek perlakuan yang jauh lebih kecil — biasanya di bawah 10%. Peningkatan 200% tentu harus menimbulkan kecurigaan dan mendorong seseorang untuk mempertanyakan hasilnya.

Meskipun sebagian besar praktisi eksperimen memiliki skeptisisme yang sehat terhadap peningkatan besar, sayangnya merupakan praktik umum untuk menggunakan alat uji A/B Bayesian yang tidak memiliki skeptisisme tersebut, dan bahkan membuat asumsi yang pada dasarnya mengabaikan Hukum Twyman.

Mengapa Banyak Alat Analisis Bayesian Kurang Memadai

Pendekatan umum dalam alat atau kalkulator uji A/B Bayesian adalah menggunakan prior tanpa informasi, yang berarti kita tidak menggunakan pengetahuan sebelumnya tentang efek perlakuan. Pendekatan ini berasumsi bahwa semua efek perlakuan memiliki kemungkinan yang sama. Dengan kata lain, pengujian kita sama mungkinnya menghasilkan peningkatan 2% seperti halnya peningkatan 200%. Pendekatan ini sama sekali tidak konsisten dengan Hukum Twyman.

Ketika kita melihat peningkatan yang dilaporkan sebesar 200%, kita dengan cepat menyatakan skeptisisme terhadap hasilnya. Meskipun demikian, banyak kalkulator Bayesian secara eksplisit membuat asumsi statistik yang meragukan bahwa peningkatan yang tidak realistis sama mungkinnya dengan yang realistis.

Pendekatan prior tanpa informasi sebelumnya disebut sebagai peniru Bayesian karena memberikan angka yang identik dengan analisis frequentis dengan bahasa Bayesian yang menyesatkan. Dalam praktiknya, banyak pengguna alat ini akhirnya menerapkan kebijakan yang pada dasarnya sama dengan peretasan p frequentis. Kedok analisis Bayesian membuat mereka percaya bahwa mereka menghindari jebakan frequentis seperti mengintip dan perbandingan berganda, namun kenyataannya mereka jatuh ke dalam jebakan tersebut karena prior tanpa informasi membuat mereka secara efektif bekerja dengan nilai p.

Ahli statistik Bayesian terkenal Andrew Gelman juga telah memperingatkan bahaya prior noninformatif dalam "setiap pengaturan di mana informasi sebelumnya benar-benar kuat, sehingga jika Anda mengasumsikan prior datar, Anda bisa mendapatkan perkiraan konyol hanya dari variasi noise." Ini adalah pengaturan yang tepat dari uji A/B. Kisaran peningkatan sebenarnya sudah diketahui dengan baik, tetapi metrik bisnis bising, yang menyebabkan perkiraan konyol yang membuat skenario Hukum Twyman begitu umum.

Tes Taruhan

Salah satu ciri distribusi prior yang baik adalah bahwa kita dengan sukarela akan mengandalkannya untuk mempertaruhkan uang sungguhan. Bayangkan sebuah prior yang ingin Anda gunakan untuk analisis uji A/B Bayesian. Tes taruhan sederhana untuk prior tersebut adalah sebagai berikut:

Dari distribusi prior, hitung interval kredibel 50% untuk peningkatan relatif (misalnya, -10% hingga 10%).
Bayangkan sebuah permainan di mana kita akan menjalankan uji A/B dengan ukuran sampel yang sangat besar. Anda memenangkan $100 jika Anda menebak dengan benar apakah efek perlakuan berada di dalam atau di luar interval 50% yang dihitung di #1.
Jika Anda memiliki preferensi yang kuat untuk di dalam atau di luar, prior Anda gagal dalam tes taruhan.

Mari kita coba Tes Taruhan ini dengan prior tanpa informasi sebagai contoh. Dalam kasus tersebut, interval 50% mencakup peningkatan relatif dari -∞ hingga ∞. [1] Kita tahu bahwa efek perlakuan apa pun harus jatuh dalam rentang ini, jadi kita jelas akan memanggil "di dalam" dan mengambil $100. Ini adalah keputusan yang mudah — ini menunjukkan bahwa prior tanpa informasi tidak masuk akal.

Jebakan Menentukan Prior Independen Terpisah

Pendekatan umum lainnya adalah menggunakan prior yang diinformasikan tetapi menentukan prior terpisah untuk setiap varian. Pendukung pendekatan ini biasanya mengakui bahwa keunggulan utama pendekatan Bayesian adalah kemampuan untuk memanfaatkan informasi sebelumnya, tetapi mereka melakukannya dengan cara yang salah arah yang gagal membuka manfaat dari pendekatan Bayesian yang tepat, seperti penyusutan. Seperti yang akan kami tunjukkan, ini juga gagal dalam tes taruhan.

Misalnya, jika kita menjalankan uji tingkat konversi, kita mungkin tahu bahwa tingkat konversi yang diamati dalam uji A/B untuk produk kita biasanya sekitar 2-3%. Itu tampaknya informasi yang masuk akal untuk dimanfaatkan dalam prior kita. Pendekatan tipikal adalah menggunakan prior distribusi beta yang diinformasikan karena konjugasi. Misalnya, menggunakan Beta(15, 600) memberikan prior yang sesuai dengan rentang tingkat konversi yang diketahui.

Jebakannya terletak pada apa yang kita lakukan selanjutnya. Karena kita telah mendefinisikan prior atas tingkat konversi, kita sebenarnya hanya mendefinisikan prior untuk satu varian. Pendekatan alami selanjutnya adalah menggunakan prior yang sama untuk setiap varian dalam uji A/B secara terpisah dan kemudian memperbarui kedua prior dengan data uji.

Ini mungkin tampak masuk akal, tetapi kita sebenarnya membuat asumsi independensi yang halus yang menghasilkan hasil yang tidak masuk akal. Untuk menyadari hal ini, pikirkan alasan variasi dalam tingkat konversi. Salah satu faktor yang mungkin adalah musiman — tingkat konversi cenderung lebih tinggi pada waktu-waktu tertentu dibandingkan yang lain. Faktor lain mungkin promosi baru-baru ini yang telah membawa banyak pengguna dengan niat tinggi ke dalam corong. Ada banyak faktor seperti ini yang memengaruhi tingkat konversi semua varian. Jika kita tahu bahwa tingkat konversi untuk grup kontrol berada di ujung atas prior kita, kita harus mengharapkan hal yang sama untuk grup perlakuan. Dengan kata lain, kita harus mengharapkan tingkat konversi antara grup kontrol dan perlakuan berkorelasi.

Namun, struktur prior kita sama sekali melewatkan efek ini. Alih-alih melihat prior sebagai distribusi beta univariat, kita harus melihatnya sebagai distribusi bersama atas tingkat konversi untuk perlakuan dan kontrol. Kita dapat memvisualisasikan distribusi ini dengan diagram sebar dari pengambilan independen dari dua distribusi prior.

Seperti yang kita lihat dalam diagram sebar, ada banyak pengambilan dari prior bersama yang mewakili peningkatan relatif melebihi 50%, yang akan membuat sebagian besar peneliti menyebut Hukum Twyman. Dengan prior ini, kita secara eksplisit mengasumsikan skenario seperti itu adalah hasil yang mungkin.

Pada kenyataannya, kita harus mengharapkan prior bersama terlihat lebih seperti diagram sebar berikut. Dalam kasus ini, jika kita mengetahui tingkat konversi sebenarnya untuk grup kontrol, kita memiliki perasaan yang cukup yakin tentang tingkat konversi untuk grup perlakuan juga karena kita tahu bahwa sebagian besar peningkatan sebenarnya kurang dari 10%.

Kita kemudian dapat menerapkan tes taruhan pada prior independen yang ditunjukkan dalam diagram sebar pertama. Pertama, kita harus memplot pengambilan dari prior sebagai histogram peningkatan relatif, seperti yang ditunjukkan di bawah ini.

Sekarang, kita dapat menghitung interval kredibel 50% dengan mengevaluasi persentil ke-25 dan ke-75 dari distribusi ini, yang menghasilkan interval -18,8% hingga 25,2%. Jika saya bisa memenangkan $100 dengan benar memanggil "di dalam" atau "di luar," saya akan memanggil "di dalam" tanpa berpikir dua kali. Setiap peningkatan relatif sebenarnya di luar interval ini adalah kejadian yang sangat langka.

Pemberitahuan Hukum Kebijakan Privasi