A/B test anlamlılık hesaplayıcı
İki grup arasındaki farkın gerçek mi yoksa şans eseri mi olduğunu hesapla
Nasıl kullanılır: A grubu mevcut tasarımın (kontrol), B grubu test ettiğin değişikliğin (varyant) sonuçları. p-değeri alpha eşiğinden küçükse sonuç istatistiksel olarak anlamlıdır.
p-değeri ne anlama gelir?
p-değeri, gruplar arasında gerçekte hiç fark olmasa bilebu kadar büyük bir fark gözlemleme olasılığını gösterir. p = 0.03 demek: "eğer A ve B aynı olsaydı, bu sonucu görme ihtimalimiz %3'tü" demek.
p < 0.05 eşiği endüstri standardı. Ama bu keyfi bir sınır — Fisher'ın 1920'lerdeki önerisi. %95 güven "kesinlik" değil, %5 yanılma payı kabul etmek.
p < 0.05 "test başarılı" demek değil. Örneklem küçükse güçlü etkiler bile anlamsız çıkabilir. Örneklem büyükse anlamsız farklar bile anlamlı görünebilir.
Kaç kişiyle test yapmalıyım?
Bu sorunun cevabı üç şeye bağlı: mevcut dönüşüm oranın, görmek istediğin minimum etki büyüklüğü (MDE) ve kabul ettiğin hata payları. Kaba kural:
# Basit sample size tahmini
from scipy import stats
import numpy as np
baseline = 0.05 # mevcut dönüşüm oranı %5
mde = 0.01 # minimum %1 artış görmek istiyoruz
alpha = 0.05 # %5 tip-1 hata
power = 0.80 # %80 güç
effect = mde / baseline
n = stats.norm.isf(alpha/2) + stats.norm.isf(1-power)
sample_size = int(2 * (n / effect)**2 * baseline * (1-baseline) / mde**2)
print(f"Her grup için gereken: ~{sample_size} kişi")Yaygın hatalar
- Peeking: Testi günlük kontrol edip erken durdurma. p-değeri anlık dalgalanır, sabırla bekle.
- Çoklu test: 10 metrik test edersen biri şans eseri anlamlı çıkar. Birincil metriği önceden belirle.
- Küçük örneklem: 50'er kişiyle sonuç çıkmaz. Hesaplayıcıyı önceden çalıştır.
- Mevsimsellik: Pazartesi-Cuma testi, hafta sonu davranışını temsil etmez. Tam hafta çalıştır.
Sıradaki araç: sample size hesaplayıcı — testi başlatmadan önce kaç kişiye ihtiyacın olduğunu hesapla.