Ana sayfaaraç

A/B test anlamlılık hesaplayıcı

İki grup arasındaki farkın gerçek mi yoksa şans eseri mi olduğunu hesapla

Kontrol (A)

Ziyaretçi sayısı

Dönüşüm sayısı

Oran: 5.00%

Varyant (B)

Ziyaretçi sayısı

Dönüşüm sayısı

Oran: 6.50%

Güven düzeyi

~ Anlamlı fark yok

Anlamlı fark yok. Daha fazla veri topla veya testi uzat.

p-değeri

0.150

eşik: 0.05

Göreli etki

+30.0%

B vs A

%95 güven aralığı

[-0.5%, 3.5%]

fark aralığı

Nasıl kullanılır: A grubu mevcut tasarımın (kontrol), B grubu test ettiğin değişikliğin (varyant) sonuçları. p-değeri alpha eşiğinden küçükse sonuç istatistiksel olarak anlamlıdır.

p-değeri ne anlama gelir?

p-değeri, gruplar arasında gerçekte hiç fark olmasa bilebu kadar büyük bir fark gözlemleme olasılığını gösterir. p = 0.03 demek: "eğer A ve B aynı olsaydı, bu sonucu görme ihtimalimiz %3'tü" demek.

p < 0.05 eşiği endüstri standardı. Ama bu keyfi bir sınır — Fisher'ın 1920'lerdeki önerisi. %95 güven "kesinlik" değil, %5 yanılma payı kabul etmek.

p < 0.05 "test başarılı" demek değil. Örneklem küçükse güçlü etkiler bile anlamsız çıkabilir. Örneklem büyükse anlamsız farklar bile anlamlı görünebilir.

Kaç kişiyle test yapmalıyım?

Bu sorunun cevabı üç şeye bağlı: mevcut dönüşüm oranın, görmek istediğin minimum etki büyüklüğü (MDE) ve kabul ettiğin hata payları. Kaba kural:

# Basit sample size tahmini
from scipy import stats
import numpy as np

baseline = 0.05      # mevcut dönüşüm oranı %5
mde = 0.01           # minimum %1 artış görmek istiyoruz
alpha = 0.05         # %5 tip-1 hata
power = 0.80         # %80 güç

effect = mde / baseline
n = stats.norm.isf(alpha/2) + stats.norm.isf(1-power)
sample_size = int(2 * (n / effect)**2 * baseline * (1-baseline) / mde**2)
print(f"Her grup için gereken: ~{sample_size} kişi")

Yaygın hatalar

Peeking: Testi günlük kontrol edip erken durdurma. p-değeri anlık dalgalanır, sabırla bekle.
Çoklu test: 10 metrik test edersen biri şans eseri anlamlı çıkar. Birincil metriği önceden belirle.
Küçük örneklem: 50'er kişiyle sonuç çıkmaz. Hesaplayıcıyı önceden çalıştır.
Mevsimsellik: Pazartesi-Cuma testi, hafta sonu davranışını temsil etmez. Tam hafta çalıştır.

Sıradaki araç: sample size hesaplayıcı — testi başlatmadan önce kaç kişiye ihtiyacın olduğunu hesapla.