Aslında kullanıcıları saymıyoruz. Ancak istemcilerin düzenli aralıklarla aktarıcı listelerini güncellemek için yaptıkları istekleri sayarak dolaylı yoldan kullanıcı sayılarını kestiriyoruz.
Hayır, ancak dizinlerin hangi bölümünün bunları bildirdiğini görebiliriz ve buradan ağdaki toplam sayıyı kestirebiliriz.
Ortalama bir istemcinin bir günde bu türde 10 istek yaptığını varsayıyoruz.
7/24 bağlı bir Tor istemcisi günde yaklaşık 15 istek yapar. Ancak tüm istemciler 7/24 bağlı olmadığından, ortalama istemci için sayıyı 10 olarak belirledik.
Basitçe dizin isteklerini 10 ile bölerek sonucu kullanıcı sayısı olarak kabul ediyoruz.
Buna bakmanın başka bir yolu da, yapılan her isteğin bir günün onda biri kadar yani 2 saat 24 dakika süreyle çevrim içi olan bir istemciyi temsil ettiğini düşünmektir.
Bir günde toplanan verilerden kestirilen ortalama eşzamanlı kullanıcı sayısı. Farklı kaç kullanıcı olduğunu söyleyemeyiz.
Hayır. Bu istatistikleri bildiren aktarıcılar, istekleri kaynak ülkeye göre ve 24 saatlik aralıklar için derler.
Saat başına kullanıcı sayısı için derlememiz gereken istatistikler çok ayrıntılı olur ve kullanıcıları riske atabilir.
Bu durumda bu kullanıcıları bir kişi olarak sayarız. İstemcileri gerçekten sayıyoruz, ancak çoğu insan sezgisel olarak sayıların kullanıcı olduğunu düşünür. Bu yüzden istemci sayısı yerine kullanıcı sayısı diyoruz.
Hayır, çünkü bu kullanıcı da aktarıcı listesini, IP adresini gün içinde değiştirmeyen bir kullanıcı ile aynı sıklıkta günceller.
Dizinler IP adreslerini ülke kodlarına çevirir ve bu sayıları toplu olarak bildirir. Tor uygulamasının GeoIP veri tabanıyla birlikte sunulmasının nedenlerinden biri de budur.
Şu anda taşıyıcılar ya da IP sürümleri hakkında veri bildiren çok az sayıda köprü bulunuyor ve isteklerin varsayılan OR iletişim kuralı ile IPv4 kullandığını varsayıyoruz.
Daha fazla köprü bu verileri bildirmeye başladığında daha doğru sayılar elde edilecektir.
Aktarıcılar ve köprüler, 24 saatlik aralıklarla günün herhangi bir saatinde bitebilen veriler bildirir.
Ve bu sürenin sonunda aktarıcılar ve köprülerin verileri bildirmesi 18 saat daha sürebilir.
Bir çizelgedeki son veri noktasının algoritmanın yapaylığından kaynaklanan yeni bir eğilim değişikliği göstermesini istemediğimizden son iki günü çizelgelere katmıyoruz.
Bu durum, kullanıcı sayılarını artık önemli ölçüde değişmeyeceğinden yeterince emin olduğumuzda yayınlamamızdan kaynaklanıyor.
Ancak bir dizin, biz yeterince emin olduktan birkaç saat sonra yeniden veri bildirebilir. Bu durum da çizelgeyi biraz değiştirir.
O zamandan öncesine ait tanımlayıcı arşivlerimiz var. Ancak bu tanımlayıcılar kullanıcı sayılarını tahmin etmek için kullandığımız tüm verileri içermiyordu.
Ayrıntılı bilgi almak için şu tarball paketine bakın:
Tarball
Doğrudan kullanıcılar için, eski yaklaşımda yapmadığımız şekilde tüm dizinleri katıyoruz.
Ayrıca genel bayt geçmişlerini kullanmaya göre daha kesin olan ve yalnızca dizin isteklerini yanıtlamak için yazılan baytları içeren geçmişleri kullanıyoruz.
Bu başka bir hikaye. Eski yaklaşımdan vazgeçmemizin nedenini açıklayan 13 sayfa uzunluğunda bir teknik rapor yazdık.
tl;dr: Eski yaklaşımda yanlış şeyi ölçüyorduk şimdi doğru şeyi ölçüyoruz.
Bir kaç gün boyunca kestirilen kullanıcı sayılarına bakarak sonraki günlerdeki kullanıcı sayılarını öngören anormallik tabanlı bir sansür algılama sistemi çalıştırıyoruz.
Gerçek sayı daha yüksek ya da daha düşükse, bu durum olası bir sansürlemeyi ya da sansürün kaldırıldığını gösterebilir.
Ayrıntılı bilgi almak için taknik raporumuza bakabilirsiniz.