Örnek bir aramadaki karakter sıklığı

Bir sistem yöneticisi dogpile.com üzerinde aranan kelimelere ait 97MB’lık anahtar kelimelerden (tekil) oluşan bir log dosyasını karakter analizine tabi tutmuş. Analizin sonunda dikkat çekici bazı sonuçlar ortaya çıkmış. Bunlardan biri arama yapan kullanıcıların üst karakter (shift) tuşundan bihaber olması. 50 miyon aramanın sadece 0.0005’inde büyük harfler kullanılmış. Örneğin "A" (Büyük A) karakteri sadece 1 kez kullanılmış.

Bir sistem yöneticisi dogpile.com üzerinde aranan kelimelere ait 97MB’lık anahtar kelimelerden (tekil) oluşan bir log dosyasını karakter analizine tabi tutmuş. Analizin sonunda dikkat çekici bazı sonuçlar ortaya çıkmış. Bunlardan biri arama yapan kullanıcıların üst karakter (shift) tuşundan bihaber olması. 50 miyon aramanın sadece 0.0005’inde büyük harfler kullanılmış. Örneğin “A” (Büyük A) karakteri sadece 1 kez kullanılmış.

Arama sıklığını hesaplayan piton programcığına buradan bakabilirsiniz.

%~/dogpile$ ls -alh uniques
-rw-r–r–  1 root root 97M 2006-03-19 10:56 uniques

%~/dogpile$ wc uniques
4132663  14327267 101415738 uniques

Yüzde:Sayı:Karakter:Grafik:
10.480010195284space (32)
8.98078736729e
7.65507447017a
6.91636728353o
6.35266179991i
6.28016109449t
6.24816078315r
5.88415724190n
5.87565715978s
4.29724180409l
3.89683790961c
2.79912723074d
2.69682623570u
2.67892606070m
2.51502446702h
2.27932217325p
2.03711981770g
1.56801525428f
1.52661485113b
1.39951361434y
1.34241305918w
0.9719945517k
0.9114886669v
0.5384523765q
0.4629450364;
0.4589446406&
0.3135304993.
0.29772895990
0.2824274721x
0.2615254358j
0.19101858241
0.1858180762z
0.18371787002
0.1379134184,
0.1246121259
0.10431014733
0.10411013095
0.0973946439
0.096493748+
0.0910885216
0.088486019
0.0867843514
0.0697678508
0.0637619467
0.048046699/
0.031630706?
0.016015586#
0.013813466:
0.010810524(
0.010710385)
0.00757258%
0.00595702_
0.00444329@
0.00353437*
0.00333214\
0.00282750=
0.00272655!
0.00151419$
0.00131248]
0.00111095`
0.0010947[
0.0003331~
0.0002197|
0.0001127^
0.0001120M
0.0001119{
0.0001110}
0.0001109T
0.000189carriage return (13)
0.000184G
0.000164S
0.000156F
0.000156
0.000045C
0.000042D
0.000036W
0.00003delete (127)
0.00002U
0.00001R
0.00001P
0.00001H
0.00001A

Log dosyası analizden önce CR+LF karakterlerinden arındırılmasına rağmen analiz sonucunda CR karakterinin 89 kez arandığı gözüküyor. Sanırım kullanıcı arayacağı metini başka bir metin içerisinde satır sonu ile beraber kpyalayıp arama kutusuna yapıştırmış. Sanırım delete karakterini de bir binary editöründen kopyala yapıştırmışlar, emin değilim ;). Yoksa hiçbir metin editörü bu karakteri olduğu gibi vermez. Unutmadan “A” harfini aramasından kullanan o kişiyi de tebrik etmek gerek ;)

Kaynak: http://www.elifulkerson.com/articles/dogpile-search-character-frequency.php

Yazar: Özgür Koca

Yazar - Tankado.com

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

This site uses Akismet to reduce spam. Learn how your comment data is processed.