Örnek bir aramadaki karakter sıklığı

Bir sistem yöneticisi dogpile.com üzerinde aranan kelimelere ait 97MB’lık anahtar kelimelerden (tekil) oluşan bir log dosyasını karakter analizine tabi tutmuş. Analizin sonunda dikkat çekici bazı sonuçlar ortaya çıkmış. Bunlardan biri arama yapan kullanıcıların üst karakter (shift) tuşundan bihaber olması. 50 miyon aramanın sadece 0.0005’inde büyük harfler kullanılmış. Örneğin "A" (Büyük A) karakteri sadece 1 kez kullanılmış.

Bir sistem yöneticisi dogpile.com üzerinde aranan kelimelere ait 97MB’lık anahtar kelimelerden (tekil) oluşan bir log dosyasını karakter analizine tabi tutmuş. Analizin sonunda dikkat çekici bazı sonuçlar ortaya çıkmış. Bunlardan biri arama yapan kullanıcıların üst karakter (shift) tuşundan bihaber olması. 50 miyon aramanın sadece 0.0005’inde büyük harfler kullanılmış. Örneğin “A” (Büyük A) karakteri sadece 1 kez kullanılmış.

Arama sıklığını hesaplayan piton programcığına buradan bakabilirsiniz.

%~/dogpile$ ls -alh uniques
-rw-r–r–  1 root root 97M 2006-03-19 10:56 uniques

%~/dogpile$ wc uniques
4132663  14327267 101415738 uniques

Yüzde: Sayı: Karakter: Grafik:
10.4800 10195284 space (32)
8.9807 8736729 e
7.6550 7447017 a
6.9163 6728353 o
6.3526 6179991 i
6.2801 6109449 t
6.2481 6078315 r
5.8841 5724190 n
5.8756 5715978 s
4.2972 4180409 l
3.8968 3790961 c
2.7991 2723074 d
2.6968 2623570 u
2.6789 2606070 m
2.5150 2446702 h
2.2793 2217325 p
2.0371 1981770 g
1.5680 1525428 f
1.5266 1485113 b
1.3995 1361434 y
1.3424 1305918 w
0.9719 945517 k
0.9114 886669 v
0.5384 523765 q
0.4629 450364 ;
0.4589 446406 &
0.3135 304993 .
0.2977 289599 0
0.2824 274721 x
0.2615 254358 j
0.1910 185824 1
0.1858 180762 z
0.1837 178700 2
0.1379 134184 ,
0.1246 121259
0.1043 101473 3
0.1041 101309 5
0.0973 94643 9
0.0964 93748 +
0.0910 88521 6
0.0884 86019
0.0867 84351 4
0.0697 67850 8
0.0637 61946 7
0.0480 46699 /
0.0316 30706 ?
0.0160 15586 #
0.0138 13466 :
0.0108 10524 (
0.0107 10385 )
0.0075 7258 %
0.0059 5702 _
0.0044 4329 @
0.0035 3437 *
0.0033 3214 \
0.0028 2750 =
0.0027 2655 !
0.0015 1419 $
0.0013 1248 ]
0.0011 1095 `
0.0010 947 [
0.0003 331 ~
0.0002 197 |
0.0001 127 ^
0.0001 120 M
0.0001 119 {
0.0001 110 }
0.0001 109 T
0.0001 89 carriage return (13)
0.0001 84 G
0.0001 64 S
0.0001 56 F
0.0001 56
0.0000 45 C
0.0000 42 D
0.0000 36 W
0.0000 3 delete (127)
0.0000 2 U
0.0000 1 R
0.0000 1 P
0.0000 1 H
0.0000 1 A

Log dosyası analizden önce CR+LF karakterlerinden arındırılmasına rağmen analiz sonucunda CR karakterinin 89 kez arandığı gözüküyor. Sanırım kullanıcı arayacağı metini başka bir metin içerisinde satır sonu ile beraber kpyalayıp arama kutusuna yapıştırmış. Sanırım delete karakterini de bir binary editöründen kopyala yapıştırmışlar, emin değilim ;). Yoksa hiçbir metin editörü bu karakteri olduğu gibi vermez. Unutmadan “A” harfini aramasından kullanan o kişiyi de tebrik etmek gerek ;)

Kaynak: http://www.elifulkerson.com/articles/dogpile-search-character-frequency.php

Yazar: Özgür Koca

Yazar - Tankado.com

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Bu site, istenmeyenleri azaltmak için Akismet kullanıyor. Yorum verilerinizin nasıl işlendiği hakkında daha fazla bilgi edinin.