Merjenje obiskanosti spletnih predstavitev
Ali ste se že kdaj vprašali, kaj se resnično dogaja s spletno stranjo vašega podjetja? Kakšen je promet prihodov skozi čas (ure, dneve, tedne, mesece), kolikšnemu številu spletnih uporabnikov je zanimiva vaša stran, kako pogosto se uporabniki vračajo na vašo stran, kako dolgo brskajo po podstraneh, od kod prihajajo,…
Verjetno se vam je sedaj v trenutku porodilo več vprašanj: kako je to sploh mogoče, na podlagi kakšnih podatkov se opravi analiza, kako in kje se ti podatki sploh dobijo. Vsak gib obiskovalcev spletne strani si strežnik zapiše v posebno datoteko, ki se v angleščini imenuje “server log” ali “logfile”, kar bi lahko prevedli kot dnevnik strežnika. V tej datoteki se shranjujejo podatki o vsakem obiskovalcu – kdaj je obiskal stran, katere datoteke je odprl, od kod je prišel na stran, kateri spletni brskalnik uporablja, itd. Posamezen vpis v dnevnik strežnika izgleda nekako takole:
194.245.8.11 – – (05/Mar/2002:10:25:56 -0100) “GET /članek.htm HTTP/1.1” 200 57638 “http://www.slowwwenia.com/iskanje.asp” Mozilla/4.0 (compatible; MSIE 5.05; Windows 98; DigExt)
Na prvi pogled se zdi, kot da smo pred sabo dobili šifrirano sporočilo, ki ga brez dekoderja ne bomo razvozlali. Kaj kmalu boste videli, da je zapis v bistvu zelo enostaven in lahko razumljiv. Razčlenimo ga torej po korakih:
- 194.245.8.11 – v prvem polju je vedno zapisano ime gostujočega računalnika (hostname) ali IP-številka računalnika . Vsakič, ko se priključite na internet vam vaš ponudnik dostopa do interneta dodeli IP kodo.
- (05/Mar/2002:10:25:56 -0100) – to je zapis o datumu in času obiska, ko je obiskovalec izvedel določeno dejanje na opazovani spletni strani.
- “GET /članek.htm HTTP/1.1” – pomeni, da je obiskovalec zahteval datoteko članek.htm in da se je za prenos datoteke uporabil protokol HTTP/1.1. V primeru, da bi se namesto GET pojavil POST, bi to pomenilo, da je obiskovalec poslal podatke strežniku. To se zgodi npr. takrat, ko oddamo naročilo z našimi podatki v spletni trgovini.
- 200 – je koda, ki označuje, da je bilo s prenosom datoteke vse v redu. Če bi bila koda 404, bi to pomenilo, da strežnik ni našel datoteke.
- 57638 – je velikost datoteke v bitih.
- “http://www.slowwwenia.com/iskanje.asp” nam pove, s katere spletne strani je obiskovalec prišel na našo stran. V tem primeru je obiskovalec našel stran v iskalniku Slowwwenia.com. Podatek od kod prihaja obiskovalec, je še posebej zanimiv za oglaševalce, saj imajo tem nadzor nad številom preskokov. Na ta način lahko ugotovijo, iz katerih straneh, kjer oglašujejo, prihaja največ obiskovalcev
- Mozilla/4.0 (compatible; MSIE 5.05; Windows 98; DigExt) -na koncu zapisa vedno sledijo še podatki o brskalniku in operacijskem sistemu obiskovalčevega računalnika.
Brez primerne programske opreme, ki nam omogoča temeljito spremljanje in lažjo ter preglednejšo analizo aktivnosti na spletnih straneh, bi bilo nemogoče obdelati te zapise, ki jih je na bolj obiskanih straneh tudi po več tisoč dnevno. Informacije o tem kdo, kdaj, kako, od kod, s čim in kaj obiskuje na vaši strani, ne bodo več nobena skrivnost.
Programska oprema za analizo obiskovalcev
Spremljanje in analizo spletnih strani omogoča programska oprema, ki na podlagi zbranih podatkov v log datoteki, generira akumulirane statistike merjenja spletne predstavitve v določenem časovnem obdobju. Za enostavno merjenje in analizo obiskanosti spletnih predstavitev je na voljo širok spekter različnih možnosti, ki varirajo od preprostih števcev (npr.100si) do številnih brezplačnih (npr. Analog, Webalizer) in komercialnih (npr. WebTrends) programskih paketov.
Nekateri programi delujejo direktno preko interneta in so izredno preprosti za uporabo. Vse kar moramo storiti je to, da na vsako podstran namestimo nekaj programske kode, ki omogoča merjenje statistik. Obiskanosti vaše spletne strani lahko analizirate tudi s pomočjo programov, ki jih imate nameščene na vašem osebnem računalniku. V tem primeru vam mora ponudnik, kjer gostujejo vaše spletne strani, vsak mesec poslati dnevnik strežnika, na podlagi katerega s pomočjo programske opreme analizirate vaše spletne strani. Najenostavnejši način pa je, da vam statistiko obiskanosti vodi kar podjetje, pri kateremu imate zakupljen prostor na strežniku. Vsak resen ponudnik gostiteljstva ima namreč na svojih strežnikih nameščeno programsko opremo (npr. Webtrends) za analiziranje obiska spletnih strani. Ta možnost je cenovno zelo ugodna, z njo imate najmanj dela, pa še nobenih tehničnih znanj ne potrebujete. Statistike so vam torej v tem primeru v pregledni obliki z grafi dostopne kar preko interneta.
Terminologija
Ko boste začeli uporabljati programsko opremo za analizo obiskovalcev, boste v večini programov najpogosteje zasledili naslednje kategorije:
- Zadetki (hits): pomenijo število vseh datotek, ki jih je strežnik poslal obiskovalcem spletne strani. To število vključuje med drugim tudi vse grafične datoteke, ki se nahajajo na spletni strani. Zaradi tega se število zadetkov se ne more upoštevati kot relevanten podatek obiskanosti. Če v kakšnem časopisu vidite, da se podjetje v članku hvali s tem, da je imelo na stotisoče zadetkov, lahko torej mirno ugotovite, da hočejo le impresionirati nevedneže. Število zadetkov, ki jih zabeleži določena spletna stran, je pomembno le za analizo obremenitve strežnika.
- Dostopi (impressions):so ogledi na posamezni strani. Ponavadi gre za realizirane zahtevke po ogledu prve strani predstavitve (navadno index.html ali default.html).
- Obiski (sessions): predstavljajo dostopanje do spletne predstavitve v okviru ene uporabe. Gre za dostopanje, ki ni nastalo kot ponovljeno vračanje v okviru ene ‘seanse’ na spletu. Kadar se večkrat vrnemo na isto stran, se torej povečuje število dostopov, ne pa tudi število obiskov.
- Obiskovalci (unique visitors): nam povedo, koliko posameznikov je obiskalo spletno stran. Ta podatek je najboljši kazalec priljubljenosti spletne strani.
- Vpogledi (page views): pomenijo število podstrani, ki so si jih ogledali obiskovalci.
- Različni obiskovalci (unique users): nam povedo, koliko različnih obiskovalcev je bilo na strani v nekem obdobju.
- Različni obiskovalci I (unique users without cookies): število različnih uporabnikov, ki jih še lahko med seboj loči programska oprema na osnovi razpoložljivih podatkov o uporabniškem imenu, IP številki računalnika ter na osnovi kukijev (cookies), če so slednji seveda bili nameščeni na strežniku in tudi prilepljeni log datoteki. Ker omenjena kategorija ne upošteva kukijev, se število različnih uporabnikov približa številu različnih IP številk in ga presega kvečjemu za 20%.
- Različni obiskovalci II (unique users with cookies): število različnih uporabnikov v primeru, da strežnik inštalira kukije in jih tudi prilepi datoteki logov, se bistveno poveča. Razlog je seveda v tem, da program ločuje uporabnike glede na osebni računalnik, s katerega dostopajo in ne samo glede na IP številko, za katero se pogosto skrivajo večje skupine uporabnikov.
- Različne IP številke (unique IPs, distinct hosts served): število gostiteljskih računalnikov (hostov, ki imajo svojo posebno IP številko), ki obišče predstavitev. Število IP številk ne narašča s ponavljajočim obiskovanjem. Dostopanje z istim računalnikom ob različnih ‘seansah’ zato povečuje dostope in obiske, ne pa število IP. Ker pa lahko ena oseba dostopa do spletne predstavitve iz večih računalnikov (npr. iz službe in od doma) in ker lahko različne osebe dostopajo do spletne strani iz enega računalnika (npr. v knjižnici), se interpretacije – s katerimi želimo sklepati o številu obiskovalcev – seveda dodatno zapletejo.
Dejavniki, ki otežujejo merjenje
Da pa merjenje obiskanosti le ne bi bilo tako preprosto in enostavno, poskrbijo nekateri tehnični učinki, ki vplivajo tako na precenjenosti kot na podcenjenosti meritev. Zaradi tega ne moremo trditi, da so rezultati o obiskanosti spletnih predstavitev in aktivnostih uporabnikov interneta, popolnoma točni.
K precenjenosti lahko drastično prispevajo predvsem programi, ki križarijo po spletu (roboti, pajki, agenti) in na strežnikih puščajo sledi, ki so lahko zelo podobne sledem, ki jih puščajo obiskovalci. Spletne predstavitve obiskujejo v pogostih časovnih intervalih ter tako povečujejo število vpogledov, čeprav gre za vpoglede programov, ne pa ljudi. Spletne strani najpogosteje obiskujejo zato, da bi ustvarili indekse spletnih strani za potrebe iskalnikov (Google, Najdi.si, ). Osredotočeni so predvsem na iskanje in analizo tekstovnih vsebin, ki so pomembne za klasifikacijo strani in ustrezen vpis v indekse iskalnikov. Na ta način seveda umetno povečujejo število obiskov in povzročajo preglavice oglaševalcem, ki so zakupili npr. 1000 vpogledov v njihov oglas. Namesto potencialnih kupcev si oglas tako ogledujejo programi.
Nizke zmogljivosti infrastrukture (strežnik, povezava) in preveliko hkratno število obiskovalcev na spletni strani povzročajo zastoj v pretoku podatkov od spletnega strežnika do uporabnika. Zaradi nestrpnosti lahko zato uporabnik večkrat sproži zahtevo za priklic strani (stisne gumb “refresh” v brskalniku), dokler se celotna stran z vsemi grafikami ne naloži. Medtem pa se zabeleži v log datoteko vsaka zahteva za stran, kar znova vodi k precenjenemu številu vpogledov v spletno stran.
Ključni dejavnik, ki prispeva k podcenjenosti meritev pa so posredniški (proxy) strežniki, ki v veliki meri prikrijejo sledi komunikacije med spletnimi strežniki in obiskovalčevim brskalnikom. Proxy strežnik namreč shrani vsebino, ki se nahaja na izvornem spletnem strežniku v svoj pomnilnik (“cache”) in nato uporabnikom razpošilja kopije oziroma nadomestke izvirnih spletnih dokumentov. “Proxy” strežnik nadzira vse zahteve lokalnih odjemalcev do vseh zunanjih spletnih strežnikov in preverja, ali lahko določeni zahtevi zadosti že sam. Šele ko ugotovi, da zahtevanih vsebin nima v svojem pomnilniku (“cache”), posreduje zahtevo na izvorni spletni strežnik. Zaradi uporabe “proxy” strežnikov so še posebej problematična velika podjetja, sploh pa ponudniki dostopa do interneta, kjer lahko veliko število ljudi dostopa do spletnih strežnikov z enako IP-številko. Drugače povedano, za isto IP-številko se skriva večje število posameznikov, kar umetno znižuje število različnih uporabnikov. Po drugi strani pa tudi posamezniki obiskujejo spletne strani z več računalnikov, torej z različnimi IP-naslovi, kar pomeni, da jih program za analizo logov vsakič evidentira kot različne uporabnike.
Kljub temu, da obstaja več učinkov, ki vplivajo na precenjenost aktivnosti pa na splošno velja, da je aktivnost spletnih uporabnikov zaradi drastičnega vpliva “proxy” strežnikov podcenjena. Povsem verjetno pa je, da podcenjevanje obiskov obsega tretjino ali celo polovico obiskov, ki jih zaznajo običajne log datoteke.
Objavljeno v reviji Moj mikro