Appena Blogger ha fornito le statistiche integrate, in molti hanno subito notato come ci siano delle differenze con i valori segnalati da Google Analytics.
Le stesse differenze saltano subito all’occhio appena si confrontano tra di loro anche altri strumenti: alcuni segnano più visitatori o pagine visualizzate di altri che invece sembrano “perdere qualche passaggio”. Questo fenomeno mi viene fatto spesso notare ed erroneamente si tende a considerare che gli strumenti di analisi del traffico più “generosi” siano quelli più precisi, ma non è detto che sia così.
Cerchiamo di capire come funzionano le statistiche e perchè possono esserci queste differenze.
Come funzionano le statistiche.
Quando un utente si collega a un sito, sul server che lo ospita viene registrata la visita in un apposito file di log. Nelle piattaforme come Blogger, gli autori dei blog non hanno la possibilità di accedere a questi file di log e devono ricorrere a strumenti esterni, come Google Analytics, che si basano su javascript che vengono caricati quando si visualizzano le pagine. Entrambe le tipologie di analisi del traffico “catalogano” gli utenti generalmente in base al loro IP, cioè all’indirizzo assegnato al loro computer quando si collegano a internet, che può essere fisso o variabile.
Il problema di queste registrazioni è innanzitutto discernere i visitatori umani da quelli non umani, e successivamente capire come distinguere un visitatore univoco da uno non univoco.
Visitatori non umani.
Tutto quello che è collegato alla rete viene continuamente scansionato. Anche il vostro computer in questo momento. Se poteste tirare fuori un log dettagliato dal vostro firewall vedreste, per fare un esempio, che l’università di New York o magari di Bologna hanno controllato le porte del vostro pc. Questo avviene anche per i server e anche per i siti internet.
Un esempio lampante è Google, il motore di ricerca: per indicizzare le nostre pagine ha bisogno di “leggerle”, e agli occhi del server è un visitatore come qualsiasi altro, visto che per “leggere” le pagine utilizza un programma equivalente al nostro browser.
Come Google, ci sono moltissimi programmi che girano continuamente la rete “leggendo” tutti i siti, per fini statistici a scopi commerciali, o magari per cercare indirizzi di posta elettronica (avete presente le mail sul Viagra provenienti da siti che non avete mai neanche visto?).
Qualsiasi programma serio di analisi del traffico ovviamente scarta queste visite, ma qui sta il primo problema, ovvero riconoscere quali sono i visitatori non umani. Nel caso di Google è facile, in molti altri casi è meno facile. Ogni strumento applica i propri filtri - diversi da quelli degli altri - e già qui cominciano a nascere le prime differenze.
Visitatori umani.
Nel caso di visitatori umani, subentrano problemi di interpretazione dei dati. Per esempio, se visualizzo dieci volte di seguito una pagina, è giusto che gli strumenti di analisi del traffico indicano un valore di pagine visualizzate pari a dieci? E se entro ed esco da un sito, per poi rientrarci, come dovrò figurare? Come un unico visitatore che ha fatto una visita, come un visitatore che è tornato, o come due distinti visitatori?
E se mi sono collegato la mattina, e poi sono tornato la sera, devono essere registrati due diversi visitatori e/o due diverse visite? Le statistiche si basano sugli indirizzi IP, che possono però cambiare col tempo costringendo ad azzerare i dati raccolti per ognuno di essi... ma dopo quanto tempo? Un’ora? Un giorno? Un mese?
Google Analytics e molti altri distinguono tra visitatori nuovi e visitatori che tornano, ma visto che l’indirizzo IP cambia e queste registrazioni non possono essere assolute, bisogna stabilire un lasso di tempo arbitrario dopo il quale un determinato IP diventa di nuovo visitatore “unico”.
Prendiamo a confronto Google Analytics e Shinystat: se io esco e rientro da un sito dieci volte di seguito e sempre navigando nella stessa pagina nell’arco di un minuto, Analytics segnalerà molto probabilmente una visita e una pagina visualizzata. Shinystat (se non è cambiato da un paio d’anni a questa parte) segnala dieci visite e dieci pagine visualizzate.
Quale dei due è più attendibile? Dipende dallo scopo delle statistiche. Se quello che noi vogliamo è un semplice contatore da esibire, Shinystat è lo strumento perfetto, ma in un ambito più professionale ci interessano informazioni che indichino in maniera più attendibile il trend di visitatori e le pagine visualizzate. Questo problema è particolarmente sentito quando si parla di monetizzazione del sito.
Analisi del traffico da parte dei motori pubblicitari (esempio AdSense).
Nel caso di AdSense o simili, la restrizione è ancora più forte, e molto probabilmente (ma non sempre) le statistiche di AdSense sono le meno generose.
Chi investe denaro per fare vedere la propria pubblicità a un essere umano, non pagherà dieci volte solo perchè lo stesso utente è entrato e uscito dieci volte nell’arco di un minuto. Perchè la pubblicità l’ha già vista in quell’arco di tempo e non è necessariamente più efficace solo perchè la vede più volte di seguito. Per esempio potrei avere un problema col pc, per questo esco e rientro, e in questo caso anzi noto ancora meno la pubblicità. Oppure il sito potrebbe avere un meccanismo di aggiornamento automatico della pagina (magari fatto apposta per far aumentare le pagine visualizzate).
Chi paga non vuole fregature, ecco perchè molti dati dubbi vengono tagliati. Poi magari siamo io e mia moglie su due diversi pc che visitiamo lo stesso sito, ma nel dubbio uno dei due viene ignorato.
Le stesse differenze saltano subito all’occhio appena si confrontano tra di loro anche altri strumenti: alcuni segnano più visitatori o pagine visualizzate di altri che invece sembrano “perdere qualche passaggio”. Questo fenomeno mi viene fatto spesso notare ed erroneamente si tende a considerare che gli strumenti di analisi del traffico più “generosi” siano quelli più precisi, ma non è detto che sia così.
Cerchiamo di capire come funzionano le statistiche e perchè possono esserci queste differenze.
Come funzionano le statistiche.
Quando un utente si collega a un sito, sul server che lo ospita viene registrata la visita in un apposito file di log. Nelle piattaforme come Blogger, gli autori dei blog non hanno la possibilità di accedere a questi file di log e devono ricorrere a strumenti esterni, come Google Analytics, che si basano su javascript che vengono caricati quando si visualizzano le pagine. Entrambe le tipologie di analisi del traffico “catalogano” gli utenti generalmente in base al loro IP, cioè all’indirizzo assegnato al loro computer quando si collegano a internet, che può essere fisso o variabile.
Il problema di queste registrazioni è innanzitutto discernere i visitatori umani da quelli non umani, e successivamente capire come distinguere un visitatore univoco da uno non univoco.
Visitatori non umani.
Tutto quello che è collegato alla rete viene continuamente scansionato. Anche il vostro computer in questo momento. Se poteste tirare fuori un log dettagliato dal vostro firewall vedreste, per fare un esempio, che l’università di New York o magari di Bologna hanno controllato le porte del vostro pc. Questo avviene anche per i server e anche per i siti internet.
Un esempio lampante è Google, il motore di ricerca: per indicizzare le nostre pagine ha bisogno di “leggerle”, e agli occhi del server è un visitatore come qualsiasi altro, visto che per “leggere” le pagine utilizza un programma equivalente al nostro browser.
Come Google, ci sono moltissimi programmi che girano continuamente la rete “leggendo” tutti i siti, per fini statistici a scopi commerciali, o magari per cercare indirizzi di posta elettronica (avete presente le mail sul Viagra provenienti da siti che non avete mai neanche visto?).
Qualsiasi programma serio di analisi del traffico ovviamente scarta queste visite, ma qui sta il primo problema, ovvero riconoscere quali sono i visitatori non umani. Nel caso di Google è facile, in molti altri casi è meno facile. Ogni strumento applica i propri filtri - diversi da quelli degli altri - e già qui cominciano a nascere le prime differenze.
Nel caso di visitatori umani, subentrano problemi di interpretazione dei dati. Per esempio, se visualizzo dieci volte di seguito una pagina, è giusto che gli strumenti di analisi del traffico indicano un valore di pagine visualizzate pari a dieci? E se entro ed esco da un sito, per poi rientrarci, come dovrò figurare? Come un unico visitatore che ha fatto una visita, come un visitatore che è tornato, o come due distinti visitatori?
E se mi sono collegato la mattina, e poi sono tornato la sera, devono essere registrati due diversi visitatori e/o due diverse visite? Le statistiche si basano sugli indirizzi IP, che possono però cambiare col tempo costringendo ad azzerare i dati raccolti per ognuno di essi... ma dopo quanto tempo? Un’ora? Un giorno? Un mese?
Google Analytics e molti altri distinguono tra visitatori nuovi e visitatori che tornano, ma visto che l’indirizzo IP cambia e queste registrazioni non possono essere assolute, bisogna stabilire un lasso di tempo arbitrario dopo il quale un determinato IP diventa di nuovo visitatore “unico”.
Prendiamo a confronto Google Analytics e Shinystat: se io esco e rientro da un sito dieci volte di seguito e sempre navigando nella stessa pagina nell’arco di un minuto, Analytics segnalerà molto probabilmente una visita e una pagina visualizzata. Shinystat (se non è cambiato da un paio d’anni a questa parte) segnala dieci visite e dieci pagine visualizzate.
Quale dei due è più attendibile? Dipende dallo scopo delle statistiche. Se quello che noi vogliamo è un semplice contatore da esibire, Shinystat è lo strumento perfetto, ma in un ambito più professionale ci interessano informazioni che indichino in maniera più attendibile il trend di visitatori e le pagine visualizzate. Questo problema è particolarmente sentito quando si parla di monetizzazione del sito.
Analisi del traffico da parte dei motori pubblicitari (esempio AdSense).
Nel caso di AdSense o simili, la restrizione è ancora più forte, e molto probabilmente (ma non sempre) le statistiche di AdSense sono le meno generose.
Chi investe denaro per fare vedere la propria pubblicità a un essere umano, non pagherà dieci volte solo perchè lo stesso utente è entrato e uscito dieci volte nell’arco di un minuto. Perchè la pubblicità l’ha già vista in quell’arco di tempo e non è necessariamente più efficace solo perchè la vede più volte di seguito. Per esempio potrei avere un problema col pc, per questo esco e rientro, e in questo caso anzi noto ancora meno la pubblicità. Oppure il sito potrebbe avere un meccanismo di aggiornamento automatico della pagina (magari fatto apposta per far aumentare le pagine visualizzate).
Chi paga non vuole fregature, ecco perchè molti dati dubbi vengono tagliati. Poi magari siamo io e mia moglie su due diversi pc che visitiamo lo stesso sito, ma nel dubbio uno dei due viene ignorato.
Commenti
Posta un commento