Cos’è uno spider, crawler o robot?

Cos’è uno spider, crawler o robot? I motori di ricerca usalo lo spider, un programmino fatto apposta, per analizzare i siti web che gli vengono segnalati. Spider, in inglese, significa ragno e come un ragnetto percorre tutti i link delle pagine del sito web; le analizza e memorizza i contenuti che ritiene rilevanti per una ricerca.

Questi risultati vengono memorizzati in un database a cui il motore attinge quando gli viene fatta una richiesta. E’ da questo database che prende le decisioni sulla posizione da assegnare ad un sito web in SERP in base alla parola chiave con cui si fa la ricerca. In definitiva lo scopo per cui memorizza queste informazioni è quello di valutare un sito web per poi posizionarlo.

E’ bene, al fine di agevolare la navigazione del sito web agli spider, organizzarlo secondo alcune regole: una per tutte è quella di inserire i link per arrivare a tutte le pagine nella home page in modo che il robot ci arrivi direttamente dalla home page.

Cosa non legge lo spider.

Quando lo spider analizza la pagina web trova alcuni elementi che non è in grado di analizzare ad esempio immagini, animazioni flash e codice javascript; per le immagini ci sono dei sistemi alternavi per far in modo che vengano riconosciute dal robot: si mettono informazioni alternative che hanno anche un altra funzionalità relativa all’accessibilità ed usabilità.

Se sappiamo come funziona uno spider si riesce anche ad agevolarlo nella lettura delle pagine e far si che venga attribuito un buon punteggio; ad esempio si possono dare istruzioni su quali pagine analizzare e quali no inserendo una lista nel file robot.txt ed addirittura bloccare l’accesso ad alcuni spider. Questo file va inserito nello spazio web che ospita il sito e comunicato al motore di ricerca. La nota dolente è che non sempre il motore di ricerca ci da retta, cioè anche se gli diciamo di non analizzare il sito o alcune sue pagine potrebbe lo stesso analizzarle. Comunque è sempre bene negare l’accesso alle pagine di amministrazione del sito, ai database ed in generale a tutte le aree sensibili del sito.

I principali robots cui fare riferimento sono:

googlebot di Google

scooter di Altavista

yahoo!slurp di Yahoo.

 

Potrebbe interessarti Come funzionano i motori di ricerca.

Leggi anche Che cosa è il PageRank e il TrustRank

Precedente Come funzionano i motori di ricerca. Successivo Che cosa è il PageRank e il TrustRank