Nwlapcug.com


Come GoogleBot sa quando viene modificata una pagina?

Come GoogleBot sa quando viene modificata una pagina?


Spider di Google, noto anche come il Googlebot, per esplorare il Web su un proprio calendario, determinare quali pagine vengono modificate e richiedono la reindicizzazione confrontandoli con l'indice esistente. Anche se questo processo avviene molto rapidamente, è utile per conoscere quali spunti Googlebot utilizza per cercare pagine aggiornate e i problemi che può verificarsi.

Frequenza di Googlebot

Spider di Google per esplorare il Web molto rapidamente; molti siti sono visitati ogni giorno. Non significa che le ricerche per indicizzazione spider tutte le pagine aggiornate, tuttavia. L'algoritmo utilizzato da Google per determinare la frequenza di scansione include variabili quali il rank della pagina, il numero di link che puntano alla pagina, informazioni nella mappa del sito e anche la lunghezza dell'URL. Una pagina specifica può essere aggiornata nell'indice di Google entro ore, mentre un altro potrebbe non essere aggiornato per diversi giorni, a seconda di queste variabili.

Sitemap

Una stecca che Googlebot utilizza per determinare la freschezza del tuo sito è file sitemap, un documento XML contenente entrambe le pagine importanti sul tuo sito e la frequenza con cui è probabile che per aggiornarli. È possibile creare una sitemap utilizzando un numero di strumenti online, tra cui servizi Web gratuiti e plug-in di WordPress, caricarlo a livello root del tuo sito e inviarla a Google tramite Google Webmaster Tools o il seguente URL:

http://www.Google.com/webmasters/sitemaps/ping?Sitemap=http :// www.YourSite.com/sitemap.xml

Intestazione If-modified-since

Un altro spunto è nell'intestazione HTTP del server Web del tuo sito. Chiamato l'intestazione "if-modified-since", quando il Googlebot raggiunge la tua pagina, ti verrà chiesto il server se la pagina è stata aggiornata dall'ultima visita. Se così, o quando la pagina è nuova di zecca, il server restituisce un "200 OK" risposta. Se la pagina non è stata cambiata, questa intestazione restituisce la risposta "304 non modificato," risparmiando il tempo di Googlebot e risparmiare larghezza di banda. Problemi di configurazione con il server Web potrebbero causare problemi con questa intestazione e impedire che il ragno strisciare la tua pagina. È possibile controllare per l'intestazione if-modified-since con uno strumento online presso Feedthebot.com.

Strumenti per i webmaster

Google ha sviluppato il sito di strumenti per i Webmaster per aiutare i proprietari del sito monitorare visite di Googlebot pure quanto a vedere indicizzazione errori ed altri problemi che possono impedire il Google indicizzazione pagine aggiornate. Strumenti per i webmaster include anche strumenti per la presentazione delle tue Sitemap, presentazione di singole pagine per l'indicizzazione e la rimozione di URL non volete comparire nell'indice di Google. C'è anche uno strumento che consenta di verificare il tuo file robots. txt, che avverte i ragni lontano pagine che non vuoi indicizzate.

Contenuto di AJAX

Anche se AJAX aggiorna dinamicamente un pagina Web on-the-fly, Googlebot vede solo il codice HTML della pagina e non esegue il codice JavaScript. Se vuoi Google indice aggiornamenti effettuati utilizzando le funzionalità AJAX della tua pagina, è necessario includere codice HTML alternativo per il ragno. Google offre un metodo mediante il quale è in grado di offrire una versione alternativa del contenuto di AJAX per Googlebot.