Nwlapcug.com


Come evitare i controlli di Bot

Come evitare i controlli di Bot


Motori di ricerca come Google e Bing generano i collegamenti sui loro siti utilizzando programmi automatizzati per setacciare Internet per link e contenuti. Questi programmi, conosciuti come i bot, crawler o Spider, visita un sito Web quando il proprietario del sito Web presenta l'URL al motore di ricerca o siti Web visitati da ricerca bot link a un altro sito. Proprietario di un sito Web non desidera il suo sito Web, o parti del suo sito Web, per essere elencati in un motore di ricerca. Per consentire ai proprietari di nascondere parti del loro sito Web, motori di ricerca cercano un file chiamato robots. txt immediatamente dopo la visita di un nuovo sito Web.

Istruzioni

1

Aprire un editor di testo, ad esempio Blocco note di Microsoft.

2

Digitare quanto segue per impedire qualsiasi motori di ricerca di indicizzare tutte le aree del tuo sito.

Agente utente: *

Disallow: /

3

Modificare il valore di "User-agent" per il nome di un motore di ricerca ' ragno o Spider di ricerca multipli per creare regole in particolare per quei motori di ricerca. Modificare il valore di "Disallow" ai nomi di directory specifiche per bloccare i bot di accedere solo le directory, consentendo loro di attraversare il resto del sito. Aggiungere più righe di "User-agent" per creare diversi "Disallow" comandi per diversi motori di ricerca. Ad esempio, le seguenti righe bloccare la maggior parte dei motori di ricerca da tutte le parti di un sito Web, ma permette accesso illimitato di bot di Google, ad eccezione di due directory:

Agente utente: *

Disallow: /

User-agent: Googlebot

Disallow: /private/

Disallow: /secret/

4

Salvare il file di testo con il nome "robots. txt" esattamente. Non aggiungere capitalizzazione o altre modifiche al nome del file.

5

Caricare il file nella directory radice principale per il tuo sito, dove il "principale", "benvenuto" o "indice" si trova in genere. Verificare che l'indirizzo web per il file finisce per separata dal titolo della tua pagina di pagina una singola barra rovesciata (www.example.com/robots.txt). Evitare di mettere il file in un'altra directory, come robot solo controllare la directory principale per le istruzioni del file robots. txt.

Consigli & Avvertenze

  • L'asterisco è un comando speciale in robots. txt che chiama tutti i bot di ricerca. Non può essere utilizzato come un comando di "wild card" in qualsiasi altro modo.
  • È possibile nascondere pagine specifiche, nonché le directory digitando il percorso della directory del file. Per esempio, il seguente testo nasconde solo la pagina di "nospiders.html" si trova nella directory "segreto": "Disallow: /secret/nospiders.html".
  • Modificare il nome del file o inserirlo in qualsiasi directory diversa dalla directory radice causerà bot ignorare le indicazioni nel file.