Nwlapcug.com


Come creare un File robots. txt per il tuo sito Web

Il file robots. txt fornisce linee guida per qualsiasi robot Web scansione del tuo sito. Motori di ricerca come Google e Bing utilizzano robot Web per indicizzare automaticamente sul Web. Per impostazione predefinita, robot indicizzazione dell'intero sito Web. Tuttavia, la maggior parte siti Web includono i file che non sono destinati ad essere sottoposti a scansione perché non erano stati progettati come una parte dell'esposizione del sito o per motivi amministrativi. Il file robots. txt indica quali directory non dovrebbero essere sottoposti a scansione. Tenete a mente che i robot malware e altri programmi progettati per eseguire la scansione per i sistemi vulnerabili ignorerà il file, quindi non usarlo come una misura di sicurezza.

Istruzioni

1

Aprire un programma di elaborazione di testo come blocco note. Digitare la seguente riga nella parte superiore del file:

Agente utente: *

Ciò si applica tutte le regole che seguono per tutti i robot.

2

Aggiungere una riga disallow per ogni directory che non volete indicizzazione:

Disallow: /administrator

Questa riga disallow racconta il robot che non volete entrare nella directory che segue, non includono il tuo URL intero in questa linea. Ad esempio, per disabilitare il "mysite.com/dontcrawl", si digiterà "Disallow: /dontcrawl" nel file robots. txt.

3

Aggiungere una riga disallow aggiuntive per ogni directory che non volete a ricerca per indicizzazione. Non inserire più di una directory per ogni riga. È anche possibile impedire un file specifico o una pagina inserendo il nome esatto del file.

4

Salvare il file come file robots. txt sul tuo computer. Il nome del file deve essere tutto minuscolo. Caricare il file nella directory principale del tuo sito Web utilizzando FTP o strumenti del tuo host Web.

Consigli & Avvertenze

  • Se il vostro hosting provider non consente di modificare o di avere il tuo file robots. txt, si deve inserire una richiesta con loro per inserire un file personalizzato per il tuo sito sui loro server.
  • Tecnicamente, si indica i motori di ricerca cosa possono vedere e indice, dicendo loro cosa non guardare.
  • Non avendo un file robots. txt sul tuo sito, motori di ricerca si supponga che tutto sia OK di indice.
  • Controllare il file robots. txt su altri siti per vedere che cosa bloccano (inclusi motori di ricerca)
  • Per informare i ragni non indice un'intera directory, assicurarsi di seguire il nome della directory con una barra rovesciata. IE: /directory/. La barra rovesciata indica il robot che si tratta di una directory.
  • Anche se la maggior parte dei robot in esecuzione dal server UNIX, è una buona idea per assicurarsi che qualsiasi directory o file denominati nel file robots. txt sono esattamente lo stesso caso come nome del file sul server. (windows server eseguiranno il server dei nomi di file di maiuscole e minuscole), i server UNIX servirà anche i nomi di file case mista, purché siano configurati per farlo.
  • è consigliabile denominare tutti i file con combinazioni di lettera lettere minuscole non importa quale piattaforma server sei su.
  • File robots. txt generato auto che inviare nulla tranne il testo potrebbe fare un motore di ricerca di non indicizzare il tuo sito.
  • Se l'invio di file robots. txt generato automaticamente e la pagina HTML indietro su richiesta, motori di ricerca non possono indicizzare il tuo sito.