Il file robots. txt fornisce linee guida per qualsiasi robot Web scansione del tuo sito. Motori di ricerca come Google e Bing utilizzano robot Web per indicizzare automaticamente sul Web. Per impostazione predefinita, robot indicizzazione dell'intero sito Web. Tuttavia, la maggior parte siti Web includono i file che non sono destinati ad essere sottoposti a scansione perché non erano stati progettati come una parte dell'esposizione del sito o per motivi amministrativi. Il file robots. txt indica quali directory non dovrebbero essere sottoposti a scansione. Tenete a mente che i robot malware e altri programmi progettati per eseguire la scansione per i sistemi vulnerabili ignorerà il file, quindi non usarlo come una misura di sicurezza.
Istruzioni
1
Aprire un programma di elaborazione di testo come blocco note. Digitare la seguente riga nella parte superiore del file:
Agente utente: *
Ciò si applica tutte le regole che seguono per tutti i robot.
2
Aggiungere una riga disallow per ogni directory che non volete indicizzazione:
Disallow: /administrator
Questa riga disallow racconta il robot che non volete entrare nella directory che segue, non includono il tuo URL intero in questa linea. Ad esempio, per disabilitare il "mysite.com/dontcrawl", si digiterà "Disallow: /dontcrawl" nel file robots. txt.
3
Aggiungere una riga disallow aggiuntive per ogni directory che non volete a ricerca per indicizzazione. Non inserire più di una directory per ogni riga. È anche possibile impedire un file specifico o una pagina inserendo il nome esatto del file.
4
Salvare il file come file robots. txt sul tuo computer. Il nome del file deve essere tutto minuscolo. Caricare il file nella directory principale del tuo sito Web utilizzando FTP o strumenti del tuo host Web.
Consigli & Avvertenze
- Se il vostro hosting provider non consente di modificare o di avere il tuo file robots. txt, si deve inserire una richiesta con loro per inserire un file personalizzato per il tuo sito sui loro server.
- Tecnicamente, si indica i motori di ricerca cosa possono vedere e indice, dicendo loro cosa non guardare.
- Non avendo un file robots. txt sul tuo sito, motori di ricerca si supponga che tutto sia OK di indice.
- Controllare il file robots. txt su altri siti per vedere che cosa bloccano (inclusi motori di ricerca)
- Per informare i ragni non indice un'intera directory, assicurarsi di seguire il nome della directory con una barra rovesciata. IE: /directory/. La barra rovesciata indica il robot che si tratta di una directory.
- Anche se la maggior parte dei robot in esecuzione dal server UNIX, è una buona idea per assicurarsi che qualsiasi directory o file denominati nel file robots. txt sono esattamente lo stesso caso come nome del file sul server. (windows server eseguiranno il server dei nomi di file di maiuscole e minuscole), i server UNIX servirà anche i nomi di file case mista, purché siano configurati per farlo.
- è consigliabile denominare tutti i file con combinazioni di lettera lettere minuscole non importa quale piattaforma server sei su.
- File robots. txt generato auto che inviare nulla tranne il testo potrebbe fare un motore di ricerca di non indicizzare il tuo sito.
- Se l'invio di file robots. txt generato automaticamente e la pagina HTML indietro su richiesta, motori di ricerca non possono indicizzare il tuo sito.