Nwlapcug.com


Come documenti di ragno

Se vuoi fare i documenti accessibili online, quindi si desidera ragno o indicizzarli. Web robot o ragni sono i più comunemente usati programmi, anche dai motori di ricerca come Google, per attraversare il Web l'indicizzazione del contenuto e raccolta di informazioni. A ragno o indice documenti richiederà che si crea un file "robots. txt". Questo file si trova nella directory principale del sito Web e consigli altri Spider e robot su ciò che di file e documenti di accesso. Robot contribuendo così a ridurre gli sprechi di risorse del server e contribuire ad eliminare il disordine dalle statistiche Web soprattutto per gli URL che sono stati spostati o rimossi.

Istruzioni

1

Fate una lista di tutti i documenti che si desidera indicizzare e quelli che non si desidera indicizzare.

2

Aperto Notepad e copiare le righe qui sotto:

Agente utente: *

Disallow: / images /

User-agent: Googlebot-Image

Disallow: images

Prima sezione in alto impedisce l'accesso alla cartella "immagini" in modo efficace la rimozione dall'indicizzazione di ragni.

La seconda sezione specifica che il ragno "Googlebot-Image" deve ignorare l'indicizzazione della cartella "immagini".

3

Aggiungere istruzioni di "Disallow" come molti come si preferisce a seconda le cartelle che si desidera ignorare durante l'indicizzazione. Fare riferimento all'elenco che precedentemente create per garantire che nessuna cartella è perso.

4

Specificare file specifici che si desidera ignorare durante l'indicizzazione come indicato di seguito:

Agente utente: *

Disallow: /documents/ehow.txt

Le dichiarazioni di cui sopra verranno dirà tutti i ragni per evitare l'indicizzazione del file "ehow.txt" che si trova all'interno della cartella "Documenti".

La dichiarazione di cui sopra possa essere replicata allo stesso modo per tutti gli altri documenti che devono essere ignorati durante l'indicizzazione.

5

Salvare il file di cui sopra come "robots. txt" e caricarlo nella directory principale del sito Web.

Consigli & Avvertenze

  • Un file di protocollo sito mappe può essere utilizzato per fornire motori di ricerca un elenco di tutte le pagine presenti sul tuo sito Web. In alternativa, se si desidera che tutte le cartelle indicizzate sul tuo sito Web, è possibile creare un file robots. txt con le seguenti informazioni:
  • Agente utente: *
  • Disallow:
  • Per bloccare una particolare spider di indicizzare i documenti, controllare il sito web motore di ricerca per scoprire il robot nome e dettagli su come evitare che l'accesso a file e directory.
  • Se avete una segreta directory che si desidera ignorare durante l'indicizzazione, non elencati nel file "robots. txt". Spammer e hacker possono facilmente accedere al file "robots. txt" e leggere il contenuto.