Nwlapcug.com


Come creare un Robot Web

Come creare un Robot Web


Anche se sembra inverosimile, bloccando gli spider dei motori di ricerca con i robot è in realtà quello che fa un file robot. txt. Motori di ricerca utilizzano i ragni (o robot o bot) per strisciare o indicizzare il tuo sito Web, alla ricerca di parole chiave da utilizzare per portare il tuo sito Web in una ricerca. Un file robot. txt è un file che è possibile creare facilmente per comunicare il ragno che non volete farlo strisciare sulla tua pagina, o parte della tua pagina.

Istruzioni

1

Aprite il vostro editor di testo preferito. Non importa quale editor di testo che si utilizza. Blocco note funziona bene se siete su un PC e può essere trovato nella sezione "Accessori".

2

Immettere due righe, una per il nome del ragno che sarà strisciare la tua pagina web e uno per la directory o il nome di file per la ricerca che si desidera escludere. Questa è la sintassi:

User-Agent: [nome Spider o Bot]
Disallow: [Nome File o Directory]

Per esempio:

User-Agent: Googlebot
Disallow: /mywebsite/private.html

dove "Googlebot" è il robot inviato da Google, e "private.html" è il file nella directory "mywebsite" che non si desidera che il robot per indice.

3

Escludere una sezione del tuo sito da tutti i ragni. Se non si desidera qualsiasi robot di indicizzare una determinata sezione del sito, utilizzare il "*" carattere dopo User-Agent. Il tuo file sarebbe simile a questa:

User-Agent: *
Disallow: /mywebsite/private.html

4

Escludere l'intero sito da tutti i robot. Se non si desidera qualsiasi del tuo sito sia visibile da robot, (ad es. Se si sta creando il tuo sito Web, e non è pronto per essere visualizzato dal pubblico), inserire un "*" carattere dopo User-Agent e "/" dopo Disallow. Per esempio:

User-Agent: *
Disallow: /

5

Se si desidera consentire tutti i robot di accedere al sito intero, basta aggiungere l'asterisco come prima e lasciare la sezione Disallow vuota, come segue:

User-Agent: *
Disallow:

6

Salvare il file come txt e posizionarlo nella directory principale del tuo sito Web. Ad esempio, http://www.mywebsite.com/robots.txt.

Consigli & Avvertenze

  • Questa tecnica non è una misura di sicurezza. Pagine che non vengono indicizzate ancora possono accedervi. Ci sono centinaia di bot là fuori, alcuni dei quali non rispettare i vostri desideri e cercherà in ogni caso le sezioni riservate dei vostri siti. Ancora altri sono progettati per cercare solo quelle sezioni riservate.
  • Se si limita l'intero sito, mentre è in costruzione, ricordarsi di sollevare tale restrizione quando il sito è pronto per la visualizzazione di modo che può essere indicizzato.