Nwlapcug.com


Definire i ragni sul Computer

Definire i ragni sul Computer


Anche se Web Spider sono semplicemente gli script in esecuzione su un computer connesso a Internet, il loro nome ha una connotazione sinistra a causa del suo omonimo otto zampe. Di conseguenza, persone spesso hanno un numero di idee sbagliate sui ragni e il modo in cui essi operano. Nella maggior parte dei casi, i ragni sono utili al tuo sito Web, aiutare le persone a trovare voi e le informazioni che stanno cercando. Alcuni ragni sono parassiti e rubano il contenuto. È possibile bloccare questi ragni di accedere al sito.

Quali sono i ragni?

In termini di calcolo, i ragni sono script automatizzati che la scansione del Internet e recuperare le informazioni. Ragni iniziano con un set di indirizzi di seme da visitare e inviano le richieste Web standard per scaricare pagine da quegli indirizzi. Il ragno analizza la pagina ed estrae le informazioni di destinazione. Nuovi indirizzi trovati da link sulle pagine scaricate vengono aggiunti al proprio database e nel tempo, quelle pagine sono ricerca per indicizzazione e il processo continua. In questo modo il ragno navigare automaticamente il suo modo tutto il Web, utilizzando le informazioni che e ' programmato per raccogliere per espandere il relativo database.

Come funzionano i ragni?

Ragni in genere recupero grandi quantità di informazioni mentre attraversano Internet, così al fine di evitare l'esaurimento delle risorse in termini di larghezza di banda e storage space, il ragno utilizza un insieme di regole a ricerca per indicizzazione in modo intelligente. L'autore dei programmi script queste regole nello script, per determinare quanti livelli profondi in un sito Web il ragno si recheranno, e come spesso il ragno rivisita il sito per controllare i contenuti aggiornati. Ragni automatizzati possono generare molte più richieste Web di un essere umano possa entro un breve periodo, e questo può influire negativamente sulle prestazioni di siti Web. L'autore dello scritto solitamente evita questo scenario da richieste di sconcertante, in modo che il proprietario del sito non ha alcun motivo per bloccare il ragno.

Perché vengono utilizzati i ragni?

I ragni hanno molti scopi, ma sono principalmente raccoglitori di informazioni. Tutti i motori di ricerca si basano su ragni per eseguire la scansione del Web al fine di creare un indice di ricerca, e senza ragni, impostare siti come Google o Yahoo fornirebbe un risultato molto più piccolo. Siti di comparazione prezzi usare gli spider per trovare fornitori che vendono prodotti selezionati, i siti web su base regolare per mostrare gli ultimi prezzi di scansione. Anche se i ragni hanno molti legittimi e utilizzi benefici, sono utilizzati anche per scopi dannosi, come la scansione di siti Web alla ricerca di indirizzi email a vendere per l'e-mail marketing. Altri ragni possono ricerca per indicizzazione di siti Web alla ricerca di script sfruttabili e software con vulnerabilità note, al fine di lanciare un attacco e rubare dati privati.

Ragni di blocco

È possibile bloccare gli spider dei motori di ricerca dallo strisciare il vostro sito Web creando un file robots. txt. Si tratta di un file di testo memorizzato nella directory principale del tuo sito Web, che consente di impartire istruzioni ai crawler compiacente per controllare il loro comportamento quando visitano il tuo sito. Si può indirizzare singoli ragni, o utilizzare istruzioni generali per indirizzare tutti i ragni. Uno dei problemi con questo approccio è che la conformità è volontaria, e bot solo legittimo obbedire alle regole. Ragni dannosi semplicemente ignorerà le regole, quindi è necessario un metodo alternativo di bloccarli. Come i ragni sono semplicemente gli script, che solitamente corrono da una base statica, così le richieste provengono dallo stesso indirizzo IP. Se trovi un ragno che visitano il tuo sito utilizzando il file di registro di siti, si vede il suo indirizzo IP, che è quindi possibile bloccare per interrompere il ragno di accedere al sito.