Nwlapcug.com


Che cosa è Spider Software?

Ragno è software che in modo autonomo o senza controllo dall'esterno, "striscia" da una pagina sul World Wide Web. Ragno il software è in genere utilizzato dai motori di ricerca, come Yahoo e Google, per creare un indice sono aggiornato, locale delle pagine Web che il motore di ricerca puoi cercare più velocemente del Web stesso.

Come funziona il Software Spider

Software di ragno inizia in genere con uno o più indirizzi Web, corrispondenti al ben noto, spesso visitato le pagine Web, nota come semi. Il software sceglie uno di questi Web indirizzi e recupera o download, la pagina Web associate con esso. Un modulo all'interno del software di ragno estrae il contenuto dalla pagina, memorizza in un database e gli indici per riferimento futuro. Un altro modulo aggiunge collegamenti esterni..--cioè, link ad altre pagine Web-- a un elenco chiamato una frontiera di URL, in modo che il ragno può strisciare uno per uno.

Norme comportamentali

Software di ragno è in genere in grado di indicizzazione milioni di pagine Web in un periodo molto breve di tempo, ma l'enorme volume di World Wide Web significa che software di ragno non può possibilmente ogni pagina di download. Ragno software utilizza pertanto un insieme di criteri comportamentali per determinare quali pagine Web che Scarica e quanto spesso ricerca per indicizzazione quelle pagine per la ricerca di contenuto aggiornato. Il software può, ad esempio, scaricare solo pagine che corrispondano a un argomento predefinito o set di argomenti o escludono pagine cui contenuto è diverso da testo statico Hypertext Markup Language (HTML).

La ricerca per indicizzazione

Se proprietari di siti Web desidera ragno software strisciare i loro siti Web, possono includere tag scritti in HTML, il protocollo standard per la formattazione e la visualizzazione di documenti sul Web..--su ogni pagina Web. Tag HTML descrivono il contenuto della pagina e dire al software di ragno come per l'indicizzazione. In alternativa, se il titolare del sito non vogliono i loro siti Web la ricerca per indicizzazione..--o il contenuto non è adatto per la scansione..--possono includere un protocollo di esclusione robot, in un file chiamato "robot. txt," dire spider software non ricerca per indicizzazione di una pagina o pagine.

Utilizza

Molti motori uso ragno software di ricerca. Oltre a creare uno snapshot del World Wide Web in qualsiasi momento, ragno software può anche generare statistiche o semplicemente convalidare la struttura e i link delle pagine Web per scopi di amministrazione. Tuttavia, software di ragno può anche raccogliere informazioni specifiche, compresi gli indirizzi e-mail, quali individui senza scrupoli e gruppi utilizzano per inondare il Web con messaggi di posta elettronica non richiesti, spazzatura, altrimenti noto come spam.