Il termine spider è ormai ampiamente diffuso quando si parla della scansione di un sito web liberamente accessibile su Internet, aziendale o privato poco importa. Devi sapere che tutto l’ecosistema che fa parte di quello che una volta era definito il World Wide Web si basa su un requisito fondamentale: l’accessibilità.
kansas state football uniforms florida jersey justin jefferson lsu jersey florida jersey penn state jersey college football jerseys kansas state football uniforms johnny manziel jersey kansas state football uniforms custom ohio state jersey deuce vaughn jersey fsu jersey kansas state football uniforms purdy jersey college football jerseys
Se ci pensi, ogni volta che sei alla ricerca di una qualche informazione probabilmente utilizzerai i motori di ricerca per individuare la risorsa Internet più appropriata rispondere alle tue domande. Ma come fa esattamente Google a capire qual è la pagina web che meglio risponde a ciò che chiedi? Semplice, sfrutta dei software chiamati spider che sono capaci di scansionare continuamente le risorse accessibili su Internet raccogliendo i dati e predisponendo l’indicizzazione, ovvero la catalogazione in base al contenuto.
Questi software sono in continuo movimento, non sarà la tua ricerca metterli in moto. Google, così come gli altri motori di ricerca, esegue miliardi di scansioni ogni giorno per riuscire a coprire il maggior numero possibile di risorse presenti su Internet.
Ma gli spider possono liberamente scandagliare mio sito web aziendale? Non è nulla di illegale, ma è comunque possibile decidere di limitare l’accesso ad alcune pagine semplicemente cambiando le impostazioni dei file di sistema (robots.txt) sul tuo sito. Al contrario, molto spesso chi non conosce i meccanismi della scansione web corre il rischio di ostruire l’accesso a contenuti che in realtà sarebbe importante indicizzare, in quest’articolo vedremo come funzionano la lettura e l’analisi sul web.
Come funziona uno spider per la scansione web del tuo sito internet aziendale
Se usi Internet avrai sicuramente sentito parlare del protocollo HTTP message oriented, il sistema di scambio dati che permette al client di connettersi al server inviando le richieste necessarie. Quest’ultimo, in seguito, restituirà la pagina web oggetto della richiesta. Ognuna di queste richieste dati è composta da un’intestazione e un corpo. La prima contiene informazioni sullo stato della pagina web e una breve descrizione del contenuto del corpo. In tutto esistono tre tipologie di base per le richieste:
- HEAD per avere informazioni sulle risorse di un determinato server;
- GET che corrisponde alla richiesta della risorsa stessa, sia essa un file oppure un’immagine;
- POST è la richiesta che permette al client di interagire con il server attraverso una determinata pagina web tramite, ad esempio, un modulo di contatto o dei campi personalizzati.
Tutti i linguaggi e i protocolli conosciuti dagli spider web
Gli spider, come abbiamo visto, sono software scritti con un linguaggio altamente complesso che conferisce loro caratteristiche peculiari. Sono programmi in grado di interagire con tutto l’ambiente di Internet sfruttando differenti protocolli e quindi compiendo azioni diverse.
Ad esempio, uno spider potrebbe scansionare il tuo sito web aziendale tramite il protocollo Internet HTTP, ma se fosse progettato per contattarti potrebbe inviarti un’e-mail utilizzando il protocollo SMTP. Alcuni spider, tuttavia, possono utilizzare anche linguaggi derivati dalle tecnologie dei servizi web, come SOAP o il protocollo XML-RPC. Altri ancora sono progettati per l’analisi di bacini di contenuti specifici, ad esempio alcuni possono elaborare i contenuti presenti nei newsgroup tramite il protocollo NNTP, oppure ricercare informazioni particolari nei siti di notizie RSS.
Come puoi facilmente comprendere questi software si prestano a un gran numero di funzioni e non tutti sono perfettamente legali, o meglio, non vengono usati per scopi corretti da un punto di vista di legge oppure etico. Comprenderne il funzionamento ti aiuterà a tutelarti in caso di illeciti.
Cosa sono i web scraper?
Vengono definiti web scraper tutti quegli spider che funzionano come un raschietto, ovvero sono capaci di ricavare dati specifici in base alla tipologia dei contenuti Internet. Giusto per farti un esempio ne esistono alcuni progettati per scaricare nome, descrizione e costo di prodotti o servizi al fine di darti un’idea su quello che è un prezzo competitivo stando al mercato attuale.
In pratica identificano i prezzi esistenti per una particolare categoria di beni o servizi così da fornire una stima del valore medio su cui basare la propria offerta.
Altri ancora invece sono progettati per estrarre tutti gli indirizzi e-mail che incontrano lungo il loro cammino.
Altri possono scaricare le ricerche compiute dagli utenti oppure i dati di condivisione di un determinato contenuto sul web.
Web spider e scraper, chi li usa e come, per scansionare la tua azienda?
Gli ambiti di applicazione di queste tecnologie sono ovviamente molteplici, ma il loro utilizzo non è sempre fatto con le migliori intenzioni, ecco perché vale la pena di analizzare alcune aree del loro possibile impiego.

Web crawler e spider aziendali
Si tratta di software piuttosto utili per l’utilizzo interno perché possono indicizzare e catalogare il contesto invisibile ai visitatori regolari. È il caso, ad esempio, di tutte quelle imprese che sono dotate di un sistema intranet interno e vogliono avere il pieno controllo sui dati di utilizzo.
Essendo un ambiente limitato al locale, le prestazioni di calcolo sono spesso maggiori e ciò permette di creare indici specializzati e più specifici. Anche Google offre un motore di ricerca per l’indicizzazione dei contenuti di un utente o di un personal computer.
Spider specializzati
Ci sono alcuni crawler dedicati all’elaborazione, la archiviazione e la generazione di informazioni e contenuti statistici. Si tratta ad esempio di quelli dedicati alle operazioni di backup di un sito web aziendale oppure utilizzati per scattare delle istantanee di contenuti specifici su Internet. Sono particolarmente utili per individuare quanti server web sono attualmente in esecuzione oppure per rilevare l’assenza di determinati contenuti.
Vengono utilizzati per determinare il numero di collegamenti inattivi all’interno di una pagina web, ovvero quelli che vengono definiti broken links, collegamenti ipertestuali che restituiscono un errore HTTP 404 pagina non trovata. Questi ultimi sono particolarmente utili per migliorare l’esperienza degli utenti sul tuo sito web eliminando problemi nella richiesta delle risorse.
Esistono anche spider specializzati nell’analisi del codice HTML del tuo sito, così da restituirti subito gli errori presenti. Un ultimo esempio riguardo a queste tipologie di crawler è il markup dei dati strutturati di Google: un piccolo e semplice spider addestrato alla ricerca di specifici codici all’interno delle pagine web.
Crawler malevoli: analisi della posta elettronica e spam
Prima di passare alla categoria più famosa di spider, è bene soffermarci un attimo sui software progettati per scopi meno leciti. L’esempio più riconoscibile riguarda quei programmi nati per estrarre gli indirizzi e-mail presenti all’interno dei siti web allo scopo di creare un enorme database da sfruttare per attività di spam oppure veri e propri tentativi di truffa. Le e-mail sono forse l’elemento più tipico, ma è anche possibile eseguire il raschiamento (scraping) di altri dati sensibili come numeri di telefono o indirizzi fisici.
Infine, esistono anche versioni di questi software capaci di estrarre il contenuto intero di un sito web, sia gli elementi testuali rilevanti che le identità visiva e grafica. Lo scopo di questi software ovviamente è quello di replicare il sito a scopi illegali.
Spider e web crawler dei motori di ricerca
Fortunatamente, in Internet, la maggioranza degli spider e dei crawler in circolazione appartengono ai motori di ricerca e sono usati per solo scansionare e poi indicizzare i siti web restituendoli quando un utente compie una determinata ricerca.
Internet è uno spazio in continua espansione e ogni giorno nascono centinaia di nuovi siti. Per questo motivo l’attività di crawling è così essenziale per i motori di ricerca. Riuscire a leggere e catalogare i contenuti presenti permette infatti a Google e soci di avere un ampio database di siti web e pagine specifiche da cui partire per l’indicizzazione e il successivo posizionamento.
Infatti, terminata la fase di scansione, i motori di ricerca utilizzano algoritmi specifici per classificare i risultati in base a tantissimi fattori, definiti appunto fattori di ranking. Utilizzando questo meccanismo di giudizio sulle singole pagine web, Google potrà stabilire un elenco efficace dei migliori contenuti disponibili nel suo database da restituire agli utenti che stanno compiendo le ricerche.
Aspetti legali della scansione dei siti Internet
Escludendo gli spider sviluppati con fini chiaramente illeciti, ci sono altre considerazioni che è possibile fare. La prima best practices per utilizzare un crawler su un sito altrui è sempre quella di controllare il documento Termini E Condizioni presente d’obbligo su ogni portale che vende prodotti o servizi. In questo documento sono specificate le prassi per quanto riguarda l’analisi dei dati del sito.
Altro fattore che è importante considerare è la larghezza di banda consumata dagli scraper: alcuni ovviamente consumano grandi risorse per riuscire a ottenere i dati necessari e ciò andrà a penalizzare gli altri utenti.
È il caso dell’esempio degli spider che vanno a ricercare i prezzi in tempo reale, occupando spazio web e impedendo all’utente realmente interessato ad acquistare un’offerta a tempo di riuscire a caricare la pagina prontamente.
Ovviamente, questa è un po’ un’esagerazione, oggi la banda non è più un grande problema nella maggioranza dei casi; tuttavia, è sempre bene assicurarsi di usare gli spider solo in modo consono, cortese e soprattutto legale.