Site icon Panda Security Mediacenter

Che cos’è il web scraping e come difendersi

Che cos’è il web scraping e come difendersi

Che cos’è il web scraping e come difendersi

Scopri come impedire ad aziende e hacker di fare il web scraping dei tuoi dati online.

Da un po’ di tempo online circola una nuova parola di tendenza, lo scraping. Di solito, viene utilizzata per descrivere il funzionamento dei programmi di intelligenza artificiale (IA) generativa, che scandagliano internet e raccolgono documenti ovunque, ma a volte il web scraping si riferisce all’attività di raccogliere dati online.

Esistono vari strumenti e i target più colpiti sono ovviamente i siti personali e aziendali, ma anche alcuni servizi web con misure di sicurezza antiquate o poco efficaci. In questo articolo vediamo cos’è il web scraping, come difenderti se hai un sito o informazioni sensibili online e come mantenere riservati i tuoi dati. Continua a leggere!


Il web scraping diventa illegale quando non rispetta i limiti e le modalità previste dai siti.


Che cos’è il web scraping

Il verbo inglese scrape significa letteralmente raschiare, grattare, per cui il significato di web scraping è rastrellare internet, raschiando quanti più dati personali possibile con strumenti automatizzati.

Il web scraping può essere un’attività legale, ad esempio quando i crawler di Google analizzano le pagine web per indicizzarle nel motore di ricerca oppure quando un aggregatore di prezzi estrae i dati da diversi siti per compararli.

Spesso, però, il web scraping viene utilizzato con fini criminali e con le seguenti caratteristiche:

Queste sono le caratteristiche principali del web scraping illegale, compiuto da aziende disoneste o da veri e propri criminali informatici, che useranno i dati raccolti per rivenderli o per confezionare nuovi attacchi mirati.

LEGGI ANCHE: 10 modi per controllare i tuoi dati quando usi l’AI generativa

Come funziona il web scraping

L’estrazione di dati online segue una serie di passaggi precisi, dove l’unica variabile degna di nota è la scelta degli strumenti e delle tecniche. Vediamo come funziona:

  1. Per prima cosa si sceglie il sito o il dominio da rastrellare.
  2. Si analizza la struttura del sito o della pagina.
  3. Si sceglie lo strumento o la combinazione di strumenti, dato che ognuno consente di ottenere determinati tipi di dati. Si possono utilizzare librerie di Python o altri linguaggi, oppure strumenti di automatizzazione per il browser che inviano richieste HTTP normali, come se ci si collegasse al sito, per poi salvare gli elementi della pagina.
  4. Si crea lo script oppure si configura lo strumento scelto, in modo da includere determinate pagine, un percorso specifico sul sito, impostare l’aggiornamento periodico, chiedere di scaricare solo alcuni elementi e così via.
  5. Lo scraper inizia la sua attività di scansione, download a salvataggio dei dati, che possono essere organizzati in fogli di lavoro o veri e propri database online.

Questo è il processo standard del web scraping. Come abbiamo accennato, la differenza tra attività illegale e legale qui dipende dalle finalità e dagli strumenti che vengono utilizzati. Per capirlo meglio, vediamo quali sono gli strumenti legali più conosciuti.

Strumenti di web scraping

Di scraper ne esistono molti: alcuni sono programmi specifici, altri sono applicazioni che possono essere utilizzate anche per questo scopo come Google Drive, che consente di importare tabelle, grafici e dati da URL.

In generale, esistono alcuni tipi di scraper:

La maggior parte di questi strumenti è legale, il problema inizia quando a queste applicazioni vengono aggiunti script fraudolenti o gli strumenti vengono configurati violando i limiti dei siti web.


Per limitare il web scraping, la prima cosa da fare è configurare il file robots.txt sul sito e decidere quali dati rendere visibili a tutti.


Come proteggersi dal web scraping

La prima cosa da fare, come utente, è limitare i dati personali che condividiamo online, affinché questi non finiscano nei database di aziende o criminali informatici. Detto questo, ecco alcuni consigli per proteggere i dati dal web scraping:

Seguendo questi semplici consigli potrai ridurre molto la quantità di dati personali che potrebbero essere raccolti tramite web scraping, legale o meno.

In questo post abbiamo visto che cos’è il web scraping, come funzionano gli strumenti legali e illegali per estrarre dati online e con quali scopi vengono usati. Il web scraping ci ricorda che bisogna dare la priorità alla privacy su internet, perché non sappiamo mai fino in fondo dove finiranno i nostri dati o quelli dei nostri clienti, ma sappiamo per certo che ci sono tante persone a cui interessano.

NOVITÀ: leggi i risultati del nostro sondaggio sulla cybersecurity europea.

Buona navigazione e buona difesa dal web scraping!

Exit mobile version