Scopri come impedire ad aziende e hacker di fare il web scraping dei tuoi dati online.
Da un po’ di tempo online circola una nuova parola di tendenza, lo scraping. Di solito, viene utilizzata per descrivere il funzionamento dei programmi di intelligenza artificiale (IA) generativa, che scandagliano internet e raccolgono documenti ovunque, ma a volte il web scraping si riferisce all’attività di raccogliere dati online.
Esistono vari strumenti e i target più colpiti sono ovviamente i siti personali e aziendali, ma anche alcuni servizi web con misure di sicurezza antiquate o poco efficaci. In questo articolo vediamo cos’è il web scraping, come difenderti se hai un sito o informazioni sensibili online e come mantenere riservati i tuoi dati. Continua a leggere!
Il web scraping diventa illegale quando non rispetta i limiti e le modalità previste dai siti.
Che cos’è il web scraping
Il verbo inglese scrape significa letteralmente raschiare, grattare, per cui il significato di web scraping è rastrellare internet, raschiando quanti più dati personali possibile con strumenti automatizzati.
Il web scraping può essere un’attività legale, ad esempio quando i crawler di Google analizzano le pagine web per indicizzarle nel motore di ricerca oppure quando un aggregatore di prezzi estrae i dati da diversi siti per compararli.
Spesso, però, il web scraping viene utilizzato con fini criminali e con le seguenti caratteristiche:
- Viola i termini di servizio. Gli strumenti di web scraping illegale possono fare scraping in modalità e quantità che superano i limiti previsti dai servizi web.
- Ruba dati sensibili. Una cosa è estrarre dati generali e un’altra completamente diversa è raccogliere dati personali coperti dalle normative sulla privacy e per cui è necessario avere il consenso esplicito dell’utente.
- Fa concorrenza sleale. Alcuni siti utilizzano tecniche di web scraping per competere in modo disonesto con altre aziende del settore.
- Non rispetta scopi, frequenza e volume. Come nel caso dei termini di servizio, la raccolta di dati online ha sempre dei limiti da rispettare, imposti dalla legge o dai proprietari del sito.
- Non rispetta le indicazioni del file robots.txt. Questo file implementato su tutte le pagine web permette di specificare quali pagine possono essere analizzate e “raschiate” e quali no. È importante ricordare che molti siti permettono la scansione online, il crawling e lo scraping perché sono conseguenze naturali delle impostazioni SEO, ovvero dell’ottimizzazione del sito per i motori di ricerca.
Queste sono le caratteristiche principali del web scraping illegale, compiuto da aziende disoneste o da veri e propri criminali informatici, che useranno i dati raccolti per rivenderli o per confezionare nuovi attacchi mirati.
LEGGI ANCHE: 10 modi per controllare i tuoi dati quando usi l’AI generativa
Come funziona il web scraping
L’estrazione di dati online segue una serie di passaggi precisi, dove l’unica variabile degna di nota è la scelta degli strumenti e delle tecniche. Vediamo come funziona:
- Per prima cosa si sceglie il sito o il dominio da rastrellare.
- Si analizza la struttura del sito o della pagina.
- Si sceglie lo strumento o la combinazione di strumenti, dato che ognuno consente di ottenere determinati tipi di dati. Si possono utilizzare librerie di Python o altri linguaggi, oppure strumenti di automatizzazione per il browser che inviano richieste HTTP normali, come se ci si collegasse al sito, per poi salvare gli elementi della pagina.
- Si crea lo script oppure si configura lo strumento scelto, in modo da includere determinate pagine, un percorso specifico sul sito, impostare l’aggiornamento periodico, chiedere di scaricare solo alcuni elementi e così via.
- Lo scraper inizia la sua attività di scansione, download a salvataggio dei dati, che possono essere organizzati in fogli di lavoro o veri e propri database online.
Questo è il processo standard del web scraping. Come abbiamo accennato, la differenza tra attività illegale e legale qui dipende dalle finalità e dagli strumenti che vengono utilizzati. Per capirlo meglio, vediamo quali sono gli strumenti legali più conosciuti.
Strumenti di web scraping
Di scraper ne esistono molti: alcuni sono programmi specifici, altri sono applicazioni che possono essere utilizzate anche per questo scopo come Google Drive, che consente di importare tabelle, grafici e dati da URL.
In generale, esistono alcuni tipi di scraper:
- Strumenti per la SEO, che estraggono parole chiave e metatag
- Strumenti per il marketing, che estraggono prezzi e caratteristiche dei prodotti
- Strumenti per le piattaforme social
- Strumenti per contatti e applicazioni business
La maggior parte di questi strumenti è legale, il problema inizia quando a queste applicazioni vengono aggiunti script fraudolenti o gli strumenti vengono configurati violando i limiti dei siti web.
Per limitare il web scraping, la prima cosa da fare è configurare il file robots.txt sul sito e decidere quali dati rendere visibili a tutti.
Come proteggersi dal web scraping
La prima cosa da fare, come utente, è limitare i dati personali che condividiamo online, affinché questi non finiscano nei database di aziende o criminali informatici. Detto questo, ecco alcuni consigli per proteggere i dati dal web scraping:
- Se hai un sito, configura in modo dettagliato il file robots.txt
- Decidi quali dati rendere visibili a tutti e quali proteggere dietro autenticazione
- Controlla le attività e le richieste HTTP che ricevi sul sito
- Utilizza un software anti-scraping
- Mantieni aggiornati CMS, programmi, applicazioni web e plugin
Seguendo questi semplici consigli potrai ridurre molto la quantità di dati personali che potrebbero essere raccolti tramite web scraping, legale o meno.
In questo post abbiamo visto che cos’è il web scraping, come funzionano gli strumenti legali e illegali per estrarre dati online e con quali scopi vengono usati. Il web scraping ci ricorda che bisogna dare la priorità alla privacy su internet, perché non sappiamo mai fino in fondo dove finiranno i nostri dati o quelli dei nostri clienti, ma sappiamo per certo che ci sono tante persone a cui interessano.
NOVITÀ: leggi i risultati del nostro sondaggio sulla cybersecurity europea.
Buona navigazione e buona difesa dal web scraping!