Il Garante Privacy allerta sul web scraping dell’IA

10 Giugno 2024

✦

News, Privacy e Cyber Security

Con il provvedimento dello scorso 20 maggio, il Garante privacy ha pubblicato le indicazioni per difendere i dati personali – pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento – dal rischio di web scraping, che consiste nella raccolta indiscriminata di dati personali su internet, effettuata con lo scopo di addestrare i modelli di Intelligenza Artificiale Generativa (IAG).

Le indicazioni del Garante

Questo documento è il risultato dei contributi ricevuti a seguito dell’indagine conoscitiva che il Garante ha deliberato alla fine dello scorso anno ed è finalizzato a presentare le possibili soluzioni tecnologiche con cui si può contrastare la raccolta massiva automatizzata di dati effettuata per addestrare le intelligenze artificiali.

Tali indicazioni si rivolgono ai titolari di portali in cui sono pubblicati dati personali. Già questa è una precisazione importante, poiché normalmente nei portali di soggetti privati i dati personali sono residuali e la loro diffusione deve essere supportata da una base di liceità che difficilmente si può discostare dal consenso.

Per le Pubbliche Amministrazioni, invece, vi sono diverse previsioni di pubblicazione di dati personali che rispondono ad adempimenti differenti (es. albo pretorio e amministrazione trasparente, che perseguono rispettivamente le finalità di pubblicità legale/notizia e di trasparenza).

Le soluzioni proposte dal Garante, sia per i privati che per le PA, sono le seguenti:

Creazione di aree riservate. Questa modalità consente l’accesso a tali zone solo a soggetti debitamente autorizzati e muniti di credenziali. Con tale implementazione, il web scraping è bloccato, ma non è di fatto applicabile nelle situazioni in cui i dati devono essere resi pubblici. Inoltre, il Garante allerta sul fatto che i titolari del trattamento non dovrebbero imporre in sede di registrazione, agli utenti che navighino sui loro siti web o sulle loro piattaforme online e che fruiscano dei relativi servizi, oneri di registrazione ulteriori ed ingiustificati.

Inserimento di clausole ad hoc nei termini di servizio. Questa misura costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Si tratta di una cautela di mera natura giuridica che opera ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, agire da deterrente, contribuendo ad una maggiore tutela dei dati personali rispetto ad attività di web scraping. È doveroso riflettere sul fatto che gli operatori che implementano IA addestrate tramite web scraping vadano abbastanza “a grana grossa” e non facciano una verifica puntuale sulle clausole contrattuali dei siti, a meno che non si parli di portali gestiti da organizzazioni rilevanti, con un peso specifico potenzialmente importante dal punto di vista del contenzioso. Tale misura si dimostrerebbe difficilmente applicabile per piccole organizzazioni, che dovrebbero sobbarcarsi l’onere di avviare un contenzioso con il gestore dell’IA. È inoltre importante notare che difficilmente i titolari dei portali si accorgerebbero del web scraping dei loro portali e, qualora succedesse, anche in caso di vittoria giuridica non sarebbe più possibile espungere dall’IA i dati fagocitati.

Monitoraggio del traffico di rete. Questo accorgimento consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione, come ad esempio di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP. Una misura indirettamente efficace, ma che richiede una specifica configurazione dei dispositivi che gestiscono il traffico di rete che può risultare complessa e onerosa.

Intervento sui bot. Questa azione di filtro prevede la limitazione degli accessi automatizzati tramite diversi strumenti, come l’inserimento di captcha (piccoli form che devono necessariamente essere compilati da un utente umano, diventati famosi per richieste di riconoscimento di semafori, barche, motociclette, ecc) o altro codice nelle pagine web del portale.

In quest’ultima categoria rientra anche l’intervento sul file robot.txt, che segnala al crawler che non è possibile accedere ad alcune pagine o intere sezioni. Uno strumento già utilizzato per impedire l’indicizzazione da parte dei motori di ricerca: in particolare, l’albo pretorio delle PA è generalmente protetto tramite apposita configurazione di questo file. Lo strumento è efficace, ma va gestito con attenzione: è bene ricordare che per le Pubbliche Amministrazioni non si possono introdurre delle limitazioni sulla sezione “Amministrazione Trasparente” per i motori di ricerca (lo prescrive l’art. 9 del D. Lgs. 33/2013), per cui l’utilizzo generalista di questo metodo rischierebbe di impedire l’indicizzazione e l’accesso come prescritto dalla norma. È però possibile limitare in maniera chirurgica l’accesso ai bot delle Intelligenze Artificiali, specificando l’identificativo univoco del bot a cui è negato l’accesso. Purtroppo, toccherà farlo per i bot di ogni specifica IA…

È opportuno fare qualche ulteriore considerazione a margine sul contesto:

Il documento del Garante fornisce delle indicazioni e non delle Linee Guida, con l’obiettivo di cercare di arginare eventuali bot di IA che agiscono legittimamente. Non consente di limitare l’accesso a strumenti che “mietono” fraudolentemente dati dai portali, di fatto sono accorgimenti tecnici facilmente aggirabili.

Purtroppo, i crawler delle principali IA molto probabilmente sono già passati, fagocitando i dati personali presenti sui siti. Dati che, se utilizzati per addestrare le IA, non potranno più essere espunti da esse. Al massimo, tali interventi potranno essere fatti su dati futuri o potranno consentire di attivare un’iniziativa giudiziale, qualora si riesca dimostrare che i dati sono presenti nelle IA.

Questo è solo un altro elemento che è fuoriuscito dal vaso di Pandora scoperchiato dalle Intelligenze Artificiali, in questo momento la cosa più importante è acquisire sempre maggiore consapevolezza. La partita è aperta e soggetta ad aggiornamenti continui e frenetici, basti vedere la corposa sezione dedicata dal Garante della Privacy sull’argomento.

Un intervento molto più concreto ed utile andrebbe fatto a monte, cioè sulle tipologie di dati pubblicati sui portali. Sarebbe opportuno rivedere ciò che è pubblicato e valutarne l’effettiva base di liceità. Le sanzioni del Garante per pubblicazione illegittima di dati personali sono ancora molto frequenti sui siti delle PA, come ad esempio l’ultimo provvedimento sanzionatorio per la pubblicazione di graduatorie di concorso.

La minimizzazione, dunque, è ancora la forma di difesa più efficace.

Per informazioni sull’offerta di SI.net Servizi Informatici per accompagnarti nelle continue sfide legate alla trasformazione digitale, scrivi a comunicazione@sinetinformatica.it o telefona allo 0331.576848.

Per ricevere aggiornamenti sulle tematiche relative all’innovazione nell’ICT iscriviti alla nostra newsletter.

Segui SI.net anche su X, Facebook, YouTube, LinkedIn, Telegram

Garante Privacy, IA, PA, privacy