Web Scraping ed intelligenza artificiale generativa: le linee guida del Garante (GPDP).
Abstract
Con il provvedimento 20 maggio 2024 il Garante per la protezione dei dati personali ha fornito ai gestori di siti web alcune linee guida per prevenire la raccolta massiva di dati personali (web scraping) finalizzata all’addestramento di modelli di intelligenza artificiale.
Obbiettivo del Garante è proteggere i dati personali e garantire la conformità al GDPR.
Con provvedimento del 20 maggio 2024 in corso di pubblicazione nella Gazzetta Ufficiale, ha inteso a gestori di siti internet e piattaforme online, sia pubblici che privati, alcune linee guida sul fenomeno della raccolta massiva di dati personali (web scraping) per l'addestramento dei modelli di intelligenza artificiale generativa (IAG).
Viene evidenziata in particolare l'importanza per i gestori di siti web di valutare le misure da adottare per prevenire la raccolta di dati quando incompatibile con le basi giuridiche della pubblicazione dei dati, suggerendo l’adozione di accorgimenti idonei a impedire o, almeno, ostacolare gli effetti del web scraping di terze parti.
Web Scraping e Protezione dei Dati Personali.
Il web scraping può comportare la raccolta di informazioni personali, sollevando problemi di protezione dei dati secondo il Regolamento Generale sulla Protezione dei Dati (cd. GDPR).
Il Garante per la protezione dei dati propone dunque una prospettiva focalizzata sui gestori di siti web come titolari del trattamento dei dati, indicando possibili cautele da adottare per prevenire la raccolta massiva di dati personali.
Tecniche di raccolta massiva di dati e loro finalità.
Internet, basato su protocolli aperti come TCP (Transimission Control Protocl) / IP (Internet Protocol) e http (Hyper Text Transfer Protocol), consente la raccolta di dati ed informazioni disponibili online liberamente e/o ad accesso controllato; dati ed informazioni che possono altresì essere raccolti in maniera automatizzata e sistematica attraverso l’utilizzo di web robot (o cd. bot).
I dati così raccolti sono poi utilizzati per diverse finalità, tra cui l'addestramento di modelli di intelligenza artificiale generativa, ovvero dei sistemi in grado di generare nuovi testi, immagini, audio e video.
I dataset utilizzati dagli sviluppatori di intelligenza artificiale generativa possono in ogni caso avere provenienze variegate (data lake di terze parti; dati in possesso degli sviluppatori; etc.), ma il web scraping costituisce un denominatore comune.
Possibili azioni di contrasto al web scaraping per finalità di addestramento dell’intelligenza artificiale.
Il Garante suggerisce dunque diverse misure per contrastare il web scraping utilizzato per addestrare l’intelligenza artificiale, consapevole tuttavia che nessuna di queste può impedire completamente tale attività:
Creazione di Aree Riservate: aree accessibili solo previa registrazione, così da ridurre la disponibilità pubblica dei dati.
Inserimento di Clausole nei Termini di Servizio: divieti espliciti di web scraping nei cd. ToS possono fungere da deterrente legale.
Monitoraggio del Traffico di Rete: per identificare flussi anomali per prevenire attività non autorizzate.
Intervento sui Bot: l’utilizzo di tecniche come CAPTCHA, la modifica periodica del markup HTML, incorporazione di dati in oggetti multimediali, il monitoraggio dei file di log e l'uso del file robots.txt possono infatti ostacolare l'attività dei bot.
Conclusione.
L'addestramento di modelli di intelligenza artificiale generativa richiede una grande quantità di dati, spesso raccolti tramite web scraping che, ove rivolto a dati personali, potrebbe comportare rischi connessi ad un illecito trattamento degli stessi.
I gestori dei siti web dovrebbero dunque valutare l’adozione di misure per proteggere i dati personali trattati, bilanciando obblighi legali e esigenze di sicurezza per mitigare gli effetti negativi dello scraping.
Il Garante precisa in ogni caso che si tratta di misure non obbligatorie, ma che ogni titolare dovrebbe valutare, caso per caso, in ragione della tipologia di dati trattati e delle finalità del trattamento stesso.
Riferimenti.