L'AI generativa può fare affidamento sulla eccezione text and data mining per il suo addestramento?
L’auto-addestramento dei sistemi di AI generativa e il coordinamento con il diritto d’autore
I sistemi di AI generativa si “auto-addestrano” utilizzando algoritmi di apprendimento automatico che analizzano enormi quantità di dati, immagini e contenuti e imparano a utilizzare tali informazioni per creare nuovi contenuti simili a quelli esistenti.
Tale analisi, tuttavia, potrebbe essere considerata come una riproduzione, anche se solo temporanea, dei dati e delle fonti utilizzate, incluse le eventuali opere protette o intere porzioni dei database impiegati.
Pertanto, dall’estrazione automatizzata di tali contenuti possono derivare dei problemi di coordinamento con la disciplina a tutela del diritto d’autore e dei diritti ad esso connessi – in particolare, del diritto esclusivo di riproduzione ex art. 13 della L. n. 633/1941 (c.d. Legge sul diritto d’autore). Ma non solo. Tale utilizzo potrebbe inoltre essere in contrasto con il diritto del costitutore di una banca dati di vietare l’estrazione o il reimpiego della totalità o di una parte sostanziale della stessa.
Nell’ambito del diritto d’autore, la dottrina si è interrogata sulla possibilità di realizzare un’elaborazione creativa dell’informazione e/o dell’opera protetta. Sul punto, in realtà, si è già espresso il legislatore europeo, secondo cui, nel processo di elaborazione dei dati, l’assenza di un’autorizzazione da parte dell’autore dell’opera da cui sono estratti può integrare una violazione del diritto d’autore. Tuttavia, è evidente che subordinare l’attività di estrazione di dati e contenuti al previo ottenimento dell’autorizzazione da parte del titolare dei diritti di privativa coinvolti comporterebbe elevati costi transattivi e anche tempi incompatibili con quelli di sviluppo di sistemi di AI.
È proprio per tali ragioni che il legislatore europeo è intervenuto riformando la materia attraverso l’introduzione di alcune eccezioni e limitazioni al diritto d’autore obbligatorie per ogni Stato Membro.
Le eccezioni di TDM
In particolare, in materia di estrazione di dati, la Direttiva Copyright 2019/790/UE ha introdotto le eccezioni c.d. di text and data mining (TDM), disciplinate agli artt. 3 (Estrazione di testo e di dati per scopi di ricerca scientifica) e 4 (Eccezioni o limitazioni ai fini dell’estrazione di testo e di dati). Il TDM viene definito all’art. 2 della Direttiva Copyright come “qualsiasi tecnica di analisi automatizzata volta ad analizzare testi e dati in formato digitale avente lo scopo di generare informazioni inclusi, a titolo non esaustivo, modelli, tendenze e correlazioni”. A livello nazionale tali articoli sono stati trasposti, rispettivamente, con l’introduzione nella Legge sul diritto d’autore degli artt. 70-ter – che riguarda unicamente l’estrazione per fini scientifici da parte di organismi di ricerca e istituti di tutela del patrimonio culturale – e 70-quater – che consente l’estrazione di testo e dati in generale, da parte di chiunque, anche per mero fine di lucro.
Viste le grandi quantità di dati utilizzati dai sistemi di AI per generare nuovi contenuti, risulta evidente lo stretto rapporto che sussiste tra l’AI generativa e l’eccezione di TDM: l’eccezione di text and data mining consente ai sistemi di AI di accedere a grandi quantità di dati, che vengono utilizzati dall’AI generativa per creare nuovi contenuti. Qualora questi sistemi non fossero autorizzati ad accedere a tali dati, la loro capacità di generare contenuti risulterebbe indubbiamente limitata.
L’ammissibilità dell’estrazione anche per fini di lucro: accesso legittimo e riserva
Tra le due eccezioni di TDM disciplinate dal legislatore europeo, merita particolare attenzione la seconda, che ammette l’estrazione anche per fini di lucro. L’art. 70-quater della Legge sul diritto d’autore, infatti, esenta qualsiasi attività di text and data mining che venga svolta sull’opera dell’ingegno, ivi incluso il software o il database protetto da un diritto connesso, a prescindere dallo scopo o dalla qualificazione del soggetto che la esercita.
Ciò, tuttavia, a condizione che:
- tale soggetto abbia avuto accesso legittimo al contenuto ai fini dell’estrazione di testo e di dati; e
- il titolare del diritto d’autore e dei diritti connessi e/o il titolare del database non abbiano espressamente riservato l’estrazione di testo e di dati (c.d. meccanismo di opt out), così richiamando le attività di TDM al proprio controllo esclusivo.
Tuttavia, la portata liberalizzatrice del meccanismo di opt out concesso dall’art. 70-quater dipende dalle modalità con cui viene effettuata la riserva da parte del titolare dei diritti. È lo stesso art. 4, c. 3, della Direttiva Copyright a prevedere che la riserva venga espressa “in modo appropriato, ad esempio attraverso strumenti che consentano una lettura automatizzata in caso di contenuti resi pubblicamente disponibili online”. Tale previsione sembra dunque richiedere che la dichiarazione di riserva sia leggibile in modo automatizzato quando l’opera cui si riferisce è messa a disposizione del pubblico in Internet.
Gli effetti dell’opt out possono in realtà derivare anche dall’inserimento di un’apposita clausola in un contratto, assunto peraltro confermato dalla stessa Direttiva Copyright, che non include l’art. 4 tra le norme inderogabili. Inoltre, la qualificazione della dichiarazione di riserva è indipendente da qualsiasi valutazione relativa all’eventuale presenza di meccanismi informatici atti a impedire l’estrazione dei dati. Tale interpretazione si fonda sulla funzione meramente informativa della riserva. Così, sarà sufficiente includere la riserva nelle R&D del sito web, anche se privo di misure di protezione.
Pertanto, la riserva:
- potrà essere una dichiarazione “digitale” priva di meccanismi di protezione informatica, come ad esempio i protocolli di esclusione contenuti nei file robots.txt; oppure
- potrà essere realizzata attraverso l’apposizione di un sistema di digital rights management che oltre ad avere una funzione di protezione informatica, incorpora anche una dichiarazione informatica automaticamente rilevabile; e
- non potrà invece consistere nella mera apposizione di misure tecniche di protezione che non includano alcuna dichiarazione, e che pertanto risultano essere mere manifestazioni tacite di volontà. Così, l’apposizione di misure tecniche non ha l’effetto di rendere di per sé illecita qualsiasi attività di TDM, ma rende comunque vietate le estrazioni incompatibili con la misura tecnica adottata, poiché l’art. 174-ter vieta di aggirare le misure tecnologiche di protezione.
La conservazione delle copie dopo la conclusione del data mining
Un ulteriore aspetto problematico concerne la conservazione delle copie dopo che il data mining si è concluso. Rispetto a ciò, il c. 2 dell’art. 70-quarter prevede che le riproduzioni e le estrazioni “possono essere conservate per il tempo necessario ai fini dell’estrazione di testo e di dati”, ciò perché la funzionalità di una copia all’estrazione di testo o di dati cessa nel momento in cui essa è compiuta. Pertanto, non è consentito conservare le copie per fini ulteriori rispetto a quello del TDM, come ad esempio per verificare e dimostrare i risultati raggiunti.
Vi è però parte della dottrina che sostiene che le riproduzioni per data mining possono essere conservate anche per il tempo necessario ad addestrare i sistemi di AI. Rispetto a ciò, in realtà occorrerebbe verificare caso per caso se l’addestramento dell’AI costituisce un’estrazione di testo e di dati o se, invece, costituisce un’attività ad essa successiva. Solamente nel primo caso le copie potrebbero essere conservate anche durante la fase dell’addestramento dell’AI.
L’art. 70-quater, tuttavia, omette di disciplinare le riproduzioni ed eventuali ulteriori utilizzazioni necessarie per l’uso del testo e dei dati estratti a seguito della loro analisi computazionale, ovvero l’uso che i sistemi di AI potrebbero potenzialmente farne. Sul punto, parte della dottrina ha osservato che l’utilizzo del risultato del data mining potrebbe essere condizionato all’autorizzazione del titolare dei diritti sui contenuti analizzati.
Quando con il data mining viene estratta soltanto la forma o una sua porzione, occorre verificare se i frammenti estratti e riutilizzati costituiscono porzioni autonomamente creative e pertanto protette. Rispetto a tale questione, vi è chi ritiene che l’uso di frammenti creativi non interferisca col diritto d’autore quando il loro significato originario impresso dall’autore non risulta più comprensibile, ad esempio perché nel nuovo contesto tali frammenti risultano irriconoscibili.
Pertanto, gli sviluppatori che intendano utilizzare opere protette dal diritto d’autore per addestrare un sistema di AI generativa dovranno seguire tre passaggi:
- ottenere un accesso legittimo ai dati;
- verificare che i titolari dei diritti non si siano riservati il diritto di effettuare le riproduzioni a fini del TDM;
- conservare le copie effettuate solo per il tempo necessario ai fini del TDM.
È evidente che per comprendere le concrete modalità di applicazione di tali requisiti occorrerà tenere d’occhio la futura giurisprudenza.