8 min read

Come evitare che la vostra arte vada ad addestrate le AI generative (Tumblr, Wordpress...)

TLDR; Se sei un Disegnatore fai SUBITO export dei tuoi contenuti e cancella tutto. - Qui ti spiego il perchè e come farlo.
Come evitare che la vostra arte vada ad addestrate le AI generative (Tumblr, Wordpress...)

E' un po' che ci penso: probabilmente molti lettori saranno stupiti che un blog che parla di Trasformazione Digitale, AI e future Tech posti un articolo del genere.

Qualcuno mi darà del luddista e si disiscriverà: è OK, l' ho messo in programma.

Sto scrivendo questo articolo perchè credo che il giocare secondo le regole senza abusare della propria posizione sia più importante che avere l'ultima tecnologia a portata di mano a ogni costo. Le noiose regole - di solito - servono a proteggere la comunità, anche se a volte sembra che ci rallentino nella nostra corsa.

La motivazione che mi ha portato a scrivere questo articolo mi è stata offerta da Automattic, l'azienda che possiede Tumblr e che sta stringendo accordi con OpenAI e Midjourney per i dati di addestramento. Questa fa paio con la notizia di Reddit di fine febbraio... ma anche col pasticcio di Deviant Art di un anno fa.

In questo articolo darò il mio punto di vista sul perchè vendere i contenuti testuali e quelli visuali sono due cose differenti, sul perchè alcuni contenuti pesano più di altri e come ci sono alcuni posti in cui è inevitabile che i nostri dati vengano usati, mentre in altri mi aspetterei più.

Andiamo alla notizia, prima di commentare e dare delle soluzioni.

La Notizia: Vendere i contenuti dei propri utenti sarà sempre più comune.

Tumblr

Automattic, il proprietario di Tumblr e WordPress.com è in trattative con le società di AI Midjourney e OpenAI per fornire dati di addestramento presi dai blog degli utenti, secondo quanto riportato da 404 Media ( link ). Il rapporto, basato su una fonte anonima interna all'azienda, afferma che gli accordi tra Automattic e le due società di AI sono "imminenti". La notizia segue le voci nebulose che si sono diffuse su Tumblr nell'ultima settimana, suggerendo che un accordo con Midjourney potrebbe fornire un nuovo flusso di entrate al sito.

Secondo quanto riportato da 404, Automattic ha in programma di lanciare già questa settimana una nuova funzione di Opt-out che "consentirà agli utenti di scegliere di non condividere i dati con terze parti, comprese le aziende di IA".

Ma cita della documentazione interna che suggerisce che l'azienda ha effettuato un "dump iniziale di dati" contenente:

  • post privati su blog pubblici
  • post su blog eliminati o sospesi
  • domande senza risposta (normalmente non sono pubbliche finché non ricevono risposta)
  • risposte private (mostrate solo al destinatario e non pubbliche)
  • post contrassegnati come "espliciti"/NSFW/"maturi" secondo i nostri standard più moderni (potrebbe non essere un grosso problema, non lo so)
  • contenuti provenienti da blog di partner premium (blog di marchi speciali come l'ex blog musicale di Apple) che potrebbero contenere creatività che non appartengono agli autori e di questi non hanno i diritti per condividere con terze parti.

Su Reddit che avrebbe stipulato un accordo da 60 milioni di dollari all'anno con Google e Shutterstock che ha firmato un accordo con OpenAI per l'addestramento sulla sua libreria fotografica ne parliamo più sotto.

Wordpress.com

Non si hanno notizie dell'accordo di Wordpress.com ma dalle voci sembra che sia molto simile a quello di Tumblr, quindi lasciamola appesa così.

Come l'hanno presa gli utenti di Tumblr & Wordpress.com

Nonostante la notizia stia passando un po' sotto traccia la comunità creativa a cui Tumblr si rivolge ha protestato contro l'utilizzo del loro lavoro per le AI.

Per ora non ci sono molte informazioni su cosa comporterebbe un eventuale accordo, né su quanto Automattic possa guadagnarci. L'azienda ha anche un'attività di web hosting con WordPress.com e WordPress VIP, entrambi basati sul software open-source WordPress.

Nel 2019 ha acquistato Tumblr e da allora ha fatto fatica sia a rivitalizzare la piattaforma sia a monetizzarla, tanto che nel 2023 più o meno esplicitamente ha dichiarato di aver gettato la spugna.

Per gli utenti di Wordpress.org le cose sono invece molto più tranquille: i dati sono sul vostro server e quindi più al sicuro (ricordatevi magari di mettere disallow su robot.txt -> vedi più sotto come).

Meta

Meta utilizza i tuoi contenuti per allenare le proprie AI, e potete fare Opt-out.

Blogspot

Sembra che il mondo si sia dimenticato di Blogspot. La piattaforma, ormai sotto al 1% ha una marea di contenuti di nicchia.

Anche in questo caso quando ci siamo iscritti sapevamo bene che stavamo scambiando l'esposizione nelle SERP di Google per i nostri contenuti.

Perché mi sono triggerato per le immagini di Tumblr e non i testi di Reddit o Meta?

Affrontiamo due dei punti cruciali della situazione:

  • Le aspettative iniziali
  • Quando i contenuti presi dalle AI possono impattare sulla tua vita

Se partecipi a una conversazione su un forum online e prendono i tuoi contenuti la cosa è poco gradita ma potrebbe avere un senso, dato che stai partecipando a uno sforzo collettivo, su una piattaforma di qualcun altro e l'apporto del singolo è solo parziale.

Il fatto che Meta usi i contenuti testuali dei tuoi post per addestrare LLAMA non stupisce nessuno, quando ti sei iscritto sapevi che lo scambio consisteva in Tuoi dati + tuoi contenuti in cambio di un posto nella piazza virtuale.

Ma possiamo dire la stessa cosa quando apri un blog e dopo 10 anni qualcuno decide di prendersi testi e immagini? Qui sono molto dubbioso: lo sforzo comunicativo è tutto tuo e mi aspetterei che la piattaforma che mi ospita e che ha come modello di business la vendita di piani pro sappia tenere i miei dati al sicuro.

Nello stile di...

Perchè prendere le immagini è molto più grave?

Per fare fine tune di un modello servono pochissimi esempi, a partire da 10 campioni (anche se per risultati ottimale ne servono 10 volte tanti).

Tumblr aveva una nicchia di autori che postavano i propri disegni e che adesso potrebbero ritrovarseli ricreati su Midjourney con un semplice prompt.

Certo questo potrebbe anche succedere con il testo, ma al momento le AI generative di immagini sono molto più avanti.

Probabilmente è un bias cognitivo che mi rende più facile assimilare due immagini rispetto a due testi, ma se scrivo su Midjourney "woman in style of Gustav Klimt" ho immagini che hanno forte punti in comune con l'artista,

se chiedo a GpT-4 "scrivi una storia nello stile di <Manzoni> < Stephen King> i risultati sono molto meno conclusivi.

Le dieci domande

Mentre scrivevo questo post, la maretta sta aumentando di dimensioni, Il buon Morten Rand-Hendriksen ha pubblicato 10 domande aperte ad Automattic. Te le riporto perché aprono interessati punti di pensiero.

  1. Perché gli utenti devono fare opt-out per non condividere i propri dati con le aziende di IA? Questo presuppone che la maggior parte degli utenti accetti di condividere i propri contenuti con i servizi di IA. Quali dati e/o ragionamenti supportano questa ipotesi?
  2. Chi ottiene i ricavi dalla condivisione dei dati e a quanto ammontano? In particolare, i creatori vengono compensati per la vendita dei loro dati a terzi?
  3. Chi decide per conto dei siti abbandonati o dei siti i cui creatori non sono più tra noi? Non tutti hanno la possibilità di scegliere di non partecipare. Chi parla a loro nome e protegge i loro interessi?
  4. Come sono stati consultati gli utenti interessati? E qual è stato il loro feedback?
  5. Quali professionisti sono stati consultati e cosa hanno detto? Avete consultato l'ufficio legale? Avete consultato il vostro responsabile dell'etica (presumo che ne abbiate uno)? Chi altro è stato coinvolto in questa decisione?
  6. Come si concilia la vendita di questi dati con il principio dell'open source secondo cui gli utenti sono proprietari dei loro contenuti? Chi credete sia il proprietario e abbia il diritto di trarre profitto dai contenuti degli utenti ospitati sulle vostre piattaforme?
  7. I dati venduti provengono solo da siti gratuiti o includono anche siti che l'utente paga per ospitare sulla vostra piattaforma? In quest'ultimo caso, come si giustifica la "doppia spremitura" del flusso di entrate?
  8. Perché ritenete che questa sia la decisione giusta da prendere per i vostri utenti? E come rispondete a chi sostiene il contrario?
  9. Come avete scelto queste aziende commerciali di IA rispetto alle alternative open source? I rapporti indicano che siete in trattativa con OpenAI e Midjourney. Nessuna delle due è open source.
  10. Perché dovremmo affidarvi i nostri dati in futuro?

Come proteggere i propri dati

Bloccare il bot di OpenAI

Ne avevamo già parlato qualche tempo fa OpenAI ha deciso di fare scraping dei siti e utilizzarli per OpenAI. C'è un modo di bloccare questa cosa, basta editare il propri file robots.txt e inserire queste 4 righe. OpenAI ha infatti due agent

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

Ci sono funzioni più avanzate (tipo bloccare gli IP), ma sono cose più complicate.

Come migrare su lidi più sicuri

Come migrare da Tumblr

A questo link c'è la sequenza completa: https://help.tumblr.com/hc/en-us/articles/360005118894-Export-Your-Blog

  • Entra nel tuo account: https://www.tumblr.com/settings/account
  • Fare clic sulla voce di menu "Impostazioni" a sinistra.
  • Selezionare il blog che si desidera esportare nella barra laterale destra.
  • Scorrere fino alla sezione "Esportazione" e fare clic sul pulsante "Esporta [nome del blog]".
  • Verrà visualizzato un messaggio che indica che il backup è in fase di elaborazione.

Come migrare da Wordpress.com

La sequenza completa è qui: https://wordpress.com/support/export/

  1. Fai Login
  2. Nella dashboard del sito, andare su Strumenti → Esporta:
  3. Clicca su esporta tutto.
  4. Scarica il file di export (sarà uno zip contenente un .xml)

Si, viaggiare, ma dove?

Adesso che abbiamo il nostro file di esportazione... dove possiamo spostarci? La risposta è semplice: un posto tutto nostro.

Questo vuol dire prendere un dominio, un host, installare wordpress e importare i contenuti. La cosa sembra molto più complessa di quello che è... esistono servizi che permettono di prendere dominio, spazio e installare tutto in pochi minuti, con pochissimi click,

  • Su Supporthost un sito in wordpress per un anno costa 34 euro e il servizio è ottimo.
  • Su SiteGround lo stesso piano costa un botto di più, ma è un host molto più famoso (principalmente perchè pagano tantissimi in affiliazione)
  • Su Aruba avete un servizio OKish a una 30ina di euro.

"Ma io non voglio spendere nemmeno un euro."

Ricorda l'antico adagio: "se non spendi per un usare prodotto, beh il prodotto sei tu." - Siamo nel 2024 di host free che non ti ciulino i dati non credo ne esistano più. Se vuoi parlare al mondo attraverso una piattaforma che sia tua l'unica strada è aprire il borsellino e fare l'investimento.

Differenza tra Wordpress.COM e wordpress.ORG

OK, per tutta la prima metà dell'articolo ho detto di scappare da wordress.com per poi consigliare di andare su wordpress? Sei Confuso? Fai bene!

Wordpress.org è una soluzione opensource su cui circa il 40% dei siti di tutto internet è basata. Wordpress.com è una soluzione PRIVATA che utilizza la piattaforma wordpess per vendere i propri servizi.

Il padrone di wordpress.com è un fondo di investimento e il CEO è il programmatore che ha iniziato a creare wordpress.org - Per questo motivo riesce a utilizzare il nome wordpress su un business privato, senza ritorsioni. E' il .com che vende i dati a OpenAI.

TLDR;

  • Se avevi un blog o stai postando contenuti su piattaforme non tue le possibilità che i tuoi contenuti vengano usati per addrestare le AI sono altissime.
  • Anche se hai i contenuti sul tuo blog OpenAI ti prende tutto, a meno che non notifichi in modo preciso che NON vuoi loo faccia.
  • Stiamo vivendo in un'epoca piratesca, dove le grosse aziende rubano il più possibile in attesa che il legislatore decida le regole del gioco.
  • Se sei un Disegnatore fai SUBITO export dei tuoi contenuti e cancella tutto.