Novi e-mailovi objavljeni u sklopu tužbe američkih pisaca protiv kompanije Meta za kršenje autorskih prava pružaju dosad najuvjerljiviji argument za njihovu tvrdnju da je Meta nezakonito koristila piratizirane knjige za treniranje svog modela umjetne inteligencije (AI).
Meta, koja upravlja platformama kao što su Facebook i Instagram, kao i aplikacijom za razmjenu poruka WhatsApp, je u siječnju priznala da je za tu svrhu koristila tzv. torrente i LibGen, kontroverznu bazu podataka koja sadrži desetke milijuna piratiziranih knjiga.
Novi interni e-mailovi koji su javnosti postali dostupni ovaj tjedan otkrivaju detalje te operacije, i pokazuju da je Meta za koristila gotovo 82 terabajta torrenta ilegalnog materijala za treniranje svog modela LLaMa, što uključuje i najmanje 36 terabajta sadržaja sa Z-Library i LibGen, dvije popularne piratske kolekcije skeniranih knjiga.
Torrenti su sistemi za distribuciju bilo kakve vrste digitalnog sadržaja, u kojem se korisnici spajaju s drugim korisnicima i međusobno razmjenjuju komadiće datoteka, dok ne skinu kompletni sadržaj koji ih zanima. Korisnici pronazale jedne druge pomoću specijaliziranih sajtova a budući da je riječ o decentraliziranoj tehnologiji, teže ju je pratiti i ograničiti.
Korisnici koji na kompjuteru imaju kompletnu datoteku – a to može biti film, audio zapis, knjiga, kompjuterska igra, ili bilo kakav drugi digitalni sadržaj – djeluju kao “domaćin” sadržaja, ili tzv. seed, dok god su spojeni na torrent mrežu, tako da drugi korisnici mogu od njih dio po dio preuzimati sadržaj, i zatim ga distribuirati međusobno dok ga preuzimaju. Zato je korištenje torrenta uvijek dvosmjerno.
Ono što je u novim e-mailovima sporno, izvještava Ars tehcnica, jest što se iz njih vidi da Meta nije samo skidala piratiziran sadržaj preko torrent mreža, već ga je i sama distribuirala, i to preko sajta Anna’s Archive, tražilice “skrivenog” – i u mnogo slučajeva piratiziranog – sadržaja na internetu.
Spisatelji koji su tužili Metu tražili su da kompanija sudu da na uvid informacije o svojim aktivnostima vezano za korištenje torrenta, jer smatraju da je Metino potencijalno distribuiranje piratskog sadržaja očito kršenje autorskih prava i američkih zakona. Meta se isprva opirala njihovim zahtjevima, no tužitelji su ipak iz drugih izvora pribavili neke interne e-mail poruke u kojima se vidi da je barem jedan zaposlenik Mete reagirao na potencijalno ilegalne radnje koje se tamo zbivaju.
“Korištenje torrenta na poslovnom laptopu djeluje neprikladno,” napisao je Nikolay Bashlykov, inženjer Mete, u internoj poruci iz travnja 2023., dodavši nasmijane emojije. U istoj poruci izrazio je i zabrinutost zbog korištenja IP adresa Mete za dijeljenje torrenta s piratskim sadržajem korisnicima izvan kompanije.
No, do rujna 2023. Bashlykov je odustao od šale, pa je kontaktirao pravni odjel kompanije, i u e-mailu objasnio da “korištenje torrenta podrazumijeva i domaćinsko dijeljenje datoteka, tj. dijeljenje piratskog sadržaja s korisnicima izvan kompanije – što “zakonski ne bi bilo u redu,” navodi Ars Technica.
Tužitelji tvrde da ove poruke pokazuju da su u Meti znali da je to što rade ilegalno. Bashlykov i njegova upozorenja, čini se, nisu utjecali na politiku tvrtke, koja je, po drugim sudskim dokumentima, barem još do travnja 2024. koristila torrente. Po izjavama svjedoka i bivših zaposlenika Mete, tvrtka je umjesto da prekine s ilegalnim radnjama pokušala prikriti svoje aktivnosti maskiranjem korporativnih IP adresa, kao i limitiranjem količine podataka koje od nje drugi korisnici torrenta mogu preuzimati.
Novi e-mailovi također ukazuju na to da je šef Mete, Mark Zuckerberg, potencijalno lagao kad je prilikom svjedočenja rekao da nije bio uključen u odlučivanje o korištenju LibGen kolekcije za treniranje AI modela, jer u jednom od internih e-mailova spominje se da je sa tim problemom upoznat “MZ.” Tužitelji sad traže da se Zuckerbergu izda sudski poziv i da se njegovo svjedočenje ponovi.
Meta od početka sudskog spora tvrdi da je njihovo korištenje LibGena pokriveno tzv. fair use doktrinom, i da nisu prekršena autorska prava, no ove novootkrivene poruke mogle bi zakomplicirati slučaj jer upućuju na to da se ne radi samo o dokazivanju da je Metin model oponašanjem materijala na kojem je treniran prekršio autorska prava – već i da je Meta, jedna od najvećih korporacija na svijetu – aktivno sudjelovala u distribuciji ilegalnog sadržaja.
Niz spisatelja je 2023. pokrenuo nekoliko tužbi na američkim sudovima protiv tvrtki OpenAI i Meta, tvrdeći da su korištenjem javno dostupnih knjiga za treniranje svojih AI modela ChatGPT i LLaMa prekršile zakone o autorskim pravima. Tužbe su naknadno spojene u jednu, a u priopćenjima odvjetnika koji ih zastupaju ta dva modela su opisana kao “plagijatori industrijskih razmjera.”
Debate i sporovi oko autorskih prava i umjetne inteligencije traju i dalje, i još uvijek nije jasno na koji način će se zakonski definirati tehnološka inovacija koja omogućava strojevima da “konzumiraju” enormne količine sadržaja kojeg stvaraju ljudi, kako bi onda oponašao ljudsku inteligenciju.
U drugom sudskom sporu koji je privukao medijsku pažnju američki New York Times je u svoje i u ime niza drugih novinarskih kuća u siječnju tražio preliminarno saslušanje na saveznom sudu protiv tvrtke OpenAi i Microsofta, na kojem bi se trebalo utvrditi imaju li dovoljno argumenata za pokretanje sudskog procesa zbog navodno ilegalnog korištenja njihovih materijala za treniranje ChatGPT-ja.
U toj tužbi, izdavači tvrde da je OpenAI koristio ogromne količine novinarskog sadržaja zaštićenog autorskim pravima – i to bez plaćanja bilo kakve naknade i bez pristanka vlasnika. Ishod te tužbe mogao bi imati egzistencijalnu važnost za novinarsku profesiju u Americi, jer je tako istrenirani AI model kasnije završio integriran u Microsoftovu tražilicu Bing, gdje korisnicima svojim riječima sumira novinarski sadržaj iz online izvora, i time direktno konkurira novinarskim kompanijama.
Nadalje, po fair use doktrini, koja u američkom zakonu dopušta iznimke od autorskog prava za neke svrhe i namjene, novonastalo djelo, da bi bilo legalno, mora biti osjetno drugačije od izvornog materijala, i ne smije se natjecati s originalom na istom tržištu.
Primjerice, fotografirati umjetničku sliku i tu fotografiju uključiti u ilustraciju ili kolaž je dopušteno, jer se radi o značajnoj transformaciji izvornog materijala. Ali fotografirati umjetničku sliku i onda ju predstavljati kao djelo iste vrijednosti i sadržaja kao i original nije.
Takva argumentacija prisiljava OpenAI i Microsoft da dokažu kako su rezultati koje ChatGPT proizvodi osjetno drugačiji od materijala na kojem je treniran. Odvjetnici New York Timesa smatraju da bi OpenAI trebao platiti milijarde dolara za odštetu novinarskim kompanijama – a traže i uništenje prikupljenog materijala korištenog za treniranje AI modela.
Pročitajte još:
S druge strane, odvjetnici OpenAi-ja ustrajavaju da se informacije koje konzumira umjetna inteligencija dijeli na manje komadiće koje zovu token, i da dobiveni rezultati – iako vrlo slični novinarskom originalu, nisu identični izvorima. Iz New York Timesa su uspjeli upitima ChatGPT-ju dobiti tekstove koji su identični njihovim člancima iz arhive, no iz OpenAI-ja tvrde da je postizanje takvog rezultata zlonamjerno, i da je za takav efekt trebalo uputiti i rafinirati tisuće upita umjetnoj inteligenciji.
Po američkom zakonu, za svaki pojedini slučaj kršenja autorskog prava predviđena je kazna do 150.000 dolara – a budući da se ovdje radi o slučaju gdje novinari tvrde da se radi o milijunima slučajeva kršenja prava, iznosi koje bi na kraju OpenAi i Microsoft mogli biti prisiljeni na plaćanje su astronomski.
I dok OpenAI i Meta odbacuju optužbe spisatelja i New York Timesa, neke druge novinarske kompanije, poput agencije Associated Press, britanskog Financial Timesa, ili američke tvrtke Vox Media, potpisale su sporazum o suradnji s Open AI-jem, u zamjenu za novac i mogućnost da umjetnu inteligenciju integriraju u vlastite redakcije.
U Europi to to učinili francuski list Le Monde, španjolska izdavačka kuća Prisa Media koja objavljuje list El Pais, te njemački izdavač Axel Springer, koji objavljuje list Bild i portale kao što su Politico ili Business Insider.
4 Odgovora
Ova situacija bi mogla biti poziv za veće angažiranje zakonodavaca i regulatore kako bi se postavili jasniji okviri odgovornosti
Ma je li moguće? Jao koja sramota
A zašto me to ne čudi
Strašno