Zeptejte se ChatGPT na paměti komičky Sarah Silvermanové „The Bedwetter“ a AI chatbot může přijít s podrobným shrnutím každé části knihy.
Znamená to, že skutečně „četl“ a zapamatoval si pirátskou kopii? Nebo nasbíral tolik zákaznických recenzí a online diskuzí o bestselleru či muzikálu, kterým inspiroval, že je pasuje za odborníka?
Americké soudy by to nyní mohly pomoci napravit poté, co Silverman tento týden zažaloval výrobce ChatGPT OpenAI za porušení autorských práv, a připojil se tak k rostoucímu počtu autorů, kteří tvrdí, že nevědomky položili základy pro rozmach inteligence uměle v Silicon Valley.
Silvermanova žaloba říká, že nikdy nedovolila OpenAI zpracovat digitální verzi její knihy z roku 2010, aby trénovala její modely AI, a pravděpodobně byla ukradena ze „stínové knihovny“ pirátských děl. Říká, že paměti byly zkopírovány „bez souhlasu, bez uvedení kreditu a bez náhrady“.
Toto je jeden z mnoha případů, které by mohly odhalit tajemství OpenAI a jeho konkurentů o cenných datech používaných k výcviku stále více používaných produktů „generativní umělé inteligence“, které vytvářejí nový text, obrázky a hudbu. A vyvolává otázky ohledně etického a právního základu nástrojů, které projekty McKinsey Global Institute přidají do globální ekonomiky ekvivalent 2,6 až 4,4 bilionu dolarů.
“Je to otevřené a špinavé tajemství celého průmyslu strojového učení,” řekl Matthew Butterick, jeden z právníků zastupujících Silvermana a další autory v hromadné žalobě. „Milují data knih a získávají je z těchto nelegálních stránek. Trochu odsuzujeme všechny ty tréninky.
OpenAI nereagovala na žádosti o vyjádření k obviněním. Další žaloba Silverman uvádí podobná tvrzení o modelu umělé inteligence vytvořeném mateřskou společností Meta na Facebooku a Instagramu, která se odmítla vyjádřit.
Pro spisovatele může být těžké vyhrát, zvláště poté, co se Googlu podařilo odrazit právní výzvy své online knihovny knih. V roce 2016 Nejvyšší soud USA potvrdil rozsudky nižších soudů, které zamítly tvrzení autorů, že digitalizace milionů knih a prezentace malých částí z nich veřejnosti společností Google představovala „porušení autorských práv v epickém měřítku“.
„Myslím, že to, co OpenAI udělala s knihami, je strašně blízko tomu, co Google směl dělat se svým projektem Google Books, a bude proto legální,“ řekl Deven Desai, docent práva a etiky na Georgia Institute of Technology.
Zatímco jen hrstka lidí podala žaloby, včetně Silvermana a nejprodávanějších romanopisců Mony Awad a Paula Tremblaye, obavy z praktik technologického průmyslu při budování umělé inteligence nabyly v komunitách na síle, literární i umělecké.
Další prominentní autoři – včetně Nory Robertsové, Margaret Atwoodové, Louise Erdrichové a Jodi Picoultové – podepsali koncem minulého měsíce dopis generálním ředitelům OpenAI, Google, Microsoft, Meta a dalším vývojářům umělé inteligence, v němž je obviňují z vykořisťovatelských praktik při vytváření chatbotů, které „napodobují a opakovat“ jejich jazyk, styl a myšlenky.
„Miliony knih, článků, esejů a poezie chráněných autorskými právy poskytují ‚potravu‘ pro systémy umělé inteligence, nekonečná jídla, za která nebyl žádný účet,“ uvedl otevřený dopis organizovaný Cechem autorů a podepsaný více než 4000 spisovateli. „Utrácíte miliardy dolarů za vývoj technologie umělé inteligence. Je jen spravedlivé, že nás kompenzujete za použití našich spisů, bez nichž by AI byla banální a extrémně omezená.
Systémy umělé inteligence za populárními produkty jako ChatGPT, Google's Bard a Microsoft's Bing chatbot jsou známé jako velké jazykové modely, které se „učily“ analýzou a přebíráním vzorů z velkého korpusu přijatého textu. Zapůsobili na publikum svým solidním ovládáním lidského jazyka, ačkoli byli také známí svou tendencí chrlit lži.
Ačkoli byly modelky také vyškoleny na zpravodajských článcích a zdrojích sociálních médií, knihy jsou obzvláště cenné, jak OpenAI uznala v dokumentu z roku 2018 citovaném v Silvermanově žalobě.
První verze velkého jazykového modelu OpenAI, známého jako GPT-1, byla založena na datovém souboru sestaveném univerzitními výzkumníky nazvanému Toronto Book Corpus, který zahrnoval tisíce nepublikovaných knih, některé z dobrodružných, fantasy a romantických žánrů.
“V podstatě obsahuje dlouhé části souvislého textu, což umožňuje generativnímu modelu naučit se podmiňovat informacemi dlouhého dosahu,” uvedli tehdy výzkumníci z OpenAI. Další technologické společnosti jako Google a Amazon také spoléhaly na stejná data, která již nejsou k dispozici v původní podobě.
Od té doby však OpenAI a další významní vývojáři AI začali více tajit své zdroje dat, i když pohlcovali ještě větší množství písemných prací. Butterick řekl, že nepřímé důkazy ukazují na používání takzvaných stínových knihoven pirátského obsahu obsahujících díla Silvermana a dalších žalobců.
“Je to důležité pro jejich vzory, protože knihy jsou nejlepším zdrojem dlouhého, dobře upraveného a souvislého psaní,” řekl. “V zásadě nemůžete mít vysoce kvalitní jazykový model, pokud nemáte ve svých tréninkových datech knihy.”
Může trvat týdny nebo měsíce, než se očekává oficiální odpověď od OpenAI. Ale jakmile se případ rozběhne, tech manažeři možná budou muset pod přísahou svědčit o zdrojích knih, které zkopírovali.
“Pokud víme, druhá strana to nepopřela,” řekl Joseph Saveri, další ze Silvermanových advokátů. “Nemají pro to žádné jiné vysvětlení.”
Saveri řekl, že autoři nutně nepožadují technologické společnosti, aby zahodily své algoritmy a tréninková data a začaly znovu – ačkoli existuje precedens pro zničení špatně získaných dat AI. Ale je potřeba způsob, jak kompenzovat spisovatele, řekl.