Scenka z życia: startup, który „zeskrobał cały internet”
Gdzie kończy się spryt, a zaczyna ryzyko prawne
Mały zespół w coworku, kilka monitorów, kawa z dripa i hasło przewodnie: „po prostu zeskrobmy wszystko, co się da z sieci, a potem to ogarniemy”. Programista chwali się: „Nasze skrypty ściągnęły już milion artykułów, setki tysięcy zdjęć, będziemy mieć najlepszy model w branży”. Dopiero gdy projekt zaczyna interesować inwestora, ktoś zadaje niewygodne pytanie: „A macie to legalnie?”.
To ostatnie zdanie zwykle jest momentem zderzenia się z prawnikiem, który nie pyta o architekturę modelu, ramy etyczne ani o dokładność predykcji, tylko o jedno: na jakiej podstawie prawnej przetwarzacie te treści. Nagle okazuje się, że „przecież to jest w internecie, więc chyba wolno” nie jest żadnym argumentem, a hurtowe kopiowanie chronionych utworów na serwery firmy to nie niewinna automatyzacja, lecz możliwe naruszenie praw autorskich na masową skalę.
Kontrast jest prosty. Z jednej strony podejście „zbierzmy wszystko, co się da” – szybkie, kuszące, często technicznie imponujące, ale prawnie kompletnie nieosłonięte. Z drugiej – podejście „zbudujmy legalny i odporny na spory system”, czyli selekcja źródeł, analiza licencji, oznaczanie opt-out, polityka danych treningowych, czasem pozyskiwanie płatnych zbiorów. Mniej „sexy” na początku, ale o wiele bezpieczniejsze przy skalowaniu biznesu lub w kontakcie z dużymi klientami.
W praktyce brak świadomości prawnej przy trenowaniu AI nie jest przejawem kreatywności ani odwagi. To zwykły hazard, w którym stawką jest nie tylko potencjalna kara czy proces, ale także zaufanie użytkowników, wiarygodność marki i możliwość dalszego pozyskiwania danych od partnerów. Kto buduje model na „byle czym z sieci”, ten często buduje go na piasku.
Intencja większości osób rozwijających rozwiązania AI jest rozsądna: zrozumieć, na jakich zasadach można legalnie korzystać z treści z internetu, gdzie przebiega linia między dozwolonym użyciem a naruszeniem oraz jak ułożyć proces pozyskiwania danych tak, aby model był użyteczny, ale i zgodny z prawem autorskim. To da się zrobić – pod warunkiem, że techniczne decyzje idą w parze z podstawową kompetencją prawną.

Co dokładnie dzieje się podczas trenowania AI na treściach z sieci
Techniczny proces widziany oczami prawnika
Dla inżyniera uczenia maszynowego proces jest dość klarowny: crawler odwiedza strony, scraper wyciąga teksty, obrazy lub inne dane, potem wszystko trafia do pipeline’u – czyszczenie, tokenizacja, augmentacja, budowa zbioru treningowego, trenowanie modelu, ewaluacja. Dla prawnika kluczowe jest jednak inne pytanie: jakie czynności na polu eksploatacji utworów tu zachodzą i czy są do nich prawa lub wyjątki ustawowe.
Na każdym etapie dzieje się co najmniej kilka czynności istotnych z punktu widzenia prawa autorskiego:
- Crawling i pobieranie treści – treści z sieci są kopiowane na serwer (cache, pliki tymczasowe, bazy danych).
- Tworzenie datasetu – dochodzi do utrwalenia i zwielokrotnienia utworów w uporządkowanej formie (zwykle gotowej do ponownego użycia).
- Przetwarzanie i analiza – dane są modyfikowane, łączone, tagowane; pojawiają się nowe bazy pochodne.
- Trening modelu – dane wejściowe są wielokrotnie odczytywane i przetwarzane, choć finalna forma to parametry, a nie wierna kopia plików.
Z perspektywy prawa nie ma znaczenia, że „nikt tego ręcznie nie ogląda” albo że „to tylko dane pośrednie”. Już samo kopiowanie i utrwalanie utworu bez zgody uprawnionego (lub podstawy ustawowej) może być naruszeniem, niezależnie od tego, czy rezultat będzie publicznie udostępniany, czy nie. To szczególnie niewygodne dla tych, którzy budują duże pipeline’y przetwarzające miliony dokumentów „w tle”.
Tymczasowe kopiowanie, dataset i udostępnianie wyników – co prawo rozróżnia
W praktyce warto rozwarstwić trzy poziomy działań:
- Kopiowanie tymczasowe – np. cache przeglądarki, krótkotrwałe buforowanie. Prawo w wielu jurysdykcjach zna wyjątki dotyczące tymczasowych kopii technicznych, które są niezbędne do transmisji w sieci.
- Budowa zbioru treningowego – to już najczęściej pełnoprawne zwielokrotnianie i utrwalanie utworów (często w wielkich ilościach), tworzenie nowego zbioru danych, który ma samodzielną wartość gospodarczą.
- Udostępnianie wyników – komercyjna usługa lub produkt wykorzystujący wytrenowany model, w tym generowanie treści mogących zawierać fragmenty cudzych utworów.
Prawo autorskie patrzy na te poziomy inaczej. Drobne, techniczne kopie potrzebne do wyświetlenia strony są zazwyczaj akceptowane. Natomiast hurtowe kopiowanie artykułów, zdjęć czy filmów do datasetu, by potem zarabiać na usługach AI, to już zupełnie inna kategoria. Gdy dochodzi do procesu sądowego, często właśnie zbiór treningowy staje się głównym punktem sporu: skąd pochodził, jakie treści zawierał, na jakiej podstawie je zebrano.
Wytrenowany model nie jest prostą bazą plików. Nie przechowuje tekstów słowo w słowo, tak jak folder z dokumentami, ale w praktyce bywa w stanie odtworzyć istotne fragmenty czy charakterystyczny styl pojedynczego autora. Z punktu widzenia prawa rodzi się dyskusja, czy i kiedy taki model można potraktować jako utwór zależny, bazę danych lub efekt dozwolonej eksploracji danych. Na to wpływa nie tylko teoria, ale również praktyka działania modelu – np. przypadki dosłownego „wypluwania” fragmentów książek czy artykułów.
Czy model „przechowuje” utwory? Uproszczone, ale użyteczne spojrzenie
Popularne jest porównanie: „model to nie baza PDF-ów, tylko zestaw parametrów statystycznych”. Technicznie trafne, ale w sporach prawnych to nie zamyka tematu. Istnieją sytuacje, gdy model trenowany na wąskim zbiorze (np. pełnej treści jednej książki) potrafi odtworzyć jej obszerne fragmenty, a nawet całość – wtedy argument „to tylko parametry” zaczyna słabnąć.
Sensowny sposób myślenia dla praktyka brzmi: im bardziej wynik działania modelu jest w stanie zastąpić korzystanie z oryginalnego utworu, tym większe ryzyko prawne. Jeśli model zbudowany na cudzych artykułach generuje streszczenia, analizy i teksty, które wypierają oryginały z rynku, to nawet przy braku „bezpośredniej kopii” może powstać problem naruszenia praw autorskich lub dóbr osobistych autorów.
Z drugiej strony, jeżeli model uczy się na zbiorze zanonimizowanych, agregowanych danych liczbowych (np. pomiarach temperatury, logach sensorów), ryzyka naruszenia praw autorskich są minimalne, bo dane nie są chronionymi utworami. Spór przesuwa się wtedy bardziej w stronę RODO, tajemnicy przedsiębiorstwa czy umów, a nie klasycznego prawa autorskiego.
Dlaczego samo kopiowanie do analizy już ma znaczenie
Wiele osób budujących modele AI wychodzi z założenia: „przecież my tylko analizujemy statystycznie, nic nie publikujemy, nikt poza algorytmem tego nie widzi”. Z prawnego punktu widzenia to nie wystarczy. Zwielokrotnianie i utrwalanie utworów następuje już w momencie zrobienia kopii na serwerze, włączenia ich do datasetu, backupu, przechowywania logów z przetwarzania.
Jeżeli nie zachodzi żaden wyjątek ustawowy (np. wyjątek TDM – text and data mining w UE, o którym niżej) ani nie ma licencji, właściciel praw może zarzucić bezprawne korzystanie z utworu, nawet jeśli żaden użytkownik końcowy nie otrzymał od was bezpośrednio jego tekstu czy obrazu. Sam fakt masowej analizy bez zgody może być problemem.
Wniosek z tej części jest prosty: zanim zacznie się szukać ratunku w wyjątkach i „furteczkach”, trzeba precyzyjnie nazwać, co dokładnie się robi z cudzymi treściami – na jakich serwerach, w jakiej formie, z jakim celem. Dopiero wtedy da się uczciwie ocenić, jakie pola eksploatacji są wykorzystywane i czy dana operacja mieści się w przepisach o treningu AI a prawie autorskim.

Podstawy prawa autorskiego potrzebne przy trenowaniu AI
Co jest „utworem”, a co zwykłą informacją
Kluczowa kategoria w prawie autorskim to utwór. W polskiej ustawie o prawie autorskim to „przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci”. Brzmi abstrakcyjnie, ale w praktyce chodzi o treści, które nie są czystą informacją, ale wynikają z czyjejś kreatywnej pracy.
Przykłady typowych utworów, na których można trenować modele tylko na określonych zasadach:
- artykuły blogowe, felietony, poradniki, scenariusze,
- zdjęcia, grafiki, ilustracje, layouty,
- filmy, podcasty, nagrania wideo,
- oprogramowanie (kod źródłowy), strukturalne bazy danych o oryginalnej konstrukcji.
Po drugiej stronie są treści, które ochronie prawnoautorskiej co do zasady nie podlegają:
- „gołe fakty” i dane liczbowe (np. temperatura, wyniki pomiarów),
- bardzo proste ogłoszenia w stylu „Sprzedam rower, cena do uzgodnienia”,
- krótkie hasła pozbawione indywidualnego charakteru, proste formuły.
Jeśli model trenuje się wyłącznie na surowych danych liczbowych, informacjach urzędowych, prostych komunikatach bez waloru twórczego – ryzyko naruszenia praw autorskich jest mniejsze. Ale w praktyce większość ciekawych projektów AI sięga po treści mieszane, w których obok liczb i faktów pojawia się warstwa twórcza (sposób przedstawienia, dobór słów, zdjęcia, grafika). I ta warstwa jest już normalnie chronionym utworem.
Prawa osobiste, majątkowe i pola eksploatacji
Prawo autorskie rozróżnia autorskie prawa osobiste i autorskie prawa majątkowe. W kontekście treningu AI kluczowe są te drugie, ale o osobistych nie można zapominać.
- Prawa osobiste – związane z osobą twórcy, nie wygasają, nie można się ich zrzec: prawo do autorstwa, do oznaczenia utworu imieniem i nazwiskiem lub pseudonimem, do nienaruszalności treści i formy utworu, do nadzoru nad sposobem korzystania.
- Prawa majątkowe – dają monopol ekonomiczny na korzystanie z utworu i pobieranie wynagrodzenia. Wygasają dopiero po określonym czasie (zwykle 70 lat po śmierci autora).
Korzystanie z utworu (zwłaszcza jego zwielokrotnianie, rozpowszechnianie, przetwarzanie) wymaga zgody właściciela praw majątkowych albo oparcia się na wyjątku ustawowym. Co ważne, zgoda jest udzielana w odniesieniu do konkretnych pól eksploatacji, czyli sposobów korzystania z utworu (druk, emisja w TV, internet, wprowadzanie do obrotu i tak dalej).
W przypadku AI powstaje pytanie: jakie pola eksploatacji są uruchomione, gdy:
- kopiujemy treści z internetu na serwer,
- tworzymy z nich dataset,
- analizujemy je automatycznie,
- udostępniamy wyniki na platformie SaaS.
Najczęściej w grę wchodzi zwielokrotnianie i utrwalanie (kopiowanie na dysk, tworzenie kolekcji danych) oraz publiczne udostępnianie (gdy model generuje treści dla użytkowników). Niektóre licencje wyraźnie wskazują, że obejmują lub wykluczają użycie utworu w trenowaniu modeli AI – do tego wrócimy przy licencjach Creative Commons i treściach komercyjnych.
Pola eksploatacji a czynności techniczne w AI
Chociaż wielu inżynierów patrzy na swoje działania jako „czysto techniczne”, ustawa nie rozróżnia „kopiowania dla człowieka” i „kopiowania dla algorytmu”. Tak długo, jak na jakimś nośniku powstaje kopia utworu, dochodzi do eksploatacji na polu zwielokrotniania utworu. Gdy ta kopia jest organizowana w dataset, przetwarzana, backupowana, często pojawiają się nowe pola, jak sporządzanie opracowań czy tworzenie utworów zależnych.
Dlatego tak ważne jest, by zespół techniczny i prawny potrafił się nawzajem zrozumieć. Dla prawnika pojęcia „cache”, „logi”, „baza embeddingów” czy „snapshot datasetu” często muszą być przełożone na kategorie: czyj utwór, w jakiej formie, w jakiej ilości, w jakim celu i na jak długo jest utrwalony. Od tego zależy, czy dozwolony użytek a AI w ogóle wchodzi w grę, czy konieczna jest licencja.
Licencje, regulaminy serwisów i „kliknięta zgoda” kontra trening modeli
Zespół devów siada do planowania architektury nowego modelu: „bierzemy teksty z Medium, Stack Overflow, paru forów i polskich portali z newsami, przecież wszystko jest publicznie dostępne”. Prawnik, który przypadkiem słyszy tę rozmowę w kuchni, odkłada kawę i pyta tylko jedno: „czy sprawdziliście licencje i regulaminy tych serwisów?”. Zapada dość długa cisza.
„Publicznie dostępne” nie znaczy „wolne do dowolnego użytku”. Każdy serwis internetowy ma swój regulamin, a konkretne treści mogą być objęte różnymi licencjami (w tym Creative Commons, licencjami komercyjnymi, warunkami indywidualnymi). Przy trenowaniu modeli AI trzeba patrzeć na co najmniej trzy poziomy zgód:
- regulamin serwisu (terms of service, ToS),
- licencję materiału (np. CC BY, komercyjna licencja wydawcy),
- ewentualne dodatkowe zastrzeżenia dotyczące TDM lub trenowania AI.
Regulaminy wielu dużych platform wprost zakazują scrapingu masowego w celach komercyjnych, automatycznego pobierania treści albo wykorzystywania ich do trenowania modeli bez odrębnej umowy. Z prawnego punktu widzenia złamanie regulaminu to nie tylko kwestia etyki – może oznaczać:
- naruszenie umowy (relacja serwis–użytkownik),
- naruszenie praw autorskich (gdy brakuje licencji na zwielokrotnianie),
- naruszenie przepisów o ochronie baz danych lub tajemnicy przedsiębiorstwa.
Inna grupa treści to materiały oznaczone licencjami Creative Commons. Samo „CC” nie równa się „wolno wszystko”. Trzeba rozróżnić:
- NC (NonCommercial) – zabrania wykorzystania komercyjnego; trenowanie modelu, na którym później buduje się płatny produkt, raczej trudno obronić jako „niekomercyjne”.
- ND (NoDerivatives) – zakaz utworów zależnych; można się spierać, czy wytrenowany model to „opracowanie”, ale w wielu scenariuszach biznesowych ryzyko jest niepotrzebnie wysokie.
- SA (ShareAlike) – wymaga udostępniania utworów zależnych na tej samej licencji; przy zamkniętych modelach SaaS może to być nie do pogodzenia z modelem biznesowym.
Jeżeli więc ktoś wrzuca do datasetu „wszystko, co ma znaczek CC”, bez filtrowania typów licencji, robi sobie przepisywaną na żywo minętykę prawną. Realistyczne podejście: wdrożyć filtr licencyjny już na etapie pobierania danych, a nie próbować później na szybko „wyczyścić” dataset, gdy produkt jest już na rynku.

Dozwolony użytek, cytat i inne mity: czego NIE wolno przy trenowaniu modeli
„Przecież to dozwolony użytek” – dlaczego ten argument zwykle nie działa
Właściciel małej platformy e-learningowej tłumaczy prawnikowi: „uczestnicy kursu to osoby fizyczne, uczą się, więc to jest dozwolony użytek edukacyjny, spokojnie możemy trenować model na ich materiałach”. Niestety, prawo widzi to inaczej. Dozwolony użytek to zestaw wyjątków od monopolu autorskiego, ale mocno ograniczonych co do celu, zakresu i sposobu korzystania.
Polskie (i unijne) przepisy przewidują m.in.:
- użytek osobisty – korzystanie z utworu w wąskim kręgu osób pozostających w związku osobistym (rodzina, bliscy znajomi),
- użytek edukacyjny – np. wykorzystanie fragmentów utworów w ramach zajęć dydaktycznych,
- użytek instytucji naukowych, bibliotek itd. – na określonych zasadach, głównie bez celu zarobkowego.
Trenowanie komercyjnego modelu AI na masowej skali, wewnątrz infrastruktury firmy, który ma potem obsługiwać klientów lub generować przychód, bardzo rzadko mieści się w tych wyjątkach. Szczególnie wątpliwe jest powoływanie się na użytek osobisty: gdy w grę wchodzi przedsiębiorca, centralna infrastruktura i produkt dla rynku, „wąski krąg” przestaje istnieć.
W praktyce dozwolony użytek bywa przydatny dla użytkownika końcowego (np. skopiowanie artykułu do prywatnego notatnika z AI), ale dla podmiotu tworzącego model czy platformę – już znacznie mniej. Tu gra toczy się raczej o wyjątki TDM lub o licencje, nie o klasyczny „użytek osobisty”.
Cytat nie służy do budowy datasetów
Częsta linia obrony technicznych zespołów brzmi: „przecież my tylko bierzemy fragmenty tekstów, to taki cytat”. Tymczasem prawo cytatu ma konkretny cel: umożliwić przytaczanie fragmentów cudzych utworów w ramach własnej wypowiedzi twórczej – dla analizy, wyjaśnienia, polemiki, parodii itp. Nie służy do masowego przepompowywania treści do modelu.
Żeby cytat był legalny, musi być spełnionych kilka warunków naraz:
- istnieje własny utwór cytującego (np. artykuł, książka, film),
- cytat jest uzasadniony celem – np. analizą, krytyką, nauczaniem,
- przytoczony jest zakres konieczny, a nie całe dzieło „na wszelki wypadek”,
- źródło i autor są oznaczeni.
Dataset treningowy nie jest „własną wypowiedzią twórczą” tego typu. Jest zbiorem materiałów do dalszej obróbki statystycznej. Algorytm nie „cytuje” w rozumieniu ustawy, tylko kopiuje i analizuje. Dlatego powoływanie się na prawo cytatu jako podstawę do scrapingu tysięcy artykułów czy zdjęć jest bardzo ryzykowne.
Cytat staje się natomiast ciekawą kategorią na etapie generowania treści przez model. Jeżeli użytkownik prosi np. o przytoczenie fragmentu książki czy wiersza i oznaczenie autora, a model przytacza krótki, potrzebny kontekstowo fragment, można próbować oceniać to właśnie przez pryzmat prawa cytatu. Jednak fundamentem legalności całego systemu nie będzie wtedy cytat, tylko sposób pozyskania i przetworzenia treści do treningu.
„To tylko analityka wewnętrzna” – cienka granica między analizą a eksploatacją
Gdy projekt dopiero startuje, nietrudno wpaść w narrację: „na razie robimy tylko analitykę wewnętrzną, nic nie udostępniamy, więc możemy ściągać więcej”. Rzecz w tym, że prawo autorskie nie uzależnia legalności kopiowania od tego, czy efekt jest później publiczny. Samo zrobienie kopii na serwerze, włączenie jej do datasetu, przetwarzanie – to już jest korzystanie z utworu.
Jeśli wewnętrzne eksperymenty dotyczą własnych danych firmy lub treści posiadających jasną licencję na TDM, sytuacja wygląda zupełnie inaczej niż wtedy, gdy ktoś masowo kopiuje cudze portale czy repozytoria. W tym drugim scenariuszu argument „to tylko testy” ma ograniczoną wartość, zwłaszcza gdy:
- dataset ma skalę produkcyjną (setki tysięcy lub miliony dokumentów),
- przetwarzanie jest zautomatyzowane i powtarzalne,
- na tej podstawie zapadają decyzje o budowie produktu.
Prosty test szczerości: czy gdyby właściciel praw autorskich dokładnie zobaczył logi i zrzuty ekranu z tych „wewnętrznych” eksperymentów, uznałby to za zwykłe oglądanie strony, czy za tworzenie na jej podstawie nowego procesu biznesowego? Druga odpowiedź oznacza wyjście poza klasyczny dozwolony użytek.
Granica między inspiracją a kopiowaniem przy generowaniu treści
Trening to jedno, ale duża część sporów dotyczy późniejszego generowania materiałów. Klienci chcą, by model „pisał jak znany felietonista” albo „rysował jak konkretny ilustrator”. Gdy model był karmiony głównie twórczością jednej osoby, ryzyko, że jego odpowiedzi zostaną uznane za utwory zależne lub wręcz naruszenie praw osobistych autora, rośnie drastycznie.
Inspiracja jest dopuszczalna – zarówno dla człowieka, jak i dla algorytmu kontrolowanego przez człowieka. Problem pojawia się tam, gdzie:
- model generuje fragmenty niemal identyczne z oryginałem,
- da się odtworzyć całe rozdziały, artykuły, linie kodu po serii promptów,
- styl i rozwiązania są tak bliskie, że odbiorcy traktują wynik jako „nowy tekst autora X”.
Proste zabezpieczenia na poziomie produktu – ograniczenie długości możliwego „cytatu”, filtry zapobiegające wypływaniu sekretów lub długich fragmentów książek, ostrzeżenia w regulaminie – nie rozwiążą wszystkich problemów, ale realnie zmniejszają ryzyko. Kluczowe jest jednak to, co działo się na etapie pozyskiwania danych: jeśli ktoś wytrenował model prawie wyłącznie na jednym, cudzym dziele bez licencji, trudno później przekonująco argumentować, że wynik to czysta, legalna inspiracja.
Wyjątki TDM (text and data mining) w prawie UE – na czym dokładnie polega legalna eksploracja danych
Skąd w ogóle wzięły się przepisy o TDM
Uniwersytecki zespół badawczy dostał grant na analizę setek tysięcy artykułów naukowych metodami machine learning. Wydawcy odpowiedzieli: „możecie czytać, ale kopiowanie całych numerów czasopism na wasze serwery to naruszenie licencji”. Konflikt był na tyle powszechny, że ustawodawca unijny postanowił stworzyć wyraźne ramy dla text and data mining, czyli automatycznej analizy dużych zbiorów danych.
Dyrektywa DSM (2019/790) wprowadziła do prawa UE dwa kluczowe wyjątki TDM:
- art. 3 – TDM na potrzeby badań naukowych przez uprawnione instytucje,
- art. 4 – ogólny wyjątek TDM dostępny także dla podmiotów komercyjnych, ale z możliwością wyłączenia („opt-out”) po stronie właścicieli praw.
Państwa członkowskie, w tym Polska, implementowały te przepisy do krajowych ustaw. W teorii stworzyło to „bezpieczny korytarz” dla analizy danych przez algorytmy. W praktyce diabeł tkwi w szczegółach – w tym, kogo obejmuje wyjątek, na jakich warunkach i jak długo wolno przechowywać kopie.
TDM dla nauki (art. 3 DSM) – szerokie, ale nie dla każdego
Wyjątek z art. 3 jest najbardziej przyjazny dla rozwoju AI, ale ma istotne ograniczenie: adresowany jest do instytucji prowadzących badania naukowe i instytucji dziedzictwa kulturowego (biblioteki, archiwa, muzea). Komercyjny startup nie skorzysta bezpośrednio z tego przepisu tylko dlatego, że „robi R&D”.
Co daje art. 3?
- prawo do zwielokrotniania utworów (robienia kopii) w zakresie niezbędnym do TDM,
- brak możliwości wyłączenia przez właścicieli praw (nie działa opt-out) – jeśli treści są legalnie dostępne, można je przetwarzać,
- obowiązek zapewnienia odpowiednich zabezpieczeń – kopie nie mogą „wyciekać” ani być używane poza celem badawczym,
- prawo do przechowywania kopii tak długo, jak to konieczne do badań, łącznie z ewentualną weryfikacją wyników.
Kluczowe są dwa kryteria: kto korzysta z wyjątku i jaki jest cel. Jeżeli uczelnia wyższa czy instytut badawczy trenują model w ramach projektu badawczego, który nie ma bezpośrednio komercyjnego przeznaczenia, art. 3 może być solidną podstawą. Jeśli jednak ta sama infrastruktura nagle zaczyna służyć do tworzenia produktu SaaS dla rynku, pojawia się pytanie, gdzie kończy się badanie, a zaczyna komercyjna eksploatacja.
Zdarzają się próby „podpinania” komercyjnych projektów pod granty i umowy z uczelniami tylko po to, by skorzystać z art. 3. Taki układ trzeba projektować bardzo ostrożnie: zakres dostępu, wspólne repozytoria, dokumentacja celu badań, jasne rozdzielenie datasetów używanych w części naukowej i komercyjnej. Brak tej higieny może sprawić, że cały projekt zostanie oceniony jako obejście przepisów.
Ogólny wyjątek TDM (art. 4 DSM) – jak daleko można pójść komercyjnie
Drugi wyjątek, z art. 4, jest znacznie bardziej interesujący dla firm budujących AI, bo obejmuje każdy podmiot, nie tylko instytucje badawcze. Pozwala na automatyczną analizę treści, nawet w celach komercyjnych, pod warunkiem spełnienia kilku warunków.
Po pierwsze, treści muszą być legalnie dostępne. Nie wolno więc trenować na pirackich kopiach książek czy filmów z nielegalnych źródeł. Legalność dostępu to albo zakup licencji, albo korzystanie z treści udostępnionych publicznie zgodnie z prawem (np. otwarte repozytoria, portale, na których sam wydawca udostępnia materiały).
Najczęściej zadawane pytania (FAQ)
Czy trenowanie AI na treściach z internetu jest w ogóle legalne?
Typowa sytuacja: zespół odpala crawlera na „cały internet”, a dopiero po pierwszej rozmowie z inwestorem ktoś pyta o podstawę prawną. Sam fakt, że treść jest publicznie dostępna, nie oznacza automatycznie, że wolno ją hurtowo kopiować i używać do trenowania modeli.
Co do zasady trenowanie AI na cudzych utworach (artykuły, zdjęcia, wideo) wymaga albo licencji, albo oparcia się na konkretnym wyjątku ustawowym, np. przepisach o text and data mining (TDM) w UE. Kopiowanie, utrwalanie i zwielokrotnianie treści „bo są w necie” bez żadnej z tych podstaw może zostać uznane za naruszenie praw autorskich, zwłaszcza gdy projekt ma charakter komercyjny.
Czy samo „zeskrobanie” stron do cache’a lub bazy już narusza prawo autorskie?
Wyobraź sobie, że twoje skrypty nigdy nic nie publikują, tylko „tylko analizują”. Z poziomu programisty to niewinna operacja techniczna, z poziomu prawa – już kopiowanie i utrwalanie utworu na serwerze. W wielu krajach takie działanie wchodzi w zakres monopolu autorskiego twórcy.
Istnieją wyjątki dla technicznych, tymczasowych kopii (np. cache potrzebny do transmisji), ale nie obejmują one zazwyczaj tworzenia pełnowartościowych datasetów do trenowania AI. Jeśli treści są ściągane, porządkowane, archiwizowane i wykorzystywane dalej w procesie treningu, trudno to traktować jako „przemijające buforowanie”.
Na czym polega różnica między chwilowym cache’em, datasetem a modelem AI z punktu widzenia prawa?
W praktyce masz trzy poziomy ryzyka. Cache przeglądarki czy krótkotrwałe buforowanie w infrastrukturze sieciowej z reguły mieści się w wyjątkach na tymczasowe kopie techniczne i nie budzi większych emocji prawników, o ile jest naprawdę przemijające i nie ma samodzielnej wartości gospodarczej.
Budowa zbioru treningowego to coś zupełnie innego: dochodzi do utrwalenia i zwielokrotnienia utworów w uporządkowanej formie, często na stałe. Taki dataset sam w sobie bywa cennym aktywem i właśnie on najczęściej staje się przedmiotem sporów. Sam model z kolei nie jest prostą bazą plików, ale jeśli pozwala odtworzyć rozpoznawalne fragmenty lub styl pojedynczych autorów, może zostać potraktowany jako utwór zależny lub efekt niedozwolonej eksploracji danych.
Czy skoro model przechowuje tylko „parametry”, to mogę spokojnie trenować na wszystkim?
Argument „to tylko parametry, a nie PDF-y” dobrze brzmi na prezentacji, ale w sporze sądowym bywa za słaby. Jeżeli model, po nakarmieniu treściami z jednej książki lub niszowego bloga, zaczyna odtwarzać ich długie fragmenty lub praktycznie zastępuje korzystanie z oryginału, ryzyko naruszenia praw autorskich rośnie bardzo wyraźnie.
Sensowna praktyczna zasada brzmi: im łatwiej rezultat działania modelu zastępuje korzystanie z chronionego utworu (czyli użytkownik „nie potrzebuje” już oryginału), tym większe ryzyko. Gdy model pracuje na zanonimizowanych danych liczbowych czy logach z sensorów, problem prawa autorskiego zwykle zanika, za to wchodzą inne reżimy (RODO, tajemnica przedsiębiorstwa, umowy).
Czy jeśli niczego nie udostępniam użytkownikom, tylko „wewnętrznie” trenuję model, to jestem bezpieczny?
Wiele zespołów zakłada: „nie publikujemy cudzych treści, więc nikt nie ma roszczeń”. Tymczasem naruszenie praw autorskich może nastąpić już na etapie wewnętrznego kopiowania i zwielokrotniania utworu – czyli wtedy, gdy ściągasz treści na serwer, trzymasz je w bazie treningowej, robisz backupy czy logi z przetwarzania.
Brak publicznego udostępniania może obniżać skalę szkody i wpływać na wysokość roszczeń, ale nie unieważnia obowiązku posiadania podstawy prawnej. Jeśli nie obejmuje cię żaden wyjątek (np. TDM na określonych warunkach) ani licencja, sam „wewnętrzny” charakter użycia nie rozwiązuje problemu.
Jakie są realne sposoby na legalne pozyskiwanie danych do trenowania AI?
Najbardziej przewidywalna ścieżka to zbudowanie świadomej strategii danych zamiast podejścia „bierzemy wszystko”. W praktyce oznacza to łączenie kilku źródeł i podstaw prawnych, np.:
- wykorzystanie treści na otwartych licencjach (np. CC BY, CC BY-SA) zgodnie z ich warunkami,
- korzystanie z płatnych, licencjonowanych zbiorów danych od dostawców,
- oparcie się na wyjątkach TDM tam, gdzie prawo je przewiduje i gdzie nie zastosowano skutecznego opt-out,
- pozyskiwanie danych od partnerów biznesowych na podstawie umów jasno regulujących prawa do treningu modeli.
Z perspektywy biznesu mniej efektowne jest to na starcie, ale później chroni przed sporami, blokadą skalowania produktu i utratą zaufania klientów, którzy coraz częściej pytają nie tylko „jak działa model”, ale też „na czym był trenowany”.
Co grozi firmie, która „bez refleksji” zbuduje model na byle jak zebranych treściach z sieci?
Na początku wszystko wygląda niewinnie: model działa, demo robi wrażenie, inwestorzy są zaciekawieni. Problemy zaczynają się, gdy autorzy treści, wydawcy lub organizacje zbiorowego zarządzania zaczną pytać o legalność źródeł. Wtedy wychodzi na jaw, że dataset powstał z masowego kopiowania cudzych utworów bez licencji i bez oparcia w wyjątkach.
Konsekwencje to m.in. roszczenia odszkodowawcze, nakaz zaprzestania korzystania z określonych danych (co może „uśmiercić” model), utrata wiarygodności u dużych klientów oraz realne ryzyko, że partnerzy przestaną udostępniać swoje dane. Innymi słowy – model zbudowany na „byle czym z sieci” często stoi na prawnej minie, która wybucha dopiero przy próbie poważnej komercjalizacji.







Interesujący artykuł! Bardzo doceniam w nim klarowne omówienie kwestii praw autorskich związanych z trenowaniem sztucznej inteligencji na treściach z internetu. Ciekawie przedstawione zagadnienia pozwalają zrozumieć, jak działa to w praktyce. Jednakże, moim zdaniem, brakuje głębszego przyjrzenia się alternatywnym sposobom legalnego trenowania AI, które mogłyby być bardziej efektywne lub korzystniejsze dla autorów treści. Byłoby warto rozszerzyć artykuł o takie aspekty, aby czytelnik mógł poznać szerszy kontekst tej problematyki.
Możliwość dodawania komentarzy nie jest dostępna.