Spis treści

- adw. TOMASZ SOWA, LL.M.
- +48 22 243 34 75
- kancelaria@sowaip.pl
Niezależnie od tego, czy budujesz mały czy duży model AI to musisz zadbać o legalne pozyskiwanie danych na potrzeby treningu, walidacji i testowania modelu. Dane, które chcesz wykorzystać mogą stanowić utwór chroniony prawem autorskim, dane osobowe w rozumieniu RODO, lub mogą wchodzić w skład baz danych chronionych na mocy regulacji dotyczących takich baz. W określonych przypadkach dane mogą być uznane za tajemnicę przedsiębiorstwa, lub za inne tajemnice prawnie chronione, podlegające szczególnym regulacjom. Czasami jednak w ogóle nie będą podlegać ochronie i nie będzie żadnych przeszkód do tego, aby z nich legalnie korzystać do jakichkolwiek celów. Z tego artykułu uzyskasz podstawowe informacje o regulacjach prawnych, które mogą znaleźć zastosowanie do danych, które chcesz wykorzystać do tworzenia modelu AI.
Utwór czy nie-utwór?
Przede wszystkim nie wszystkie dane są chronione jako utwory w rozumieniu Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (t.j. Dz. U. z 2022 r. poz. 2509 z późn. zm.) – p.a.
W praktyce często spotykamy się z opinią, że każdy przejaw działalności ludzkiej w formie tekstu, obrazu, fotografii, czy kodu stanowi utwór, w konsekwencji czego korzystanie z efektów pracy innych osób zawsze podlega regulacjom prawa autorskiego. Tymczasem, aby taki przejaw działalności ludzkiej mógł być uznany za utwór w rozumieniu prawa autorskiego musi mieć on charakter twórczy o indywidualnym charakterze.
Zgodnie z art.1 ust. 1 u.p.a.p.p.
Przedmiotem prawa autorskiego jest każdy przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci, niezależnie od wartości, przeznaczenia i sposobu wyrażenia (utwór).
Oznacza to, że przejaw działalności ludzkiej, który nie ma twórczego i indywidualnego charakteru nie będzie stanowił utworu i nie będzie chroniony na mocy prawa autorskiego. Jednoznaczne zakwalifikowanie, czy coś jest twórcze i indywidualne jest niestety często bardzo trudne i wywołuje wiele sporów wśród praktyków. Można tutaj powiedzieć, że na dwóch prawników znajdą się trzy opinie w tym temacie. Różnorodność możliwych ocen nie zmienia jednak zasadniczego wniosku, a mianowicie że dopiero spełnienie tych przesłanek będzie pozwalało na uznanie czegoś za utwór w rozumieniu prawa autorskiego i objęcia go ochroną prawną. Ochrona przysługuje natomiast z mocy samego prawa i to niezależnie od jakichkolwiek formalności prawnych (np. zastrzeżenia, że coś stanowi utwór, dopisku „copyright”, itd.).
Co może potencjalnie stanowić utwór w rozumieniu prawa autorskiego? Mogą to być teksty książek, teksty blogów (jak np. ten wpis), obrazy, filmy, nagrania dźwięków, grafiki komputerowe, wiersze i in.
Istotne jednak jest, że aby taka kwalifikacja była możliwa muszą być zachowane wszystkie elementy, o których mowa w ustawie. Na przykładzie fotografii przy ocenie czy ma ona charakter „twórczy” należy zbadać m.in.:
- Przedmiot fotografowany – kompozycja obiektu zdjęcia (ustawienie, oświetlenie);
- Moment wykonania fotografii w czasie – tzw. timing, miejsce, pozycja fotografa względem obiektu, technika, np. nałożone filtry, światło, ostrość itp.
- Obróbkę zdjęcia – wszystkie techniki związane z naświetlaniem, retuszem, kadrowaniem, czy mniej ostatnio popularnym wywoływaniem zdjęcia
(zob. R. Markiewicz, Ilustrowane prawo autorskie, Warszawa 2018, s. 109)
Warto jednak podkreślić, że w praktyce przyjmuje się dość niskie kryteria „twórczości”, a więc potencjalnie nawet banalne teksty lub fotografie mogą być uznane za utwory. Należy o tym pamiętać ważąc korzyści z wykorzystania określonych wytworów pracy ludzkiej dla budowy modelu AI z ryzykiem prawnym.
Część utworów przeszła już z mocy prawa do domeny publicznej, co oznacza, że można z nich korzystać bez ograniczeń z poszanowaniem jednak autorskich praw osobistych twórców. Okazuje się, że są to dość istotne i łatwo dostępne zasoby, które mogą posłużyć do rozwijania modeli AI.
Bazy danych
Należy jednak pamiętać, że niezależnie od tego, czy uznamy coś za utwór czy nie, w sytuacji gdy to „coś” występuje w pewnym zbiorze to należy mieć na względzie przepisy Ustawy z dnia 27 lipca 2001 r. o ochronie baz danych (t.j. Dz. U. z 2024 r. poz. 1769) – u.o.b.d.
W rozumieniu u.o.b.d:
Baza danych oznacza zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznymi, wymagający istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości.
Wykładnia tej definicji często bywa nieintuicyjna. Poniżej przedstawiamy kilka przykładów, które pozwolą zrozumieć o co w tym wszystkim chodzi. Przykłady są uszeregowane od najbardziej do najmniej intuicyjnych.
1. Baza danych obrazów z opisami (np. COCO Caption).
Przykład jest intuicyjny, gdyż tego rodzaju bazy są dostępne przez publiczne repozytoria i najczęściej oznaczone właśnie jako „datasety”.
Przykładowo, COCO Caption zawiera opisy dotyczące ponad 330 000 obrazów. Dla obrazów przeznaczonych do trenowania i walidacji mamy tam pięć niezależnych opisów wygenerowanych przez ludzi dla każdego obrazu.
Co zawiera baza?
- Obrazy o różnej tematyce.
- Opisy obrazów w języku naturalnym (np. „na zdjęciu widzimy ludzi spacerujących po parku”).
- Adnotacje dotyczące obiektów na obrazach (np. lokalizacja, klasyfikacja).
Baza COCO Captions może spełnić wszystkie warunki wymagane do uznania jej za bazę danych w rozumieniu u.o.b.d. Mamy tutaj znaczący nakład inwestycyjny (zebranie obrazów, adnotacje i przygotowanie danych w spójny sposób), systematyczne uporządkowanie (powiązanie obrazów z opisem) i dostępność danych na poziomie jednostkowym dla indywidualnych użytkowników, które sprawiają, że może być chroniona jako baza danych. W tym wpisie nie chcemy dokonywać oceny prawnej konkretnych baz, ale podać Wam przykłady, które pomogą zrozumieć jak odbywa się klasyfikacja na podstawie przepisów ustawy.
2. Portal ogłoszeniowy (np. portal z ogłoszeniami nieruchomościami, itp. )
Przykład jest mniej intuicyjny od poprzedniego dlatego, że informacje w nim zawarte nie są dostępne w formie oznaczonego „datasetu”. Użytkownik portalu nie myśli o tym, że korzysta z danych, które są powiązane z szerszą całością i o tym jak łatwo dotarł do określonych interesujących go treści. Tymczasem ktoś poniósł istotny nakład inwestycyjny na to, aby tako zbiór danych sporządzić, zweryfikować i zaprezentować. Mamy też określoną systematykę (m.in. lokalizację, ilość m2, typ zabudowy, data dodania ogłoszenia). Każde ogłoszenie jest też dostępne w sposób indywidualny, tj. po otrzymaniu listy możemy przejść do konkretnego ogłoszenia, skopiować do niego link, udostępnić pocztą itp.
W wyroku z dnia 9 maja 2013 r., II CSK 466/12, OSNC-ZD 2014, nr 3, poz. 46. Sąd Najwyższy uznał jednoznacznie, że serwis internetowy z ogłoszeniami samochodów stanowi elektroniczną bazę danych w rozumieniu u.o.b.d.
3. Antologia wierszy
Tak tak. Antologia wierszy. Trybunał Sprawiedliwości Unii Europejskiej w wyroku C-304/07 stwierdził, że antologia wierszy stanowi bazę danych (co nie jest bardzo zaskakujące, ale jest dość mało intuicyjne).
Dlaczego tak się stało? Poniżej fragment uzasadnienia.
W ramach projektu 'Klassikerwortschatz’ prof. Knopp sporządził listę tytułów wierszy, która została opublikowana w Internecie pod tytułem 'Die 1100 wichtigsten Gedichte der deutschen Literatur zwischen 1730 und 1900′ (’1100 najważniejszych wierszy literatury niemieckiej w latach 1730-1900′), która stanowiła podstawę antologii fryburskiej. Lista wymienia, w porządku odpowiadającym ilości wzmianek tych utworów, autora, tytuł, pierwszy wers oraz rok publikacji każdego z wierszy. Lista została oparta o wybór wierszy, którego dokonano w następujący sposób: z około 3000 opublikowanych antologii poezji wybrano 14. Zbiór uzupełniono zestawieniem bibliograficznym 50 antologii niemieckojęzycznych autorstwa Anneliese Dühmert pod tytułem 'Von wem ist das Gedicht?’ („Czyj to wiersz”?) Razem dzieła te wymieniały około 20 000 wierszy. Do umieszczenia na liście kwalifikowały się wiersze, które zostały przytoczone w co najmniej trzech antologiach lub wymienione co najmniej trzy razy w zbiorze bibliograficznym A. Dühmert. W celu dokonania tego statystycznego zestawienia ujednolicono tytuły oraz pierwsze wersy wierszy oraz sporządzono listę wszystkich tytułów wierszy. Wreszcie zostały ustalone dzieła, w których zostały one opublikowane oraz ustalono rok ich powstania. Praca nad sporządzeniem listy, która została wykonana przez Klemensa Wolbera wraz ze współpracownikami pod ogólnym kierownictwem prof. Knoppa zajęła około dwa i pół roku. Koszty wynoszące ogółem 34 900 EUR poniósł Uniwersytet Fryburski.
Warto zaznaczyć, że zbiór danych, który początkowo nie spełnia kryteriów bazy danych (np. elementy nie są od siebie niezależne ani indywidualnie dostępne), może zyskać takie cechy dzięki dodatkowej pracy – np. poprzez inwestycję w jego przygotowanie, weryfikację czy sposób prezentacji. W takim przypadku zaczyna podlegać ochronie na mocy ustawy o ochronie baz danych. Co ważne, korzystanie z pierwotnej wersji takiego zbioru nie będzie naruszeniem prawa producenta, ale już używanie tej ulepszonej – tak (zob. S. Stanisławska-Kloc [w:] Komentarz do ustawy o ochronie baz danych [w:] Ustawy autorskie. Komentarze. Tom II, red. R. Markiewicz, Warszawa 2021, art. 2.).
Dane osobowe
Zgodnie z art. 4 pkt 1 RODO
dane osobowe oznaczają wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej („osobie, której dane dotyczą”); możliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej.
Zgodnie z motywem 26 RODO zasady ochrony danych powinny mieć zastosowanie do wszelkich informacji o zidentyfikowanych lub możliwych do zidentyfikowania osobach fizycznych. (…) Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować. Niniejsze rozporządzenie nie dotyczy więc przetwarzania takich anonimowych informacji, w tym przetwarzania do celów statystycznych lub naukowych.
Powszechnie uważa się, że dane osobowe to dane identyfikujące określoną osobę fizyczną, takie jak imię i nazwisko, adres zamieszkania, wiek, płeć i in. Tymczasem definicja zawarta w RODO jest zupełnie odmienna, albowiem RODO ani nie wskazuje konkretnie jakie dane należy uznawać za dane osobowe, ani też jakich danych nie należy uznawać za dane osobowe. Mówiąc krótko RODO nie zawiera zamkniętego katalogu danych osobowych, a wręcz przeciwnie – nakazuje traktować jako dane osobowe wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej. Skoro definicja odwołuje się do wszelkich informacji o osobie, za dane osobowe można uznać takie informacje jak kolor i długość włosów określonej osoby, kolor oczu, wzrost, posiadane preferencje co do spędzania wolnego czasu, czy ulubiony kolor. Taką informacją może być wszystko, o ile tylko możliwe jest powiązanie tej informacji z już zidentyfikowaną osobą lub tu uwaga, z osobą która możliwa jest do identyfikacji. Ujmując rzecz od innej strony dokładnie te same informacje, o których mowa wyżej – jeżeli nie będzie można odnieść ich do zidentyfikowanej, lub możliwej do zidentyfikowania osoby fizycznej – nie będą stanowiły danych osobowych w rozumieniu RODO, a tym samym do ich przetwarzania RODO nie znajdzie zastosowania, bo będą to tzw. dane anonimowe lub zanonimizowane.
Takie szerokie ujęcie danych osobowych stwarza istotne problemy w trakcie pozyskiwania i wykorzystywania danych do budowania modelu AI. To nie jest tak, że nie można przetwarzać danych osobowych na potrzeby budowania modelu AI, ale należy zadbać o spełnienie szeregu warunków, o których mowa m.in. tu:
Nasze prognozy na przyszłość są takie, że tworzeniu modeli AI nie będzie można spodziewać się taryfy ulgowej co do ochrony danych osobowych ze strony organów nadzorczych.
Informacje poufne
Warto mieć na względzie, że część danych to informacje poufne, chronione między innymi jako tajemnica przedsiębiorstwa.
Zgodnie z art. 11 ust. 2 Ustawy z dnia 16 kwietnia 1993 r. o zwalczaniu nieuczciwej konkurencji (t.j. Dz. U. z 2022 r. poz. 1233):
Przez tajemnicę przedsiębiorstwa rozumie się informacje techniczne, technologiczne, organizacyjne przedsiębiorstwa lub inne informacje posiadające wartość gospodarczą, które jako całość lub w szczególnym zestawieniu i zbiorze ich elementów nie są powszechnie znane osobom zwykle zajmującym się tym rodzajem informacji albo nie są łatwo dostępne dla takich osób, o ile uprawniony do korzystania z informacji lub rozporządzania nimi podjął, przy zachowaniu należytej staranności, działania w celu utrzymania ich w poufności.
Ważne! Definicja tajemnicy handlowej nie obejmuje nieistotnych informacji oraz doświadczeń i umiejętności, które zostały zdobyte przez pracowników w trakcie prowadzenia normalnej pracy, a także nie obejmuje informacji, które są powszechnie znane lub łatwo dostępne osobom z kręgów zajmujących się zwykle tym rodzajem informacji. Jakkolwiek zasada ta została potwierdzona w wielu wyrokach sądowych tak w praktyce bardzo trudne jest odróżnienie na tej podstawie informacji chronionych i informacji niepodlegających ochronie
Zgodnie z art. 11 ust. 1 u.z.n.k. ujawnienie, wykorzystanie lub pozyskanie cudzych informacji stanowiących tajemnicę przedsiębiorstwa jest czynem nieuczciwej konkurencji, chyba że zachodzą okoliczności, które wyłączają bezprawność takich działań. W razie chęci skorzystania z tego rodzaju danych zasady na jakich będzie się to odbywać powinny zostać dobrze uregulowane z podmiotem, któremu przysługują prawa do informacji objętych ochroną (zob. też art. 11 ust. 8-9 u.z.n.k.).
Warto w tym kontekście wspomnieć także o Kodeksie Pracy. Zgodnie z art. 100 § 2 pkt. 4 pracownik jest obowiązany dbać o dobro zakładu pracy, chronić jego mienie oraz zachować w tajemnicy informacje, których ujawnienie mogłoby narazić pracodawcę na szkodę.
Ponadto, poufność informacji może wynikać z wielu różnych innych przepisów. Najczęściej jednak spotykaną w praktyce podstawą do ochrony danej informacji jako poufnej są umowy o zachowaniu poufności.
Warunki prawne do skorzystania z danych na potrzeby budowania modelu AI.
Warunki prawne na jakich można skorzystać z określonych danych na potrzeby budowania modelu AI zależą od tego jakie dane mają zostać do tego wykorzystane a także jaki jest cel budowania modelu (domowy, komercyjny czy naukowy). Zasadniczo, dane podlegające ochronie mogą być wykorzystywane w oparciu o licencje umowne, licencje ustawowe (np. TDM exception) lub zgodę. Są jednak dane, które nie podlegają w ogóle ochronie w zakresie wykorzystywania. Wszystko zaczyna się zatem od kwalifikacji danych do określonych kategorii a następnie do ustalenia istnienia i granic ich ochrony na gruncie obowiązujących przepisów prawa i relacji kontraktowych. Zbudowanie modelu na danych pozyskanych i wykorzystanych zgodnie z obowiązującym prawem stanowi dość spore wyzwanie. Poświęcimy temu zagadnieniu osobny wpis na naszym blogu.
Podsumowanie
Powyższe przykłady pokazują, że korzystanie z danych na potrzeby budowania modelu AI jest warunkowane wieloma różnymi aktami prawnymi. Zapewnienie zgodności z przepisami prawa na etapie budowania modelu wymaga odpowiedzialnego podejścia do danych na każdym etapie pracy z danymi.
Tylko na podstawie niniejszego wpisu można zauważyć, że wykorzystanie danych do budowania modelu AI może podlegać warunkom określonym w następujących aktach prawnych:
- Ustawa z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (t.j. Dz. U. z 2025 r. poz. 24).
- Ustawa z dnia 27 lipca 2001 r. o ochronie baz danych (t.j. Dz. U. z 2024 r. poz. 1769).
- Ustawa z dnia 16 kwietnia 1993 r. o zwalczaniu nieuczciwej konkurencji (t.j. Dz. U. z 2022 r. poz. 1233).
- Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2024/1689 z dnia 13 czerwca 2024 r. w sprawie ustanowienia zharmonizowanych przepisów dotyczących sztucznej inteligencji oraz zmiany rozporządzeń (WE) nr 300/2008, (UE) nr 167/2013, (UE) nr 168/2013, (UE) 2018/858, (UE) 2018/1139 i (UE) 2019/2144 oraz dyrektyw 2014/90/UE, (UE) 2016/797 i (UE) 2020/1828 (akt w sprawie sztucznej inteligencji) Tekst mający znaczenie dla EOG (Dz. U. UE. L. z 2024 r. poz. 1689).
a nie są to jedyne regulacje w tym zakresie. Wszystko zależy od tego jakie konkretnie dane mają być wykorzystane na potrzeby budowania modelu. Ograniczenia korzystania z określonych danych mogą też wynikać z relacji kontraktowych (np. z regulaminu korzystania z określonego portalu).