NASK odpowiada na list wydawców prasy: dane do modelu AI tylko za umową
Wczoraj Izba Wydawców Prasy wydała komunikat sugerujący, że grupa pracująca nad polskim modelem generatywnej sztucznej inteligencji miałaby pozyskiwać treści z mediów bez licencji i darmowo. Zdecydowanie przeczy temu Naukowa i Akademicka Sieć Komputerowa jeden z podmiotów konsorcjum. W przesłanym naszej redakcji oświadczeniu NASK zapewnia, że wykorzystanie danych wydawców będzie odbywać się każdorazowo za ich zgodą oraz na podstawie umowy licencyjnej.
Sprawa dotyczy polskiego generatywnego modelu językowego PLLuM (Polish Large Language Model), nad którym pracuje konsorcjum sześciu jednostek naukowych: Politechniki Wrocławskiej, Instytutu Podstaw Informatyki PAN, Instytutu Slawistyki PAN, Naukowej i Akademickiej Sieci Komputerowej, Ośrodka Przetwarzania Informacji oraz Uniwersytetu Łódzkiego przy wsparciu Ministerstwa Cyfryzacji.
Pod koniec marca konsorcjum wystosowało do Izby Wydawców Prasy list z propozycją współpracy nad modelem. Miałaby ona polegać na udostępnieniu treści należących do mediów do treningu PLLuM.
– Nie negując inicjatywy stworzenia polskiego modelu językowego, jaki ma być wykorzystywany w polskim modelu sztucznej inteligencji, pragniemy zwrócić Państwa uwagę na fakt, iż w przedmiotowym piśmie nie ma mowy o podpisaniu umów licencyjnych. Uzasadniona jest więc supozycja, iż ww. konsorcjum czyni starania o pozyskanie materiałów prasowych za darmo, pomimo otrzymania wspomnianego dofinansowania z Ministerstwa Cyfryzacji – podał w komunikacie Marek Frąckowiak, prezes Izby Wydawców Prasy. Organizacja z pisma presuponuje, iż „iż przekazanie materiałów może oznaczać stracenie kontroli nad ich wykorzystywaniem”.
NASK odpowiada wydawcom
Z takim podejściem do tematu zdecydowanie nie zgadza się Naukowa i Akademicka Sieć Komputerowa – Państwowy Instytut Badawczy, zaangażowana w prace nad PLLuM. W oświadczeniu wysłanym Wirtualnemedia.pl NASK podkreśla, że tworzone narzędzie służyć ma „dobru publicznemu” i że „przyda się on dziennikarzom, przedsiębiorcom i naukowcom”. Nie ma mowy o korzystaniu z treści mediów bez licencji – zapewnia NASK.
„Nie chcemy popełniać błędów, które miały miejsce w innych krajach. Dlatego wykorzystanie danych przekazanych przez wydawców do opracowania otwartego modelu językowego odbywa się zawsze za ich zgodą oraz na podstawie umowy licencyjnej. W pracach nad tym modelem korzystamy także z otwartych danych, przestrzegając obowiązujących regulacji prawnych, które dotyczą wykorzystania tych treści do tworzenia modeli językowych. 28 marca wysłaliśmy list adresowany do wydawców. Jego celem jest zaproszenie mediów do rozmów, i nie ma w nim podstaw by wnioskować, że chcielibyśmy pracować razem bez podpisywania stosownych umów, chroniących twórców treści, na których nasz model będzie się uczyć” – czytamy w oświadczeniu NASK.
PLLuM w założeniu ma działać na otwartej licencji do zastosowań naukowych, edukacyjnych, biznesowych czy administracyjnych. Model zakłada “opracowanie obszernego i zróżnicowanego zbioru danych, oddającego złożoność języka polskiego”, jak podano na stronie opisującej projekt.
Dołącz do dyskusji: NASK odpowiada na list wydawców prasy: dane do modelu AI tylko za umową
Piszą, że "istotnym elementem przedsięwzięcia" jest opracowanie takiego zbioru. Modele się po prostu uczą na danych. Dane są im potrzebne, żeby krok po kroku zacząć rozumieć treści podawane mu przez człowieka i na nie odpowiednio odpowiadać/reagować.