4/2023: Artikler
20/12/2023

Mens vi venter på noe godt?

Gjennomføringen av digitalmarkedsdirektivet med fokus på unntakene for tekst- og datautvinning og betydningen for opphavsrett

Av Regine Skjeltorp Antonsen og Stian Hultin Oddbjørnsen, arbeider sammen i CMS Kluges teknologiteam. De bistår med et bredt spekter av juridiske tjenester knyttet til regulatoriske spørsmål, avtaleinngåelser, transaksjoner og tvister innen teknologi, media og digitalisering. De er en del av CMS’ globale TMC-avdeling.

Illustrasjon

Illustrasjon: Colourbox.com

1 innledning

Som en tidlig julegave publiserte Kulturdepartementet den 22. november 2023 høringsnotatet for implementering av Europaparlaments- og rådsdirektiv (EU) 2019/790 av 17. april 2019 om opphavsrett og nærstående rettigheter i det digitale indre marked (digitalmarkedsdirektivet) («høringsnotatet»)(1)Riktignok gjelder høringsnotatet også gjennomføringen av nett- og videresendingsdirektivet (EU) 2019/789, samt forslag knyttet til vederlagsretten i § 21 og «frikjøpt» musikk, samt forberedelse til tiltredelse til WIPO-traktatene WCT og WPPT. . Det har vært knyttet spenning til implementeringen av flere elementer i digitalmarkedsdirektivet, og kanskje særlig til utformingen av tekst- og datautvinningsbestemmelsene. Årsaken er at definisjonen av tekst- og datautvinning i digitalmarkedsdirektivet er så vid at den også åpner for ulisensiert bruk av opphavsrettsbeskyttet materiale for opptrening av kunstig intelligens.

EU lovgiver har uttalt at unntakene for tekst- og datautvinning er ment å skape en rimelig balanse mellom rettighetshavernes rettigheter og interesser på den ene siden, og brukernes rettigheter og interesser på den andre siden.(2)Digitalmarkedsdirektivet fortalepunkt 6. Det er likevel hevdet fra flere hold at unntakenes beskyttelsestiltak for rettighetshaverne ikke er egnet til å skape denne balansen.(3)Se for eksempel Open Letter to policy makers on Artifical Intelligence fra knstnerorganisasjonene, tilgjengelig her: https://www.cisac.org/Newsroom/articles/global-creators-and-performers-demand-creative-rights-ai-proliferation og Holter og Lundqvist, Generative KI-modeller – hva er status?, tilgjengelig her: https://www.bono.no/new-blog/2023/10/12/generative-ki-modeller-hva-er-status Departementet synes å velge en direktivnær gjennomføring av unntakene, noe som innebærer at unntakene antakelig vil få tilsvarende anvendelse i norsk rett som det som følger av direktivet.

Målet med denne artikkelen er å vurdere om rettighetshavernes og brukernes interesser er tilstrekkelig balansert ved gjennomføringen av tekst- og datautvinningsunntakene i digitalmarkedsdirektivet – og dermed om vi venter på noe godt når vi nå venter på gjennomføringen.

Målet med denne artikkelen er å vurdere om rettighetshavernes og brukernes interesser er tilstrekkelig balansert ved gjennomføringen av tekst- og datautvinningsunntakene i digitalmarkedsdirektivet – og dermed om vi venter på noe godt når vi nå venter på gjennomføringen.

2 om unntakene tekst- og datautvinning

2.1 Hva er tekst- og datautvinning?

Tekst- og datautvinning er kort forklart en automatisert maskinbasert prosess som brukes til å innhente og analysere data, inkludert tekst, lyd og bilder, med formål om å oppnå ny kunnskap og innsikt.(4)Digitalmarkedsdirektivet artikkel 2 nr. 2), samt fortalepunkt 8. Tekst- og datautvinning fungerer som et viktig verktøy for å navigere i den uendelige mengden av data som ligger tilgjengelig på internett, og som kan vise seg å inneholde flere skatter av stor verdi for blant annet europeisk økonomi og forskning(5)Muligheten til å foreta automatisk gjennomsøkning av data er viktig i mange henseender. Geiger m.fl. trekker frem at uten tekst- og datautvinningsteknikker ville man ikke vært i stand til å finne den relevante informasjonen i de over 11,5 millioner konfidensielle dokumenter som ble lekket om 214 000 offshore-firmaer for å avdekke «Panama papers»-skandalen, se Geiger m.fl., Text and Data Mining: Articles 3 and 4 of the Directive 2019/790/EU i Centre for International Intellectual Property Studies Research Paper No. 2019-08 s. 5. .

Tekst- og datautvinning er kort forklart en automatisert maskinbasert prosess som brukes til å innhente og analysere data, inkludert tekst, lyd og bilder, med formål om å oppnå ny kunnskap og innsikt.

I mange tilfeller vil tekst- og datautvinning likevel innebære en ulisensiert eksemplarfremstilling av åndsverk i strid med eneretten. For å skape rettslig klarhet innad i EU, er det vedtatt obligatoriske unntak og avgrensninger i eneretten til eksemplarfremstilling ved tekst- og datautvinning. Dette skal gjøre det mulig å anvende teknologien som har skapt behov for unntakene, uten å måtte be om samtykke fra rettighetshaver til bruk av de verk og arbeider som tekst og data skal utvinnes fra. Hensikten har vært å muliggjøre innovasjon og sikre EUs konkurransedyktighet overfor rettssystemer som i større grad har lagt til rette for bruk av store mengder data, inkludert beskyttede åndsverk.(6)Blant annet har USA og Storbritannia unntak for «fair use» som muliggjør bruk av beskyttede åndsverk for visse nærmere bestemte formål, og Japan har også egne regler som åpner for bruk av beskyttede åndsverk i en tekst- og datautvinningssituasjon.

2.2 Unntakenes side til opptrening av kunstig intelligens

Generativ kunstig intelligens må trenes opp for å utføre spesifikke oppgaver. Opptrening skjer typisk ved at algoritmene mates med en samling av data, ofte kalt datasett. For å generere gode resultat, er det som regel nødvendig å trene algoritmen med store nok datasett. En viktig forutsetning og driver for utviklingen av kunstig intelligens er derfor at man har tilgang på store mengder data – også kalt stordata (eller big data). En måte å få tilgang på store mengder data, er tekst- og datautvinning.

Når man bruker datasett for opptrening av kunstig intelligens, skjer dette i de fleste tilfeller på en måte som gjør at det lagres en midlertidig kopi av verket i systemets «hukommelse». Ettersom den som har opphavsrett til verket, også har enerett til å gjøre verket tilgjengelig for allmennheten og til å fremstille eksemplarer av verket, vil en slik midlertidig eksemplarfremstilling som utgangspunkt utgjøre et inngrep i eneretten. Selv om det finnes regler som i noen tilfeller kan tolkes på en måte som åpner for en slik midlertidig eksemplarfremstilling, har det vært knyttet stor usikkerhet til de rettslige implikasjonene av utvinning og midlertidig eksemplarfremstilling i forbindelse med opptrening av kunstig intelligens.

Da Kommisjonen først foreslo direktivet om opphavsrett i det digitale indre marked(7)Proposal for a Directive on Copyright in the Digital Single Market, COM/2016/0593 final – 2016/0280 (COD)., var det med kun ett obligatorisk unntak for tekst- og datautvinning i artikkel 3. Bestemmelsen åpnet for at kun forskningsinstitusjoner kunne foreta tekst- og datautvinning med formål om vitenskapelig forskning. Unntakets snevre anvendelsesområde ble imidlertid kritisert av både akademikere og kommersielle aktører, som ønsket et bredere unntak av hensyn til blant annet utviklingen av kunstig intelligens(8)European Commission, Communication from the Commission to the European Parliament, the Council, the European Economic and Social Committee and the Committee of the Regions, Towards a modern, more European copyright framework, COM(2015) 626 final, s. 7. . Det ble i den forbindelse påpekt at ordlyden i unntaket ekskluderte blant annet oppstarts- og innovasjonsbedrifter, ettersom unntaket kun omfattet ikke-kommersielle forskningsinstitusjoner. Etter å ha vurdert kritikken, innførte EU lovgiver et ytterligere unntak i digitalmarkedsdirektivet artikkel 4 som gir adgang for alle til å foreta tekst- og datautvinning også i kommersielle sammenhenger.

Selv om digitalmarkedsdirektivet i seg selv ikke har noen referanser til kunstig intelligens i bestemmelsene om tekst- og datautvinning eller fortalepunktene tilhørende disse, er det ganske klart at EU med innføringen av unntaket i artikkel 4, ønsker å tilrettelegge for kommersiell innovasjon og utvikling også for kunstig intelligens. Dette er blant annet eksplisitt uttalt av Europaparlamentets oppsummering av lovgivningsprosessen, hvor det fremgår at:

«the co-legislators agreed to enshrine in EU law another mandatory exception for general text and data mining (Article 4) in order to contribute to the development of data analytics and artificial intelligence.»(9)Europaparlamentets Summary note, Modernisation of European copyright rules: directive on copyright in the digital single market, 20. oktober 2023, tilgjengelig her https://www.europarl.europa.eu/legislative-train/package-better-access-to-digital-goods-services/file-jd-directive-on-copyright-in-the-digital-single-market

Til tross for at det ikke uttrykkelig fremgår av bestemmelsen, kan det i lys av det som er sagt over, ikke være tvil om at denne unntaksbestemmelsen også er ment å favne så bredt at den vil omfatte tekst- og datautvinning som skjer med formål om opptrening av kunstig intelligens. Dette er lagt til grunn i høringsnotatet.(10)Se punkt 3. Dermed må beskyttelsestiltakene for å balansere rettighetshavernes interesser opp mot brukerne av tekst- og datautvinningsunntakene være utformet med det utgangspunktet at unntakene åpner for lovlig eksemplarfremstilling for opptrening av kunstig intelligens.

3 Balansen mellom rettighetshaver og bruker

3.1 Beskyttelsestiltakene

I et forsøk på å sikre tilstrekkelig balanse mellom hensynet til rettighetshaverne og hensynet til behovet for tekst- og datautvinning, har EU-lovgiver valgt å innføre beskyttelsestiltak for rettighetshaverne i tekst- og datautvinningsunntakene. Det er innført ulike beskyttelsestiltak for tekst- og datautvinning for vitenskapelig- og kommersielt formål. Tekst- og datautvinning for kommersielt formål, er det mest inngripende for rettighetshaverne. Det er derfor størst behov for gode beskyttelsesmekanismer i disse tilfellene.

3.2 Materialet må være «lovlig tilgjengelig»

Direktivet bestemmer at den som fremstiller eksemplar for tekst- og datautvinningsformål skal ha lovlig tilgang til materialet. Dette gjelder både for tekst- og datautvinning for vitenskapelig- og kommersielt formål.

For vitenskapelig formål, kreves det at forsknings- eller kulturarvsinstitusjonen har tilgang til materiale som er åpent, enten fordi institusjonen har retningslinjer for åpen tilgang til forskning eller fordi de har tilgang etter avtale med rettighets­haver(e), typisk gjennom abonnement eller annen avtale. Institusjonens avtaler skal også regnes for å gjelde de ansatte(11)Digitalmarkedsdirektivet fortalepunkt 14. . Rettighetshavere kan ikke motsette seg tekst- og datautvinning for vitenskapelige formål, jf. artikkel 7 nr. 1 i direktivet. Det følger herav at alle avtalebestemmelser som er i strid med unntakene fastsatt blant annet i artikkel 3, er uten virkning.

I departementets foreslåtte lovtekst, er unntaket likevel formulert slik at «[d]en som har tilgang til lovlig tilgjengelige verk» kan fremstille eksemplar av verket for tekst- og datautvinningsformål.

Annen lovlig tilgang som er relevant for begge formål skal bero på en tilsvarende vurdering som etter åndsverkloven. Dette omfatter ifølge departementet, tilgang til materiale etter samtykke fra rettighetshaver, tilgang etter gave, kjøp av eksemplar eller abonnementstjeneste. Også den som har tilgang til et verk omfattet av en avtalelisens eller avgrensningsbestemmelse i åndsverkloven, skal regnes for å ha lovlig tilgang.(12)Høringsnotatet punkt 3.6.4.

Det følger videre av digitalmarkedsdirektivet fortalepunkt 14 at verk som er «frit tilgængeligt online» også er lovlig tilgjengelig.(13)Fortalepunkt 14 er riktignok skrevet til unntaket i artikkel 3 om tekst- og datautvinning for vitenskapelig formål, men ettersom artikkel 4, om tekst- og datautvinning for kommersielle formål, også oppstiller et vilkår om at uttrekket av data skal skje fra «lovligt tilgængelige værker», må vurderingen av hva som er lovlig tilgjengelig være den samme for de to bestemmelsene. Direktivet klargjør ikke nærmere hva som ligger i at verk er fritt tilgjengelig på internett, og det kan synes som at formuleringen innebærer at det er tilstrekkelig at alle kan se eller lese innholdet. Denne forståelsen harmonerer med behovet for store mengder data for å få valide resultater ved analyse gjennom tekst- og datautvinning og for å kunne trene opp kunstig intelligente systemer. Ved bruk av en automatisert maskinbasert metode for å innhente data er det i tillegg vanskelig – i alle fall per dags dato – å skille mellom hva som er lovlig tilgjengelig på internett og hva som ikke er det.

Samtidig vil en tilnærming som innebærer at alt som er tilgjengelig på internett på en måte som gjør at man kan se eller lese innholdet er «frit tilgængeligt», være et betydelig inngrep i rettighetshavernes enerett. Hvis det var ment slik, burde konsekvensene vært vurdert og uttrykkelig fremgått av direktivet. Departementet synes i høringsnotatet å legge til grunn at det ikke er holdepunkter for å hevde at ulovlig tilgjengelig materiale er omfattet av tekst- og datautvinningsretten(14)Høringsnotatet punkt 3.6.4. , noe som i utgangspunktet synes å være et fornuftig standpunkt.

I departementets foreslåtte lovtekst, er unntaket likevel formulert slik at «[d]en som har tilgang til lovlig tilgjengelige verk» kan fremstille eksemplar av verket for tekst- og datautvinningsformål. Bestemmelsen synes å legge opp til at det er lovligheten av brukerens handlinger for å få tilgang til tilgjengelig materiale som er avgjørende Det tas ikke høyde for at det som faktisk er avgjørende for om innholdet er lovlig tilgjengelig, er om rettighetshaveren har samtykket til at materialet er tilgjengelig på internett.

Rettighetshaverens samtykke er en grunnstein i eneretten, og en klargjøring av dette helt sentrale utgangspunktet i selve bestemmelsen kunne bidra til at hensynet til rettighetshaveren ble ivaretatt i større grad.

3.3 Rettighetshaverens «opt out»-mulighet

I motsetning til hva som er tilfellet for tekst- og datautvinning for vitenskapelige formål, bestemmer direktivet at rettighetshaveren har en såkalt «opt out»-mulighet for tekst- og datautvinning for kommersielle formål. En «opt out»-mulighet betyr at rettighetshaveren kan motsette seg at materialet brukes til tekst- og datautvinning for ikke-vitenskapelige formål. Dersom materialet er tilgjengelig på internett, må rettighetshaveren ta forbehold mot bruk av materialet ved å bruke en maskinlesbar metode. Det betyr at forbeholdet må fremgå av metadata eller i vilkårene for bruk av et nettsted eller en tjeneste(15)Artikkel 4 nr. 3, jf. digitalmarkedsdirektivet fortalepunkt 18. . En måte dette kan gjøres på, er ved bruk av robots.txt på nettsider(16)Høringsnotatet punkt 3.6.5. .

Et utgangspunkt hvor en rettighetshaver aktivt må reservere seg mot en eksemplarfremstilling av et verk han eller hun har enerett til, er en motsetning til det rettslige utgangspunktet om at opphavsretten oppstår ved frembringelsen av et verk, uten at det er et krav om registrering. Et slikt omvendt utgangspunkt har sin forklaring i at lovgiver har ønsket å unngå rettslig usikkerhet for tekst- og datautvinneren.(17)Digitalmarkedsdirektivet fortalepunkt 18. Ved tekst- og datautvinning ville man potensielt måtte klarere alle verk som er lovlig tilgjengelig på internett innenfor gitte kategorier, noe som ville by på problemer for blant annet materiale hvor rettighetshaverne ikke aktivt utøver sin rettighet(18)Communia, Policy Paper #15 on using copyrighted works for teaching the machine, 26. April 2023, tilgjengelig her: https://communia-association.org/policy-paper/policy-paper-15-on-using-copyrighted-works-for-teaching-the-machine/.

Samtidig er det en klar byrde for rettighetshaverne aktivt å måtte foreta en opt out for alt materiale som ligger (lovlig) tilgjengelig på internett. Slik artikkel 4 er formulert, synes det ikke som at bestemmelsen åpner for at en rettighetshaver kan ta et generelt forbehold mot at alt materiale, for eksempel alle verk som en rettighetshaver har frembragt, kan brukes i tekst- og datautvinning(19)Formuleringen i digitalmarkedsdirektivet artikkel 4 lyder slik: «rettigheds­haverne til værker og andre frembringelser, der er omhandlet i nævnte stykke, ikke udtrykkeligt har forbeholdt sig anvendelsen heraf på passende vis», hvor «heraf» spiller tilbake på «værker og andre frembringelser». Se også det norske lovutkastet, hvor det følger av ny § 50 e at «Første ledd gjelder ikke hvis opphaver på hensiktsmessig måte har forbeholdt seg retten til slik bruk av verket.». Videre er det slik at det er rettighetshaveren som er pliktsubjekt etter bestemmelsen, og det synes derfor som at en kollektiv opt out heller ikke er tillatt. En slik løsning harmonerer dårlig med i alle fall det norske kollektive rettighetssystemet, hvor rettighetshavere i stor grad har overlatt forvaltningen av sine rettigheter til kollektive forvaltningsorganisasjoner. Slik bestemmelsen ser ut nå, må man først foreta opt out for alle sine verk, før man kan overlate til en kollektiv forvaltningsorganisasjon å forhandle med utviklerne av kunstig intelligens om en eventuell betaling for fremtidig bruk av materialet. Å håndheve sine rettigheter blir altså en flerleddet prosedyre stikk i strid med det alminnelige utgangspunktet om at rettighetene til et verk oppstår med skapelsen av verket.

Paradokset i dette er at rettighetshaverne har muliggjort utviklingen av kunstig intelligens, som til gjengjeld truer det økonomiske grunnlaget til de samme rettighetshaverne.

En ytterlige utfordring er at det per nå synes å være selskapene som benytter materiale til å trene opp kunstig intelligens som har fått diktere opt out-funksjonaliteten. Spawning.ai som samarbeider med Stable Diffusion – en kunstig intelligent bildegenerator – og Open AI, som har skapt bildegeneratoren DALL-E, har gjort det mulig for kunstnere å reservere seg mot bruk av sine verk til opptrening av kunstig intelligens.(20)Se f.eks. https://medium.com/@blockgeni7/openai-allows-creators-to-opt-out-of-ai-training-data-28a2482b764b og https://www.technologyreview.com/2022/12/16/1065247/artists-can-now-opt-out-of-the-next-version-of-stable-diffusion/, samt Holter og Lundqvist, Generative KI-modeller – Hva er status?, 13 oktober 2023, tilgjengelig her: https://www.bono.no/new-blog/2023/10/12/generative-ki-modeller-hva-er-status Disse systemene gjør det kun mulig å opt out for ett og ett verk om gangen, og for mange rettighetshavere innebærer det en enorm arbeidsbyrde som understrekes ved at man må gjenta prosessen for hvert selskap som bruker materiale fra tekst- og datautvinning som opptreningsmateriale for kunstig intelligens.

Balansen forrykkes ytterligere ved at opt out-forbeholdet kun gir en mulighet til å forhindre bruk for fremtiden. Det betyr at der materialet allerede har blitt brukt til opptrening av kunstig intelligente systemer, uten at rettighetshaverne har hatt mulighet til å nekte slik bruk, eller til å ta betalt for denne bruken.(21)Holter og Lundqvist, Generative KI-modeller – Hva er status?, 13 oktober 2023, tilgjengelig her: https://www.bono.no/new-blog/2023/10/12/generative-ki-modeller-hva-er-status Paradokset i dette er at rettighetshaverne har muliggjort utviklingen av kunstig intelligens, som til gjengjeld truer det økonomiske grunnlaget til de samme rettighetshaverne.(22)Ibid.

Selv om opt out-mekanismen i seg selv er ment å skape balanse mellom brukerne av tekst- og datautvinning og rettighetshaverne, synes dette målet på nåværende tidspunkt å fortsatt være en luftspeiling i en regulatorisk ørken. Særlig gjelder dette fordi direktivet ikke pålegger noen transparensforpliktelser for utviklerne av kunstig intelligens. Ettersom direktivet ikke pålegger en transparensforpliktelse, er det umulig for rettighetshaverne å kontrollere hvorvidt et forbehold faktisk overholdes.

3.4 Transparensforpliktelsene i forordningen om kunstig intelligens

Det er en generell svakhet ved digitalmarkedsdirektivet, at rettighetshaverne ikke gis rett til informasjon som sier noe om hvorvidt materiale som de har enerett til, har vært gjenstand for tekst- og datautvinning. Realiteten er at det er svært lite åpenhet rundt opptrening av kunstig intelligens, og selskapene bak systemene publiserer sjeldent datasett eller metadata om datasettene som er brukt for utviklingen. Videre er det heller ikke tilstrekkelig med en generell transparensforpliktelse. For å kontrollere om et forbehold er overholdt, eller om verket er hentet fra et lovlig tilgjengelig sted, må rettighetshaverne også få kunnskap om hvor verket som er benyttet til opptrening er hentet fra.

Det er likevel et håp at trilogforhandlingene om EUs Artificial Intelligence Act («forordningen om kunstig intelligens») skal bidra til ytterligere balanse for rettighetshaverne. Det seneste forslaget innebærer at selskapene som står bak modellene for kunstig intelligens, må kunne demonstrere at de har iverksatt tilstrekkelige tiltak for å sikre at rettighetshavernes forbehold overholdes. Det er også foreslått at selskapene må gjøre tilgjengelig informasjon om sine retningslinjer for å håndtere opphavsrettsrelaterte aspekter.(23)Communia, The transparency provision in the AI Act: What needs to happen after the 4th trilogue?, 7. November 2023, tilgjengelig her https://communia-association.org/2023/11/07/the-transparency-provision-in-the-ai-act-what-needs-to-happen-after-the-4th-trilogue/

Det er en generell svakhet ved digitalmarkedsdirektivet, at rettighetshaverne ikke gis rett til informasjon som sier noe om hvorvidt materiale som de har enerett til, har vært gjenstand for tekst- og datautvinning.

For at transparensforpliktelsene i forordningen om kunstig intelligens skal kunne være av nytte for rettighetshavere, må kravet til transparens være uten rettslig tolkningstvil. Der tekst- og datautvinning er blitt brukt i opptrening av systemer for kunstig intelligens, vil det kun være mulig for rettighetshavere å ivareta sine rettigheter dersom de får utlevert konkret informasjon om hvordan opptrening skjer, dette inkluderer en liste over nettsteder og andre kilder hvor det er hentet data som er brukt til opptrening av systemet for kunstig intelligens, og en protokoll for de maskinlesbare forbeholdene som er støtt på og overholdt i forbindelse med tekst- og datautvinningen.

4 Avslutning

Det er vanskelig å vurdere om man noen gang vil være i stand til å oppnå en rimelig balanse mellom opphavsrett på den ene siden og teknologisk utvikling på den andre. For opphavsrett, som bygger på et system som tradisjonelt har vært dårlig utstyrt til å håndtere rettighetsklarering fra et stort antall rettighetshavere, er det krevende å skulle stake ut en ny kurs midt i den fjerde revolusjon hvor tilgjengeligheten av data er grunnlaget for innovasjon. Men, selv om data er den «nye oljen», er det viktig også å bevare insentivene for kreativ skapende innsats.

Det er vanskelig å gi et fullgodt svar på om vi venter på noe godt ved å vente på gjennomføringen av digitalmarkedsdirektivets unntak for tekst- og datautvinning, men vi venter kanskje i det minste på mindre rettslig usikkerhet?

Regine Skjeltorp Antonsen
Stian Hultin Oddbjørnsen