Генеративті AI ChatGPT үшін заңды ақырзаман, егер плагиат немесе құқық бұзғаны үшін ұсталса, AI этикасы мен AI заңын ескертеді

ChatGPT сияқты генеративті AI веб-сайттарымызды және адам ойлап тапқан мазмұнды бұзады ма? Біліңіз, болыңыз ... [+] ренжі, дайын бол.

Getty

Несие қажет жерде несие беріңіз.

Бұл, бәлкім, сіз нық сену үшін өсірілген данышпан даналығы. Шынында да, бұл өмірдегі әділ және ақылға қонымды ереже екеніне бәріміз ақылға қонымды түрде келісе аламыз деп болжауға немесе елестетуге болады. Біреу мойындауға лайық нәрсе істегенде, оның лайықты мойындалғанына көз жеткізіңіз.

Қарама-қарсы көзқарас әлдеқайда аз әсерлі болып көрінеді.

Біреу серуендеп жүрсе, бұл несие керек емес Несие төлеу мерзімі болған кезде мойындалуыңыз мүмкін, сіз мұндай сенімнің әдепсіз және мүмкін жасырын екенін айта аласыз. Маңызды нәрсеге қол жеткізген біреудің несиесі алданып қалғанда, біз өзімізді қатты алаңдатамыз. Басқалардың еңбегі үшін басқалар өтірік мақтанса, біз әсіресе ренжітеміз деп айтуға батылым бар. Бұл екі жақты мазасыздық. Несие алуы керек адам күн астында қалудан бас тартады. Сонымен қатар, айлакер көздің жауын алады, бірақ олар бізді дұрыс емес алдап, біздің жақсы көңіл-күйімізді иемденіп жатыр.

Неліктен бұл ең дұрыс жолдармен несие жинау және бұрыс және менсінбейтін жолдардан аулақ болу туралы әңгіме?

Өйткені жасанды интеллекттің (AI) соңғы нұсқасына келгенде біз де осындай қиын жағдайға тап болған сияқтымыз.

Иә, бұл AI түрі арқылы жүзеге асып жатқанын айтады Ұрпақты AI. Қазіргі уақытта жаңалықтардағы ең ыстық AI болып табылатын Generative AI, несие алуға лайық емес нәрсе үшін несие алғаны туралы көптеген қолжазбалар бар. Бұл генеративті AI барған сайын кеңейіп, қолданылған сайын нашарлауы мүмкін. Өкініштісі, генеративті жасанды интеллектке несие беру көбейіп келеді, ал өкінішке орай шынайы несиеге лайық адамдар шаңда қалады.

Бұл болжамды құбылысты айқын көрсетудің менің ұсынатын жолы - екі ұтқыр фраза:

1) масштабтағы плагиат
2) Авторлық құқықты ауқымды бұзу

Қараша айында OpenAI шығарған ChatGPT деп аталатын кең танымал AI қолданбасының арқасында сіз генеративті AI туралы хабардар болуыңыз мүмкін деп ойлаймын. Мен генеративті AI және ChatGPT туралы біраз уақыттан кейін айтамын. Онда тұрыңыз.

Бірден жұрттың ешкісін алып жатқан жайтқа тоқталайық.

Кейбіреулер генеративті AI мазмұнды жасаған адамдарды ұрып-соғуы мүмкін деп қатты шағымданады. Көріп отырсыз, генеративті AI қолданбаларының көпшілігі Интернетте табылған деректерді зерттеу арқылы оқытылатын деректер. Осы деректерге сүйене отырып, алгоритмдер AI қолданбасында үлгіні сәйкестендірудің кең ішкі желісін жетілдіре алады, ол кейіннен автоматтандырудың бір бөлігі емес, адам қолымен жасалғандай таңғажайып көрінетін жаңа мазмұнды шығара алады.

Бұл керемет ерлік Интернетте сканерленген мазмұнды пайдаланумен байланысты. Деректерді оқытуға арналған дереккөз ретінде Интернет мазмұнының көлемі мен байлығы болмаса, генеративті AI дерлік бос болар еді және оны пайдалану үшін онша қызықтырмайды немесе мүлдем қызықтырмайды. Жасанды интеллект миллиондаған миллиондаған онлайн құжаттар мен мәтіндерді, сонымен қатар байланысты мазмұнның барлық түрін зерттей отырып, адам жасаған мазмұнды сынау және имитациялау үшін үлгі сәйкестігі біртіндеп алынады.

Мазмұн неғұрлым көп зерттелсе, үлгі сәйкестігі анағұрлым жақсырақ болады және мимикрияда одан да жақсырақ болады, қалғаны бірдей.

Міне, миллиондаған долларлық сұрақ:

Үлкен сұрақ: Егер сізде немесе басқа адамдарда Интернетте кейбір генеративті AI қолданбасы үйретілген мазмұн болса, мұны сіздің тікелей рұқсатыңыздысыз және мүлде сіздің хабардарсыз жасауыңыз мүмкін болса, сізде қандай құндылық туындайтыны туралы бәліштің бір бөлігін алуға құқығыңыз бар ма? бұл генеративті AI деректерін оқыту?

Кейбіреулер жалғыз дұрыс жауап деп қатты даулайды иә, атап айтқанда, бұл адам мазмұнын жасаушылар шынымен де әрекетке лайық. Мәселе мынада, сіз өз үлесін алған кез келген адамды табу қиынға соғады, ал ең сорақысы, ешкім дерлік үлес алған жоқ. Еріксіз және білместікпен үлес қосқан интернет-контент жасаушылар өздерінің заңды несиелерінен бас тартады.

Бұл қатыгез және шектен шыққан деп сипатталуы мүмкін. Несие керек жерде берілуі керек деген данышпандық даналықты біз жай ғана аштық. Генеративті AI жағдайында, шамасы, олай емес. Несиеге қатысты бұрыннан келе жатқан және ізгілікті ереже өрескел бұзылған сияқты.

Уа, ренжітеді, сіз жағдайды толығымен асыра көрсетіп, бұрмалап айтып жатырсыз. Әрине, генеративті AI Интернеттегі мазмұнды зерттеді. Әрине, бұл генеративті AI деректерін оқытудың бір бөлігі ретінде өте пайдалы болды. Рас, бүгінгі күні әсерлі генеративті AI қолданбалары осы қарастырылған тәсілсіз әсерлі болмас еді. Бірақ сіз мазмұнды жасаушыларға несиенің белгілі бір түрін бөлу керек деп айтқан кезде көпірден өттіңіз.

Логика келесідей. Адамдар Интернетке шығып, Интернеттен нәрсені үйренеді, мұны күнделікті және ешбір әбігерсіз жасайды. Сантехника туралы блогтарды оқып, содан кейін еркін қолжетімді сантехниканы жөндеу туралы бейнелерді тамашалайтын адам келесі күні шығып, сантехник болып жұмысқа тұруы мүмкін. Олар раковинаны қалай суару керектігі туралы жазған блогерге сантехникаға байланысты аударылған ақшасының бір бөлігін беруі керек пе? Олар ағып жатқан ваннаны жөндеу қадамдарын көрсететін бейнені түсірген влоггерге ақы төлеуі керек пе?

Жоқ дерлік.

Генеративті AI деректерін оқыту тек үлгілерді әзірлеу құралы болып табылады. Генеративті AI нәтижелері тек зерттелген нәрсені регургитациялау ғана емес болса, сіз олардың «үйренгенін» сенімді түрде дәлелдей аласыз, сондықтан қандай да бір нақты көзге нақты несие беруге жатпайды. Нақты регургитацияны орындау кезінде генеративті АИ-ді ұстай алмасаңыз, AI кез келген белгілі бір көзден тыс жалпыланғанын көрсетеді.

Ешкімге несие берілмейді. Немесе, сіз несие барлығына беріледі деп айтуға болады. Интернетте табылған адамзаттың ұжымдық мәтіні және басқа мазмұны несие алады. Барлығымыз несие аламыз. Белгілі бір көзге несие беруді анықтауға тырысу мағынасыз. Жасанды интеллект дамып келе жатқанына және адамзаттың барлығына пайдалы болатынына қуаныңыз. Интернеттегі бұл хабарламалар AI саласындағы жетістіктердің болашағына үлес қосқанын және бұл адамзатқа мәңгілікке қалай көмектесетінін мақтан тұтуы керек.

Мен бұл екі қарама-қайшы көзқарас туралы көбірек айта аламын.

Сонымен қатар, сіз Интернетте веб-сайттары бар адамдар үшін несие төленеді және мерзімі кешіктірілді дейтін лагерьге сүйенесіз бе, әлде қарсы тарап Интернет-контент жасаушыларға шешім қабылдады деп санайсыз ба емес жұлып алу - бұл неғұрлым сенімді поза?

Жұмбақ пен жұмбақ бір-біріне жабысты.

Мұны орауыштан шығарайық.

Бүгінгі бағанда мен генеративті AI негізінен плагиат немесе Интернетте жарияланған мазмұнның авторлық құқықтарын бұзуы мүмкін (зияткерлік меншік құқығы немесе IP мәселесі қарастырылады) деген осы айтылған алаңдаушылықтарды қарастыратын боламын. Біз бұл күдіктердің негізін қарастырамыз. Осы талқылау кезінде мен кейде ChatGPT-ке сілтеме жасаймын, өйткені бұл генеративті AI-ның 600 фунттық горилласы, дегенмен басқа да көптеген генеративті AI қолданбалары бар екенін және олар әдетте бірдей жалпы принциптерге негізделгенін есте сақтаңыз.

Сонымен қатар, сіз генеративті AI дегеніміз не деген сұрақ туындауы мүмкін.

Алдымен генеративті AI негіздерін қарастырайық, содан кейін біз өзекті мәселеге мұқият қарай аламыз.

Осының барлығына AI этикасы және AI заңы туралы ойлар кіреді.

Жасанды интеллект қолданбаларын әзірлеуге және өрістетуге этикалық AI принциптерін енгізу бойынша жұмыстар жүргізіліп жатқанын ескеріңіз. Қауіпті және бұрынғы AI этикеттерінің өсіп келе жатқан контингенті AI әзірлеу және қабылдау күш-жігерін орындау көзқарасын ескере отырып қамтамасыз етуге тырысады. Жақсылыққа арналған AI және болдырмау AI for Bad. Сол сияқты, AI әрекеттерінің адам құқықтарына және т.б. бұзылуларына жол бермеу үшін ықтимал шешімдер ретінде талқыланатын жаңа AI заңдары бар. Жасанды интеллект этикасы және AI заңы туралы тұрақты және кең ақпарат алу үшін қараңыз сілтеме осында және сілтеме осында, бірнеше ғана атауға болады.

Қоғамның жасанды индукцияны тудыратын көптеген тұзақтарға түсуіне жол бермеу үшін этикалық AI ережелерін әзірлеу және жариялау жүргізілуде. ЮНЕСКО-ның күш-жігері арқылы 200-ге жуық ел әзірлеген және қолдаған БҰҰ-ның AI этикасының принциптері туралы менің хабарым үшін қараңыз. сілтеме осында. Осыған ұқсас жаңа AI заңдары AI-ны біркелкі ұстауға тырысу үшін зерттелуде. Соңғы түсірілімдердің бірі ұсынылғандар жиынтығынан тұрады AI құқықтары туралы Билл АҚШ-тың Ақ үйі AI дәуіріндегі адам құқықтарын анықтау үшін жақында шығарғанын қараңыз сілтеме осында. AI және AI әзірлеушілерін дұрыс жолда ұстап тұру және қоғамды бұзатын мақсатты немесе кездейсоқ астыртын әрекеттерді болдырмау үшін ауыл қажет.

Мен осы талқылауға AI этикасы мен AI заңына қатысты ойларды біріктіретін боламын.

Генеративті AI негіздері

Генеративті AI-ның ең танымал данасы ChatGPT деп аталатын AI қолданбасымен ұсынылған. ChatGPT қоғамдық санаға қараша айында AI зерттеу фирмасы OpenAI шығарған кезде пайда болды. Содан бері ChatGPT үлкен тақырыптарға ие болды және таңғаларлық түрде өзінің бөлінген он бес минуттық даңқынан асып түсті.

Менің ойымша, сіз ChatGPT туралы естіген шығарсыз немесе оны пайдаланған біреуді білетін шығарсыз.

ChatGPT генеративті AI қолданбасы болып саналады, себебі ол пайдаланушыдан кейбір мәтінді енгізу ретінде қабылдайды, содан кейін генерациялайды немесе эсседен тұратын өнімді шығарады. AI - мәтіннен мәтінге генератор, бірақ мен AI-ны мәтіннен эссеге генератор ретінде сипаттаймын, өйткені бұл оның не үшін қолданылатынын оңайырақ түсіндіреді. Ұзақ композициялар жасау үшін генеративті AI-ны пайдалануға болады немесе оны өте қысқа түсініктемелер ұсынуға алуға болады. Мұның бәрі сіздің тапсырысыңыз бойынша.

Сізге тек сұрауды енгізу жеткілікті және AI қолданбасы сіздің сұрауыңызға жауап беруге тырысатын эссе жасайды. Құрастырылған мәтін эссе адамның қолымен және ақылымен жазылған сияқты болады. Егер сіз «Маған Авраам Линкольн туралы айтыңыз» деген нұсқауды енгізетін болсаңыз, генеративті AI сізге Линкольн туралы эссе береді. Генеративті AI-ның басқа режимдері бар, мысалы, мәтіннен өнерге және мәтіннен бейнеге. Мен мұнда мәтінді мәтінге ауыстыруға назар аударатын боламын.

Сіздің бірінші ойыңызша, бұл генеративті мүмкіндік эссе шығару тұрғысынан соншалықты үлкен мәселе болып көрінбейді. Сіз Интернетте онлайн іздеуді оңай жасай аласыз және президент Линкольн туралы тонна және тонна эсселерді оңай таба аласыз. Генеративті AI жағдайындағы ең маңызды нәрсе - жасалған эссе салыстырмалы түрде бірегей және көшірме емес, түпнұсқа композицияны қамтамасыз етеді. Егер сіз AI шығарған эссені Интернеттен бір жерден табуға тырыссаңыз, оны табу екіталай еді.

Генеративті AI алдын ала дайындалған және Интернеттегі жазбаша сөздер мен әңгімелердегі үлгілерді зерттеу арқылы орнатылған күрделі математикалық және есептеу формуласын пайдаланады. Мыңдаған және миллиондаған жазбаша үзінділерді зерттеу нәтижесінде AI табылған нәрселердің бір-біріне ұқсамайтын жаңа эсселер мен әңгімелерді шығара алады. Әртүрлі ықтималдық функцияларды қосу арқылы алынған мәтін оқу жинағында қолданылғанмен салыстырғанда өте ерекше.

Генеративті AI туралы көптеген алаңдаушылықтар бар.

Бір маңызды кемшілігі - генеративті негізделген AI қолданбасы шығарған эсселерде әртүрлі жалған мәліметтер, соның ішінде анық шындыққа сәйкес келмейтін фактілер, жаңылыстыратын түрде бейнеленген фактілер және толығымен ойдан шығарылған анық фактілер болуы мүмкін. Бұл ойдан шығарылған аспектілер көбінесе нысаны деп аталады AI галлюцинациялары, Мен ұнатпайтын, бірақ өкінішке орай, бәрібір танымалдылыққа ие болып жатқандай әсерлі фраза (бұл неліктен жағымсыз және жарамсыз терминология екендігі туралы менің егжей-тегжейлі түсініктеме алу үшін менің қамтуды қараңыз. сілтеме осында).

Тағы бір алаңдаушылық, адамдар эссені өздері құрастырмағанына қарамастан, AI шығарған генеративті эссе үшін несиені оңай қабылдай алады. Мұғалімдер мен мектептер генеративті AI қолданбаларының пайда болуына қатты алаңдайтынын естіген боларсыз. Студенттер өздерінің тағайындалған эсселерін жазу үшін генеративті AI пайдалана алады. Егер студент эссе өз қолымен жазылған деп мәлімдесе, мұғалімнің оның орнына генеративті AI қолдан жасалғанын анықтау мүмкіндігі аз. Студент пен мұғалімнің шатастыратын қыры туралы менің талдауымды мына жерден қараңыз сілтеме осында және сілтеме осында.

Бұл туралы әлеуметтік желілерде кейбір шамадан тыс шағымдар болды Ұрпақты AI AI-ның бұл соңғы нұсқасы шын мәнінде екенін айтады сезімтал AI (жоқ, олар қателеседі!). Жасанды интеллект этикасы және AI заңы саласындағылар бұл кеңейтілген талаптардың өсіп келе жатқан үрдісіне ерекше алаңдайды. Сіз сыпайы түрде кейбір адамдар бүгінгі AI шынымен не істей алатынын асыра айтып жатыр деп айтуыңыз мүмкін. Олар AI-ның біз әлі қол жеткізе алмаған мүмкіндіктері бар деп есептейді. Бұл өкінішті. Ең сорақысы, олар AI әрекет ете алатындай сезімтал немесе адамға ұқсас болады деген болжамға байланысты өздеріне және басқаларға ауыр жағдайға душар болуы мүмкін.

AI-ны антропоморфизацияламаңыз.

Бұл сізді AI орындай алмайтын нәрселерді жасайды деп күтудің жабысқақ және ыңғайсыз тұзағына түседі. Осыған орай, генеративті AI-ның соңғысы оның не істей алатыны үшін салыстырмалы түрде әсерлі. Кез келген генеративті AI қолданбасын пайдалану кезінде үнемі есте ұстауыңыз керек маңызды шектеулер бар екенін ескеріңіз.

Әзірге соңғы алдын ала ескерту.

Генеративті AI жауабында не көрсеңіз немесе оқысаңыз да ұқсайды Таза фактілер ретінде (күндер, орындар, адамдар және т.б.) жеткізу үшін күмәнданбаңыз және көргеніңізді екі рет тексеруге дайын болыңыз.

Иә, күндерді ойлап табуға болады, орындарды жасауға болады және біз әдетте қорлаудан жоғары деп күтетін элементтер барлық күдік туғызады. Оқығаныңызға сенбеңіз және кез келген генеративті AI эсселерін немесе нәтижелерін зерттеген кезде күмәнмен қараңыз. Егер генеративті AI қолданбасы сізге Авраам Линкольннің жеке ұшағымен ел бойынша ұшқанын айтса, сіз бұл безгек екенін білетін боларсыз. Өкінішке орай, кейбір адамдар оның кезінде ұшақтар болмағанын түсінбеуі мүмкін немесе олар эссенің бұл өрескел және өте жалған мәлімдеме жасайтынын біліп, бірақ байқамауы мүмкін.

Салауатты скептицизмнің күшті дозасы және тұрақты сенімсіздік ой-пікірі генеративті AI пайдаланған кезде сіздің ең жақсы активіңіз болады.

Біз бұл түсіндірудің келесі кезеңіне өтуге дайынбыз.

Интернет пен генеративті AI бірге осында

Енді сізде генеративті AI дегеннің ұқсастығы бар болғандықтан, біз генеративті AI әділ немесе әділетсіз «қолданбалы» ма, әлде кейбіреулер айтады ма деген күрделі сұрақты зерттей аламыз. ашық түрде пайдалану Интернет мазмұны.

Міне, осы мәселеге қатысты менің төрт маңызды тақырыбым:

1) Қос ақау: плагиат және авторлық құқықты бұзу
2) Плагиатты немесе авторлық құқықты бұзуды дәлелдеуге тырысу
3) Плагиат немесе авторлық құқықты бұзу үшін іс қозғау
4) Заңды миналар күтіп тұр

Мен осы маңызды тақырыптардың әрқайсысын қарастырамын және бәріміз мұқият ойластыруымыз керек терең ойларды ұсынамын. Бұл тақырыптардың әрқайсысы үлкен басқатырғыштың ажырамас бөлігі болып табылады. Сіз тек бір бөлікке қарай алмайсыз. Сондай-ақ сіз кез келген бөлікті басқа бөліктерден оқшаулай алмайсыз.

Бұл күрделі мозаика және бүкіл басқатырғышты үйлесімді түрде қарастыру керек.

Қос мәселе: плагиат және авторлық құқықты бұзу

Генеративті AI жасайтын және оны енгізетіндердің екі жақты қиындығы - олардың тауарлары екі жаман нәрсе жасауы мүмкін:

1) Плагиат. Генеративті AI ретінде түсіндірілуі мүмкін плагиат AI деректерін оқыту кезінде орын алған Интернетті сканерлеуге сәйкес Интернетте бар мазмұн.
2) Авторлық құқықты бұзу. Генеративті AI міндеттеме ретінде мәлімделуі мүмкін авторлық құқықты бұзу деректерді оқыту кезінде сканерленген Интернет мазмұнымен байланысты.

Түсіндіру үшін, Интернетте генеративті AI деректерін оқыту үшін сканерленгеннен әлдеқайда көп мазмұн бар. Интернеттің аз ғана бөлігі әдетте жұмыс істейді. Осылайша, біз деректерді оқыту кезінде сканерленбеген кез келген мазмұнда генеративті AI бар ерекше сиыр жоқ деп болжауға болады.

Сканерленген басқа мазмұнды сканерленбеген мазмұнмен байланыстыратын сызықты сызуға болатындықтан, бұл біршама даулы. Сондай-ақ, тағы бір маңызды шарт - сканерленбеген мазмұн болса да, генеративті AI нәтижелері бір сөзге келіп тірелсе, оны плагиат және/немесе авторлық құқық бұзылған деп айтуға болады. Менің айтайын дегенім, мұның барлығында иілгіштік бар.

Төменгі жолда: Генеративті жасанды интеллект плагиат пен авторлық құқықты бұзуға қатысты әлеуетті AI этикалық және AI заңы бойынша құқықтық түсінбеушіліктерге толы. деректерді оқытудың басым тәжірибесін негіздейді.

Осы уақытқа дейін AI жасаушылар мен AI зерттеушілері олардың үстінде ілулі тұрған және қауіпті салбырап тұрған қылышқа қарамастан, бұл өте оңай жолмен сырғанап өтті. Бұл әрекеттерге қарсы бірнеше сот ісі ғана қозғалды. Сіз мұндай заңды әрекеттер туралы жаңалықтар мақалаларын естіген немесе көрген боларсыз. Біреуі, мысалы, Интернетте жарияланған көркем мазмұнды бұзғаны үшін Midjourney және Stability AI мәтіндік кескін фирмаларын қамтиды. Тағы біреуі AI қолданбаларын шығаратын Copilot бағдарламалық құралына байланысты GitHub, Microsoft және OpenAI-ге қатысты мәтінді кодқа бұзуды тудырады. Getty Images сонымен қатар мәтіннен кескінге құқық бұзушылық үшін тұрақтылық AI-дан кейін жүруді мақсат етті.

Мұндай сот істері әлі де көп болатынын болжауға болады.

Дәл қазір бұл сот процестерін бастау мүмкіндігі аз, өйткені нәтижесі салыстырмалы түрде белгісіз. Сот AI жасаушылардың жағында бола ма, әлде олардың мазмұны әділетсіз пайдаланылды деп есептейтіндер жеңімпаз бола ма? Қымбатты сот күресі әрқашан маңызды мәселе болып табылады. Ауқымды сот шығындарын жұмсау жеңіске жету немесе жеңілу мүмкіндігімен салыстырылуы керек.

AI жасаушылардың күресуден басқа амалы жоқ сияқты. Егер олар аздап болса да, үңгірлер болса, онда қосымша сот процестерінің ағыны пайда болуы мүмкін (негізінен, басқалардың да басым түсу мүмкіндігіне есік ашады). Суда заңды қан болғаннан кейін, қалған заңды акулалар қарастырылған «жеңіл ұпайға» ұмтылады және ақшалай қантөгіс міндетті түрде болады.

Кейбіреулер AI жасаушыларды қорғайтын жаңа AI заңдарын қабылдауымыз керек деп санайды. Қорғаныс тіпті ретроактивті болуы мүмкін. Мұның негізі, егер біз генеративті AI жетістіктерін көргіміз келсе, біз AI жасаушыларға қауіпсіз аймақтың ұшу-қону жолағын беруіміз керек. Сот процестері AI жасаушыларға қарсы жеңіске жете бастағанда, егер бұл орын алса (біз әлі білмейміз), генеративті AI буланып кетеді деп алаңдатады, өйткені ешкім AI фирмаларына ешқандай қолдау көрсетуге дайын болмайды.

Доктор Илья Колоченко мен Гордон Платттың «ChatGPT: IP, киберқауіпсіздік және генеративті AI-ның басқа да заңды тәуекелдері» деп аталатын жақында Bloomberg заңының мақаласында шебер атап өтілгендей, Bloomberg заңы, 2023 жылғы ақпан, міне, осы көзқарастарды қайталайтын екі маңызды үзінді:

«Қазір АҚШ заңгерлері мен интеллектуалдық құқық бойынша заң профессорлары арасында авторлық құқықпен қорғалған деректерді рұқсатсыз алу және кейіннен пайдалану авторлық құқықты бұзу болып табыла ма деген қызу пікірталас жүріп жатыр. Егер мұндай тәжірибеде авторлық құқық бұзушылықтарды көретін заңгерлердің пікірі басым болса, мұндай AI жүйелерін пайдаланушылар да екінші реттік бұзушылықтар үшін жауапты болуы мүмкін және ықтимал құқықтық салдарға тап болуы мүмкін.
«Мәселені кешенді шешу үшін заң шығарушылар қолданыстағы авторлық құқық туралы заңнаманы жаңғыртуды ғана емес, сонымен қатар AI-ға қатысты заңдар мен ережелерді енгізуді де қарастыруы керек».

Еске салайық, біз қоғам ретінде оларды құқықтық қорғауды енгіздік Кеңейту Атақты немесе атақты 230-бөлімді қарап жатқан Жоғарғы Соттың куәландырғанындай, Интернетте біз генеративті AI-ны дамыту үшін кейбір ұқсас қорғау шараларын жасауға дайын болуымыз мүмкін. Мүмкін қорғаныстарды уақытша орнатуға болады, генеративті AI алдын ала анықталған біліктілік деңгейіне жеткеннен кейін мерзімі аяқталады. Басқа қорғау ережелері әзірленуі мүмкін.

Жақында мен 230-бөлім бойынша Жоғарғы Соттың бағалауы мен түпкілікті шешімі генеративті AI пайда болуына қалай әсер етуі мүмкін екендігі туралы өз талдауымды жариялаймын. Алдағы постты күтіңіз!

Біз генеративті AI деп аталатын қоғамды таң қалдыратын технологиялық инновацияға еркіндік беруіміз керек деген қатаң айтылған пікірге оралайық. Кейбіреулер мәлімделген авторлық құқықтың бұзылуы болған немесе орын алып жатқан күннің өзінде, тұтастай алғанда қоғам генеративті AI дамытудың арнайы мақсаттары үшін бұған рұқсат беруге дайын болуы керек дейді.

Жаңа AI заңдары мұқият әзірленіп, генеративті AI үшін деректерді оқытумен байланысты мәліметтерге сәйкестендіріледі деген үміт бар.

Осы мақсат үшін жаңа AI заңдарын жасау туралы бұл ұғымға қарсы көптеген дәлелдер бар. Бір алаңдататын нәрсе - кез келген жаңа AI заңы авторлық құқықты бұзудың барлық түрлеріне жол ашады. Біз осындай жаңа AI заңдарының кітаптарға түсуіне жол бергенімізге өкінеміз. Сіз мұны тек AI деректерін оқытумен шектеуге қанша тырыссаңыз да, басқалар жасырын немесе ақылды түрде авторлық құқықтың шектеусіз және кең таралған бұзылуына әкелетін бос жерлерді табады.

Аргументтер дөңгелене түседі.

Әсіресе суды ұстанбайтын бір дәлел AI-ның өзін сотқа беру әрекетімен байланысты. Мен AI жасаушысына немесе AI зерттеушілеріне кінәлі мүдделі тараптар ретінде сілтеме жасағаныма назар аударыңыз. Бұл адамдар мен компаниялар. Кейбіреулер бізді сотқа тартылатын тарап ретінде AI-ға бағыттау керек деп болжайды. Мен өзімнің бағанымда ұзақ талқыладым, біз әлі заңды тұлғаны AI-ға жатқызбаймыз, қараңыз сілтеме осында мысалы, AI-ға бағытталған мұндай сот процестері дәл қазір мағынасыз болып саналады.

Кімді немесе нені сотқа беру керек деген сұраққа қосымша ретінде бұл тағы бір шырынды тақырыпты алға тартады.

Белгілі бір генеративті AI қолданбасын біз Widget Company деп атайтын кейбір AI жасаушы әзірлеген делік. Виджет компаниясының көлемі салыстырмалы түрде шағын және көп кірісі де, активтері жағынан да көп емес. Оларды сотқа беру адам іздеген үлкен байлыққа қол жеткізуі мүмкін емес. Көбінесе сіз дұрыс емес деп санаған нәрсені түзеуге қанағаттанасыз.

Үлкен балықтың артынан барғың келеді.

Міне, бұл қалай пайда болады. Жасанды интеллект өндірушісі өзінің генеративті жасанды интеллектін тонна қамыр мен тонна активтері бар ірі конгломерат Big Time компаниясына қолжетімді етуді таңдайды. Виджет компаниясының атын беру туралы сот ісі енді үлкен мақсатқа ие болады, атап айтқанда Big Time компаниясының атауы. Бұл адвокаттар ұнататын Давид пен Ғолият жекпе-жегі. Әрине, Big Time компаниясы балық аулау ілгегінен арылуға тырысатыны сөзсіз. Олар мұны істей алады ма, бұл тағы да белгісіз болып табылатын заңды сұрақ және олар үмітсіз балшыққа батып кетуі мүмкін.

Бұл туралы көбірек алмас бұрын, мен деректерді оқытуға байланысты генеративті AI-ның даулы қол сұғушылықтары туралы үстелде маңызды нәрсені алғым келеді. Плагиат пен авторлық құқықтың бұзылуы екі түрлі аң екенін түсінетініңізге сенімдімін. Олардың ортақ жақтары көп, дегенмен олар айтарлықтай ерекшеленеді.

Міне, Дьюк университетінің қысқаша сипаттамасы, ол екеуін түсіндіреді:

«Плагиат басқа адамның жұмысын мойындамай пайдалану ретінде жақсы анықталады. Бұл талап қоюшы жасамаған жұмыс үшін несие туралы талапты қамтитын этикалық мәселе. Бұл жұмыстың авторлық құқық мәртебесіне қарамастан, біреудің жұмысын плагиат жасауға болады. Мысалы, әлі де авторлық құқықта болу үшін тым ескі кітаптан немесе мақаладан көшіру плагиат болып табылады. Сондай-ақ, деректер сияқты нақты материал авторлық құқықпен қорғалмауы мүмкін болса да, расталмаған дереккөзден алынған деректерді пайдалану плагиат болып табылады. Алайда плагиат оңай емделеді - материалдың бастапқы көзіне дұрыс сілтеме жасау ».
«Авторлық құқықты бұзу, керісінше, бөтен туындыны рұқсатсыз пайдалану болып табылады. Бұл ең алдымен туындының авторлық құқықпен қорғалғанына немесе қорғалмағанына, сондай-ақ қаншалықты пайдаланылатыны мен пайдалану мақсаты сияқты ерекшеліктерге байланысты құқықтық мәселе. Егер біреу қорғалған жұмысты тым көп көшірсе немесе рұқсат етілмеген мақсатта көшірсе, бастапқы дереккөзді жай ғана мойындау мәселені шешпейді. Авторлық құқық иесінен алдын ала рұқсат алу арқылы ғана адам құқық бұзушылық үшін айып тағылу қаупінен аулақ болады».

Мен осы екі алаңдаушылықтың маңыздылығын атап өткім келеді, осылайша сіз емдеу құралдарының сәйкесінше әр түрлі болуы мүмкін екенін түсінесіз. Сондай-ақ, олардың екеуі де AI этикасы мен AI заңына енетін ойларға байланысты, бұл оларды зерттеуге бірдей лайық етеді.

Мәлімделген құралды немесе шешімді қарастырайық. Сіз бұл қос ақаулық мәселелердің біріне көмектесетінін көресіз, бірақ екіншісіне емес.

Кейбіреулер AI жасаушыларға тек өз көздеріне сілтеме жасау керек деп сендірді. Генеративті AI эссе шығарған кезде, эсседе айтылған нәрсеге нақты дәйексөздерді ғана қосыңыз. Түрлі URL мекенжайларын және қай интернет мазмұны пайдаланылғанының басқа белгілерін беріңіз. Бұл оларды плагиатқа қатысты алаңдаушылықтан арылтатын сияқты. Шығарылған эссе шығарылатын тұжырым үшін қандай көздер пайдаланылғанын анық анықтайды.

Бұл мәлімделген шешімде бірнеше сөз жоқ, бірақ 30,000 XNUMX фут деңгейінде бұл плагиат дилеммасының жартылай қанағаттанарлық емі ретінде қызмет етеді делік. Жоғарыда авторлық құқықтың бұзылуы туралы түсініктемеде айтылғандай, бастапқы материалға сілтеме жасау сізді ит үйінен шығаруға міндетті емес. Мазмұн авторлық құқықпен қорғалған деп есептесек және материалдың қаншалықты пайдаланылғаны сияқты басқа факторларға байланысты, авторлық құқықтың бұзылуын күткен қылыш күрт және түпкілікті түрде төмендеуі мүмкін.

Екі жақты қиындық - бұл жерде.

Плагиатты немесе авторлық құқықты бұзуды дәлелдеуге тырысу

Мұны дәлелдеңіз!

Бұл бәріміз өміріміздің әртүрлі кезеңдерінде естіген ескірген рефрень.

Сіз оның қалай өтетінін білесіз. Сіз бірдеңе болып жатыр немесе болды деп айтуыңыз мүмкін. Сіз бұл орын алғанын жүрегіңізбен білуіңіз мүмкін. Бірақ итермелеу туралы сөз болғанда, сізде дәлел болуы керек.

Бүгінгі тілмен айтқанда, көрсету керек түбіртектер, олар айтқандай.

Сізге қояр сұрағым мынау: Генеративті AI интернет мазмұнын дұрыс пайдаланбағанын қалай дәлелдемекпіз?

Жауап оңай болуы керек деп болжайды. Сіз генеративті AI-дан шығарылған эссе шығаруды сұрайсыз немесе айтасыз. Содан кейін эссені алып, оны Интернеттен табуға болатын нәрселермен салыстырыңыз. Егер сіз эссені тапсаңыз, бам, сізде нақыл сөздің қабырғасына генеративті AI бар.

Өмір ешқашан оңай емес сияқты.

100-ге жуық сөзден тұратын эссе жасау үшін генеративті AI аламыз деп елестетіп көріңіз. Біз айналып өтіп, сол 100 сөзді іздей отырып, интернеттің барлық бұрыштары мен бұрыштарына жетуге тырысамыз. Дәл сол ретпен және бірдей сәнде көрсетілген 100 сөзді тапсақ, біз өзімізді қызық ұстаған сияқтымыз.

Интернетте біз 80 сөздің 100-іне ғана сәйкес келетін «салыстыруға болатын» эссе таптық делік. Бұл әлі де жеткілікті сияқты. Бірақ біз сәйкес келетін 10 сөздің 100 данасын ғана табамыз деп елестетіңіз. Бұл плагиат болды немесе авторлық құқықтың бұзылуы орын алды деп айту үшін жеткілікті ме?

Сұр түстілік бар.

Мәтін осылай күлкілі.

Мұны мәтіннен суретке немесе мәтіннен өнерге жағдайларымен салыстырыңыз. Генеративті AI мәтіннен суретке немесе мәтіннен өнерге мүмкіндікті қамтамасыз еткенде, сіз мәтіндік хабарды енгізесіз және AI қолданбасы сіз берген сұрауға негізделген кескінді жасайды. Кескін осы немесе басқа планетада бұрын-соңды болмаған кез келген кескінге ұқсамауы мүмкін.

Екінші жағынан, кескін бар басқа кескіндерді еске түсіруі мүмкін. Біз жасанды инстинктпен жасалған генеративті кескінге қарап, оның біз бұрын көрген басқа кескінге ұқсайтынын іштей түйсігі арқылы айта аламыз. Жалпы, көру салыстыру және қарама-қарсы қою аспектілері біршама оңайырақ орындалады. Айта кету керек, бір суреттің екіншісінен қайталануы немесе қайталануы нені құрайтыны туралы үлкен құқықтық пікірталастар қамтамасыз ететінін біліңіз.

Музыкаға қатысты тағы бір ұқсас жағдай бар. Мәтіндік хабарды енгізуге мүмкіндік беретін генеративті AI қолданбалары бар және AI шығаратын шығыс аудио музыка болып табылады. Бұл мәтіннен аудиоға немесе мәтіннен музыкаға AI мүмкіндіктері енді ғана пайда бола бастады. Ең жақсы долларға бәс тігуге болатын нәрсе - генеративті AI шығарған музыка бұзушылық үшін өте мұқият тексерілетін болады. Біз музыкалық құқық бұзушылықты естіген кезде білетін сияқтымыз, дегенмен бұл қайтадан күрделі заңды мәселе, ол тек қана қабылданған көшірмеге деген көзқарасымызға негізделмейді.

Маған тағы бір мысал беріңізші.

Мәтіннен кодқа генеративті AI сізге мәтіндік шақыруды енгізу мүмкіндігін береді және AI сіз үшін бағдарламалау кодын шығарады. Содан кейін бұл кодты компьютерлік бағдарламаны дайындау үшін пайдалануға болады. Кодты дәл жасалғандай пайдалануыңыз мүмкін немесе кодты қажеттіліктеріңізге сәйкес өңдеу мен реттеуді таңдауыңызға болады. Сондай-ақ, кодтың жарамды және жұмыс істейтіндігіне көз жеткізу қажет, өйткені жасалған кодта қателер мен жалғандықтардың пайда болуы мүмкін.

Сіздің бірінші болжамыңыз бағдарламалау коды мәтіннен еш айырмашылығы жоқ болуы мүмкін. Бұл жай ғана мәтін. Әрине, бұл белгілі бір мақсатты қамтамасыз ететін мәтін, бірақ ол әлі де мәтін.

Нақты емес. Бағдарламалау тілдерінің көпшілігінде осы тілдің кодтау мәлімдемелерінің сипатына сәйкес қатаң пішім мен құрылым бар. Бұл белгілі бір мағынада еркін ағынды табиғи тілге қарағанда әлдеқайда тар. Сіз кодтау мәлімдемелерінің қалай тұжырымдалғаны туралы біраз қораптасыз. Сол сияқты, мәлімдемелерді пайдалану және орналастыру реті мен тәсілі біршама қорапқа салынған.

Тұтастай алғанда, бағдарламалау кодының плагиат немесе бұзылғанын көрсету мүмкіндігі табиғи тілге қарағанда оңайырақ. Осылайша, генеративті AI Интернетте бағдарламалау кодын сканерлеуге барғанда және кейінірек бағдарламалау кодын жасағанда, кодтың ашық түрде қайталанғанын дәлелдеу мүмкіндігі салыстырмалы түрде сенімдірек болады. Слэм-данк емес, сондықтан бұл үшін азапты шайқастар болады деп күтіңіз.

Менің негізгі ойым - бізде генеративті АИ-нің барлық режимдеріне қарсы тұратын AI этикасы мен AI заңы мәселелері бірдей болады.

Плагиат және авторлық құқықты бұзу келесілер үшін қиын болады:

Мәтіннен мәтінге немесе мәтіннен эссеге
Мәтіннен суретке немесе мәтіннен өнерге
Мәтіннен аудиоға немесе мәтіннен музыкаға
Мәтіннен бейнеге
Мәтіннен кодқа
Және т.б.

Олардың барлығы бірдей алаңдаушылық тудырады. Кейбіреулер басқаларға қарағанда «дәлелдеу» оңайырақ болуы мүмкін. Олардың барлығында AI этикасы және AI заңы туралы өздерінің түрлі қорқынышты армандары болады.

Плагиат немесе авторлық құқықты бұзу үшін іс қозғау

Талқылау мақсатында мәтіннен мәтінге немесе мәтіннен эссеге генеративті AI-ға назар аударайық. Мен мұны ішінара генеративті AI түрі болып табылатын ChatGPT-тің үлкен танымалдылығына байланысты жасаймын. ChatGPT-ті, сондай-ақ мәтіннен мәтінге әртүрлі ұқсас AI қолданбаларын пайдаланатын көптеген адамдар бар.

Генеративті AI қолданбаларын пайдаланатын адамдар плагиатқа немесе авторлық құқықтың бұзылуына сенетінін біле ме?

Олардың солай ететіні күмәнді сияқты.

Мен генеративті AI қолданбасы пайдалану үшін қол жетімді болса, AI жасаушысы немесе AI-ны шығарған компания олар пайдалану үшін ұсынатын тауарларда жағымсыз ештеңе жоқ екенін білуі немесе сенімді болуы керек деген басым болжамды айтуға батыл болар едім. Егер сіз оны пайдалана алсаңыз, ол борттың үстінде болуы керек.

Белгілі бір генеративті AI деректерді оқытуға қатысты заңсыз негізде жұмыс істейтінін қалай дәлелдейтініміз туралы бұрынғы пікірімді қайталап көрейік.

Сондай-ақ, егер біз бір генеративті AI ұстай алсақ, басқаларын басып алу мүмкіндігі артады деп қоса аламын. Мен барлық генеративті AI қолданбалары бір қайықта болады деп айтпаймын. Бірақ олардың біреуі қабырғаға бекітілгенде, олар өте қатал теңізге тап болады.

Сондықтан да бар сот процестеріне назар аударған жөн. Мәлімделген құқық бұзушылықты жеңген біріншісі, егер бұл орын алса, басқа генеративті AI қолданбалары үшін қасірет пен қараңғылық тудыруы мүмкін, егер кейбір тарлық кеңірек мәселелерден құтылмаса. Мәлімделген құқық бұзушылық бойынша ұтылатындар генеративті AI қолданбалары қоңырау соғып, тойлай алады дегенді білдірмейді. Бұл жоғалту басқа генеративті AI қолданбаларына сәйкес келмейтін басқа факторларға байланысты болуы мүмкін және т.б.

Мен 100 сөзден тұратын эссе алып, дәл сол сөздерді Интернетте дәл сол ретпен табуға тырысатын болсақ, бізде плагиат немесе авторлық құқықты бұзу үшін салыстырмалы түрде сенімді жағдай болуы мүмкін екенін айттым. Бірақ сәйкес келетін сөздердің саны аз болса, біз жұқа мұзда жүрген сияқтымыз.

Мен мұны тереңірек зерттегім келеді.

Салыстырудың айқын аспектісі дәл сол тізбектегі дәл сол сөздерден тұрады. Бұл бүкіл үзінділер үшін орын алуы мүмкін. Бұл бізге күміс табаққа салынғандай көрінуге ыңғайлы болар еді.

Сөздердің үзіндісі ғана сәйкес келсе, біз де күдіктенуіміз мүмкін. Олардың маңызды сөздер екенін немесе біз оңай жоюға немесе елемеуге болатын толтырғыш сөздер екенін көру идеясы болар еді. Біз сондай-ақ өткен немесе келер шақтағы сөздерді немесе басқа да алдау арқылы алданып қалғымыз келмейді. Сөздердегі бұл өзгерістерді де ескеру керек.

Салыстырудың тағы бір деңгейі - бұл сөздер көп дәрежеде бірдей сөздер болмаса, бірақ әртүрлі күйдегі сөздер әлі де бірдей ойларды білдіретін сияқты. Мысалы, түйіндеме бастапқы дереккөз ретінде өте ұқсас сөздерді жиі пайдаланады, бірақ біз түйіндеменің бастапқы дереккөзге негізделгенін байқаймыз.

Салыстырудың ең қиын деңгейі тұжырымдамаларға немесе идеяларға негізделеді. Салыстыру негізі ретінде бірдей немесе ұқсас сөздері жоқ, бірақ мәні немесе идеясы бірдей эссе көрдік делік. Рас, біз өрескел аумаққа кіріп жатырмыз. Егер біз идеялар тығыз қорғалған деп айта алатын болсақ, біз білім мен білімді кеңейтудің барлық түрлеріне дерлік қақпақ қояр едік.

Дьюк университетінің пайдалы түсіндірмесіне тағы да жүгіне аламыз:

«Авторлық құқық идеяларды қорғамайды, тек идеяның нақты көрінісі. Мысалы, сот Дэн Браун жазған кезде бұрынғы кітаптың авторлық құқығын бұзбаған деп шешті Da Vinci кодексі өйткені оның бұрынғы шығармасынан алғанның бәрі сюжет немесе диалогтың ерекшеліктері емес, негізгі идеялар болды. Авторлық құқық шығармашылық өндірісті ынталандыруға бағытталғандықтан, жаңа және түпнұсқа туындыны жасау үшін біреудің идеяларын пайдалану авторлық құқықтың мақсатын қолдайды, ол оны бұзбайды. Біреу басқа біреудің сөзін рұқсатсыз көшірсе ғана авторлық құқық бұзылуы мүмкін».
«Плагиатты болдырмау үшін, керісінше, басқа біреуден алынған идеялардың қайнар көзін мойындау керек, бұл идеяларды білдіру олармен алынғанына қарамастан. Осылайша, парафраза авторлық құқық мәселесін сирек тудырса да, дәйексөзді қажет етеді».

Екі жақты ақаулық қырларының арасындағы айырмашылықтар бұрын анықталғанына назар аударыңыз.

Енді салыстыру тәсілдерін іс жүзінде қолдану көптеген жылдар бойы орын алып келе жатқан нәрсе. Осылай ойлап көріңізші. Мектептегі жұмысы үшін эссе жазатын студенттер Интернеттен мазмұнды алып, Пулитцер сыйлығын иеленген А дәрежелі сөздердің авторы болып көрінуі мүмкін.

Мұғалімдер бұл мәселемен күресу үшін ұзақ уақыт бойы плагиатты тексеру бағдарламаларын пайдаланып келеді. Мұғалім оқушының эссесін алып, плагиат тексерушісіне жібереді. Кейбір жағдайларда бүкіл мектеп плагиатты тексеру бағдарламасын пайдалануға лицензия береді. Студенттер эссе жазған кезде, олар алдымен эссені плагиатты тексеру бағдарламасына жіберуі керек. Мұғалімге бағдарламаның не туралы есеп беретіні хабарланады.

Өкінішке орай, бұл плагиатты тексеретін бағдарламалардың не айтатыны туралы өте сақ болуыңыз керек. Хабарланған көрсеткіштердің жарамдылығын мұқият бағалау маңызды. Жоғарыда айтылғандай, жұмыстың көшірілген-көшірілмегенін анықтау мүмкіндігі бұлыңғыр болуы мүмкін. Тексеру бағдарламасының нәтижесін ойланбастан қабылдасаңыз, студентті көшірме жасады деп жалған айыптауға болады. Бұл жанды ауыртуы мүмкін.

Әрі қарай, біз генеративті AI нәтижелерін тестілеу саласында плагиатты тексеру бағдарламаларын қолдануға тырысамыз. Генеративті AI қолданбасынан шығарылған эсселерді студент жазғандай өңдеңіз. Содан кейін біз плагиат тексерушісі не айтатынын өлшейміз. Бұл тұз дәнімен жасалады.

Жақында осы үлгіде генеративті AI контекстінде салыстырудың осы түрлерін іске қосуға тырысқан зерттеу жұмыстары бар. Мен сізбен кейбір қызықты мәліметтерді қарастырғым келеді.

Біріншіден, қосымша фон қажет. Генеративті AI кейде LLM (үлкен тіл үлгілері) немесе жай LM (тіл үлгілері) деп аталады. Екіншіден, ChatGPT GPT-3.5 деп аталатын басқа OpenAI генеративті AI пакетінің нұсқасына негізделген. GPT-3.5-ке дейін GPT-3, одан бұрын GPT-2 болған. Қазіргі уақытта GPT-2 кейінгі сериялармен салыстырғанда өте қарапайым болып саналады және біз барлығымыз GPT-4-тің алдағы ашылуын асыға күтеміз, менің талқылауымды қараңыз. сілтеме осында.

Мен қысқаша зерттегім келетін зерттеу GPT-2 зерттеуден тұрды. Мұны түсіну маңызды, өйткені біз қазір GPT-2 мүмкіндіктерінен асып түстік. GPT-2 осы талдаудың нәтижелеріне қатысты бөртпе қорытынды жасамаңыз. Соған қарамастан, біз GPT-2 бағалауынан көп нәрсені үйрене аламыз. Зерттеу «Тіл үлгілері плагиат жасай ма?» деп аталады. Джуён Ли, Тай Ле, Цзинхуй Чен және Донгвон Ли, ACM WWW '23, 1–5 мамыр, 2023 ж., Остин, Техас, АҚШ.

Бұл олардың негізгі зерттеу мәселесі:

«ЛМ оқу үлгілеріндегі сөз тіркестерін немесе сөйлемдерді қаншалықты (есте сақтаумен шектелмейді) пайдаланады?»

Олар ықтимал плагиаттың осы үш деңгейін немесе санаттарын пайдаланды:

«Сөзсіз плагиат: сөздердің немесе сөз тіркестерінің трансформациясыз дәл көшірмелері».
«Парафразалық плагиат: синонимдік ауыстыру, сөзді өзгерту және/немесе кері аудару».
«Идея плагиаты: негізгі мазмұнды ұзартылған түрде көрсету».

GPT-2 шынымен Интернет деректері бойынша оқытылды және осылайша талдаудың осы түріне лайықты үміткер болды:

«GPT-2 8 миллион Reddit сілтемелерінен алынған 45 миллионнан астам құжатты қамтитын WebText-те алдын ала дайындалған. OpenAI WebText жарияламағандықтан, біз OpenWebText қолданамыз, ол WebText корпусының ашық бастапқы нұсқасы болып табылады. Оны бұрынғы әдебиеттер сенімді түрде пайдаланған».

Зерттеуден үзінді ретінде таңдалған негізгі қорытындылар мыналардан тұрады:

«Біз алдын ала дайындалған GPT-2 отбасыларының OpenWebText-тен плагиат жасайтынын анықтадық».
«Біздің қорытындыларымыз дәл баптау OpenWebText-тен сөзбе-сөз плагиат жағдайларын айтарлықтай азайтатынын көрсетеді».
«Карлини және т.б. және Карлини және т.б., біз үлкенірек GPT-2 модельдері (үлкен және xl) әдетте кішірек үлгілерге қарағанда плагиаттық тізбектерді жиі жасайтынын байқаймыз.
«Алайда, әртүрлі LM-лер плагиаттың әртүрлі үлгілерін көрсетуі мүмкін, сондықтан біздің нәтижелеріміз басқа LM-ге, соның ішінде GPT-3 немесе BLOOM сияқты соңғы LM-ге тікелей жалпыланбауы мүмкін.»
«Сонымен қатар, автоматты плагиат детекторларының көптеген сәтсіздік режимдері бар екені белгілі (жалған негативтерде де, жалған позитивтерде де).
«LMs оқыту деректерінің көпшілігі мазмұн иелеріне хабарламастан Интернеттен жойылатынын ескере отырып, олардың сөздерді, сөз тіркестерін және тіпті жаттығулар жиынындағы негізгі идеяларды жасалған мәтіндерге қайталауы этикалық салдарға ие».

Бізге мұндай зерттеулер көп қажет екені сөзсіз.

Егер сіз GPT-2-нің деректерді оқытуға қатысты GPT-3-пен салыстыратыны туралы білгіңіз келсе, айтарлықтай контраст бар.

Хабарланған көрсеткіштерге сәйкес, GPT-3 үшін деректерді оқыту әлдеқайда кең болды:

«Модель интернеттен алынған мәтіндік деректер базасын пайдалану арқылы оқытылды. Бұған кітаптардан, веб-мәтіндерден, Википедиядан, мақалалардан және интернеттегі басқа да жазбалардан алынған 570 ГБ үлкен деректер кіреді. Дәлірек айтсақ, жүйеге 300 миллиард сөз берілді» (BBC Science Focus журналы, «ChatGPT: OpenAI-дің GPT-3 құралы туралы білуіңіз керек барлық нәрсе» Алекс Хьюз, 2023 жылдың ақпаны).

GPT-3 деректерін оқытудың тереңірек сипаттамасын қалайтындарыңыз үшін GitHub сайтында жарияланған ресми GPT-3 үлгі картасынан үзінді (соңғы жаңартылған күні 2020 жылдың қыркүйегінде көрсетілген):

«GPT-3 оқу деректер жинағы интернетте жарияланған мәтіннен немесе интернетке жүктелген мәтіннен (мысалы, кітаптар) тұрады. Ол оқытылған және осы уақытқа дейін бағаланған интернет деректеріне мыналар кіреді: (1) жоғары сапалы анықтамалық корпусқа ұқсастық негізінде сүзілген CommonCrawl деректер жинағының нұсқасы, (2) Webtext деректер жиынының кеңейтілген нұсқасы, (3) ) екі интернетке негізделген кітап корпусы және (4) ағылшын тіліндегі Википедия».
«Оның оқу деректерін ескере отырып, GPT-3 нәтижелері мен өнімділігі ауызша, цифрлық емес мәдениетке толы адамдарға қарағанда интернетке қосылған популяцияларды көрсетеді. Интернетке қосылған халық дамыған елдердің өкілдері, ауқатты, жас және ер адамдар болып табылады және негізінен АҚШ-қа бағытталған. Дамыған елдердегі ауқатты елдер мен халықтар интернеттің жоғары енуін көрсетеді. Сандық гендерлік бөліну сонымен қатар бүкіл әлем бойынша интернетте ұсынылған әйелдердің аздығын көрсетеді. Сонымен қатар, әлемнің әртүрлі бөліктерінде интернетке ену мен қолжетімділіктің әртүрлі деңгейлері болғандықтан, деректер жиынтығы азырақ байланысқан қауымдастықтарды көрсетеді.

GPT-3 туралы жоғарыда келтірілген нұсқаудан алынған бір нәрсе - генеративті AI жасайтындардың негізгі ережесі - сканерлеуге болатын интернет деректері неғұрлым көп болса, генеративті AI-ны жақсарту немесе жақсарту мүмкіндігі артады.

Сіз мұны екі жолдың кез келгенінде көре аласыз.

1) AI жақсартылды. Бізде мүмкіндігінше Интернетті шарлайтын генеративті AI болады. Қызықты нәтиже - генеративті AI бұрынғыдан жақсырақ болады. Бұл асыға күтетін нәрсе.
2) Потенциалды көптеп көшіру. Интернетті сканерлеудің кеңеюі плагиат пен авторлық құқықты бұзу мәселесін әлеуетті түрде үлкенірек және үлкен етеді. Бұрын көп мазмұн жасаушылар әсер етпесе, оның көлемі өседі. Егер сіз контент жасаушылардың жағында заңгер болсаңыз, бұл сіздің көзіңізге жас әкеледі (мүмкін үрейлі көз жасы немесе бұл сот ісін жүргізуде қандай перспективалар әкелетініне қуаныштың көз жасы).

Стакан жартылай толы ма, әлде жартылай бос па?

Өзің шеш.

Заңды миналар күтіп тұр

Сізді ойландыратын сұрақ - сіздің орналастырылған Интернет мазмұны сканерлеу үшін әділ ойын болып саналады ма. Егер сіздің мазмұныңыз төлем қабырғасының артында болса, ол сканерлеуге арналған мақсат емес болуы мүмкін, себебі төлем қабырғасының күшіне байланысты оған оңай қол жеткізу мүмкін емес.

Менің болжауымша, күнделікті адамдардың көпшілігі мазмұнды төлем қабырғасының артына жасырмайды. Олар өз мазмұнының жалпыға қолжетімді болуын қалайды. Олар адамдар оған қарайды деп болжайды.

Мазмұныңыздың жалпыға қолжетімді болуы оның деректер оқытылып жатқан генеративті AI пайдалану үшін сканерлеуін мақұлдағаныңызды білдіре ме?

Мүмкін Иә, мүмкін жоқ.

Бұл сіздің назарыңызды аударатын заңды мәселелердің бірі.

Бұрынғы сілтемеге оралу Блумберг заңы мақалада авторлар көптеген веб-сайттармен байланысты Шарттар мен Шарттардың (T&C) маңыздылығын атап өтеді:

«Деректерді скрипкалау үшін онлайн-боттарды басқаратын AI компаниялары елемейтін заңды мина барлық түрдегі жалпыға қолжетімді веб-сайттарда әдетте қол жетімді Шарттар мен шарттарда жасырылған. Қазіргі уақытта реттелмеген АЖ заңы мен авторлық құқықты бұзу дилеммасынан айырмашылығы, веб-сайттың Шарттары мен ережелері бекітілген келісім-шарт заңымен бекітілген және әдетте жеткілікті прецеденттерге сүйене отырып, сотта орындалуы мүмкін.

Олар сіздің веб-сайтыңызда лицензиялауға қатысты бет бар деп есептесеңіз, стандартталған заманауи үлгіні пайдалансаңыз, онда маңызды тармақ болуы мүмкін:

«Демек, веб-сайттарға арналған талаптар мен талаптардың көпшілігінде (тегін қол жетімділікте) деректердің автоматтандырылған қырылуына тыйым салатын тармақ бар. Бір қызығы, мұндай еркін қол жетімді үлгілер ChatGPT оқыту үшін пайдаланылған болуы мүмкін. Сондықтан, мазмұн иелері өздерінің Шарттары мен ережелерін қарап шығып, веб-сайт иесінің алдын ала жазбаша рұқсатынсыз, қолмен немесе автоматты түрде жиналғанына қарамастан, AI жаттығулары үшін немесе кез келген байланысты мақсаттар үшін веб-сайттардағы кез келген мазмұнды пайдалануға үзілді-кесілді тыйым салатын жеке тармақты енгізгісі келеді. .”

Мазмұн жасаушылардың өз веб-сайттары туралы әлеуетті әрекеттерін талдауға қосымша кикер қосылған:

«Сондықтан, скрипкасыз баптың әрбір бұзылуы үшін мәжбүрлі түрде жойылған залалды өтеу туралы ережені енгізу, оның нәтижесін беруді қаламайтын шығармашылық мазмұнның авторлары үшін сенімді шешім болуы мүмкін. AI оқыту мақсаттары үшін зияткерлік еңбек, ол үшін ақы алынбай немесе, кем дегенде, олардың жұмысы үшін лайықты баға берілмейді ».

Бұл туралы адвокатыңызбен кеңесуді қалауыңыз мүмкін.

Кейбіреулер бұл AI жасаушыларға мазмұн жасаушылардың өз мазмұнын қорғауға өте байсалды екенін айтудың маңызды жолы деп айтады. Лицензияңыздың дұрыс тұжырымдалғанына көз жеткізу AI жасаушыларды ескертетін сияқты.

Басқалары сәл көңілсіз. Олар сіздің веб-сайтыңызға ең қатал және ең қауіпті заң тілін енгізуге болады деп қынжылады, бірақ соңында AI жасаушылар оны сканерлейді. Сіз олардың бұлай істегенін білмейсіз. Сенде олардың істегенін дәлелдейтін шайтан болады. Олардың нәтижелері сіздің мазмұныңызды көрсететінін білу екіталай. Бұл сіз жеңе алмайтын тартысты шайқас.

Қарсы дәлел мынада: сіз шайқас басталмай тұрып берілесіз. Егер сізде, кем дегенде, жеткілікті заң тілі болмаса, және егер сіз оларды ұстап алсаңыз, олар кез келген жауапкершіліктен құтылуға тырысады. Мұның бәрі сіз заңның дұрыс түрін орналастырмағаныңыз үшін.

Сонымен қатар, тартымдылыққа ие болуға тырысатын тағы бір тәсіл мыналардан тұрады таңбалау сіздің веб-сайтыңызды генеративті AI арқылы сканерлеуге болмайды деп айтатын нәрсе бар. Идея стандартталған маркер ойлап шығарылады. Веб-сайттар маркерді өз сайтына қосуы мүмкін. AI жасаушыларға белгіленген веб-сайттарды өткізіп жіберу үшін деректерді сканерлеуді өзгерту керектігі айтылады.

Маркерлі тәсіл сәтті болуы мүмкін бе? Мазасыздықтар маркерлерді алу және орналастыру шығындарын қамтиды. Сонымен қатар, AI жасаушылар маркерлерге бағынады ма және олар белгіленген сайттарды сканерлеуден аулақ болуды қамтамасыз етеді. Басқа перспектива мынада, AI жасаушылар белгілермен бірге жүрмесе де, бұл сотқа бару және мазмұнды жасаушы AI сканерлеуі туралы ескерту үшін соңғы мильді жүріп өткенін дәлелдеуге тағы бір анықтама береді.

Иә, мұның бәрі сіздің басыңызды айналдырады.

қорытынды

Осы күрделі тақырып бойынша бірнеше қорытынды ескертулер.

Сіз плагиат және авторлық құқықты бұзушы дилемма ретінде осы AI туралы ақылға қонымды перспективаға дайынсыз ба?

Плагиат немесе авторлық құқықты бұзу әрекетінде генеративті AI «ұстау» туралы болжамның көп бөлігі нәтижелерді анықтауға байланысты. қатты ұқсайды деректерді оқыту кезінде ықтимал сканерленген Интернеттегі мазмұн сияқты алдыңғы жұмыстар.

Бұл жерде «бөліп ал және жең» айласы бар делік.

Міне, мен нені білдіреді.

Егер генеративті AI осы жерден аздап және сол жерден кішкентай бит алса, сайып келгенде, оларды кез келген белгілі бір өнімді шығару үшін араластырса, сәтті сәтке ие болу мүмкіндігі айтарлықтай азаяды. Кез келген шығыс белгілі бір бастапқы элементтен алынғанын нақты айтуға болатын жеткілікті шекке көтерілмейтін сияқты. Нәтижедегі эссе немесе шығарудың басқа режимдері тек бөлшектеп сәйкес келеді. Плагиат немесе авторлық құқықтың бұзылуы орын алды деп дәлелдеуге тырысатын әдеттегі тәсіл бойынша, әдетте, ойнап жатқан кішкене кішкентай нәрселерден көп нәрсені көрсету керек, әсіресе егер бұл кесек көзге түспесе және Интернетте кеңінен табылса (төмендету). заңсыз иеленуді дәлелдеудің кез келген барабар ауыртпалығы).

Ұсынылған дәлелдер маңызды емес пропорция болса да, генеративті AI көмегімен деректерді оқыту веб-сайттар мен мазмұн жасаушыларды бұзды деп сендіре аласыз ба?

Бұл туралы ойланыңыз.

Егер біз масштабта плагиатқа және авторлық құқықтың бұзылуына тап болсақ, плагиат және/немесе авторлық құқықты бұзу болып табылатын нәрсені анықтауға көзқарасымызды өзгерту қажет болуы мүмкін. Бәлкім, негізгі немесе жалпы түрде плагиат немесе авторлық құқықты бұзу үшін іс қозғалуы мүмкін. Мыңдаған немесе миллиондаған ұсақ-түйек үзінділерден тұратын мозаиканы мұндай бұзушылықтарды жасау деп түсінуге болады. Көрінетін қиындық мынада, бұл барлық мазмұнды кенеттен бұзушылықтар қолшатырының астына түсіруі мүмкін. Бұл тайғақ баурай болуы мүмкін.

Ауыр ойлар.

Аңызға айналған жазушы Лев Толстой салмақты ойлар туралы: «Өмірдің бірден-бір мәні – адамзатқа қызмет ету» деген сөзі бар.

Егер сіздің веб-сайтыңыз және басқалардың веб-сайттары AI-ны жақсарту үшін сканерленіп жатса және сіз ол үшін бір тиын алмасаңыз да, сіз адамзаттың болашағына үлес қосып жатырсыз деген жалынды сеніммен жұбата аласыз ба? Бұл өте аз баға сияқты.

Егер AI барлық адамдарды өмірден сүртетін қорқынышты экзистенциалды тәуекелге айналмаса. Сіз бұл үшін несие алмауыңыз керек. Менің ойымша, сіз бұл қорқынышты нәтижеге үлес қоспайсыз деп ойлаймын. Бұл қайғылы болжамды былай қойғанда, егер AI жасаушылар өздерінің генеративті AI-дан ақша тауып жатса және олар пайда табуды ұнататын болса, сіз де бәліштің бір бөлігін алуыңыз керек деп ойлауыңыз мүмкін. Бірдей бөлісіңіз және бөлісіңіз. AI жасаушылар кез келген веб-сайтты сканерлеуге рұқсат сұрауы керек, содан кейін сканерлеуге рұқсат етілгені үшін төленетін бағаны келісуі керек.

Несие қажет жерде несие беріңіз.

Енді сэр Уолтер Скоттқа соңғы сөзді айтайық: «О, біз неткен шиыршық торды тоқимыз. Алғаш рет алдауға жаттығамыз».

Бұл алдаудың жүріп жатқанына сенсеңіз немесе бәрі жақсы, анық және заңды деп ойласаңыз, қолданылмауы мүмкін. Осыны ойластырғаныңыз үшін өзіңізге жомарттықпен алғыс білдіріңіз. Сіз оған лайықсыз.

Дереккөз: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- және-ai-law/