Уытты AI - бұл нәрсе және ол арандатушылық болғаны үшін сыйақы алады

Үлкен тілдік модельдер (LLM) кез келген саланың дерлік бөлігіне айналуда. Табиғи тілдегі қолданбаларға арналған LLM әзірлеу көптеген кезеңдерден тұрады. Олардың бірі - LLM қауіпті жауаптар немесе улы мазмұн тудырмайтындығына көз жеткізу. Бұл мәселені шешу үшін әзірлеушілер адам қызыл командасын пайдаланады, бұл негізінен LLM-лерді қауіпті нәтижелерді шығаруға мәжбүр ететін нұсқауларды шығаратын адамдар тобы.

Адамның қызыл командасын пайдаланудағы мәселе - оларды жалдау қымбат және олар көп уақытты алады. Сондықтан MIT зерттеушілері басқа LLM арқылы табиғи тілдегі LLM қолданбаларын тексерудің жаңа әдісін тапты. Бұл әдіс қызығушылыққа негізделген қызыл команда (CRT) деп аталады және негіз ретінде машиналық оқытуды пайдаланады. Зерттеу ICLR 2024 конференциясында мақала ретінде жарияланды және онлайн режимінде қол жетімді.

Қызығушылыққа негізделген қызыл топтастыру (CRT) жақсырақ

Алғашында адамның қызыл командалық жұмысын автоматтандыру тәсілі қызыл команда үлгісін жасау және оны күшейту оқыту (RL) арқылы оқыту арқылы жасалды. Қызыл топ үлгісін сынақтан өткізгеннен кейін нәтиже сәтті болды, бірақ тиімді нәтижелер саны аз болды.

Бұл мақсатты LLM дәл бағаланбайды дегенді білдіреді, өйткені улы нәтиже шығара алатын көптеген ескертулер қосылмаған. Тиімді нәтижелердің аз болуының себебі - қызыл команда үлгісі өте уытты және ұқсас нәтижелерді шығаруға үйретілген. Марапаттау жүйесі арандатушы ұсыныстарды олардың тиімділігіне немесе уыттылығына қарай бағалайды. Мақсатты LLM-ді іске қосатын әрбір ықтимал шақыруды қарастыруға ешқандай ынталандыру жоқ.

Екінші жағынан, қызығушылыққа негізделген қызыл топты (CRT) пайдалану әлдеқайда күшті. CRT жоғары интеллектуалды үлгілерді қоздыруға қабілетті шақырулардың үлкен санын шығарады. Себебі, CRT әрбір шақырудың салдарына назар аударады. Ол әртүрлі сөздер мен сөйлемдерді қолдануды мақсат етеді, нәтижесінде улы өнім кеңірек қамтылады. Оқытуды күшейту үлгісіндегі марапаттау жүйесі сөздердің ұқсастығына назар аударады, ал CRT үлгісі ұқсастықтарды болдырмағаны және әртүрлі сөздер мен үлгілерді пайдаланғаны үшін марапатталады.

LLaMA2 бойынша токсикалық шығу үшін сынау

Зерттеушілер LLaMA2, ашық бастапқы LLM үлгісінде қызығушылыққа негізделген қызыл топты (CRT) қолданды. CRT ашық бастапқы модельден улы мазмұн тудыратын 196 шақыруды шығара алды. LLaMA2 зиянды мазмұнды шығаруды жеңу үшін адам сарапшыларымен мұқият бапталған. Зерттеушілер бұл экспериментті GPT2 көмегімен жүргізді, ол 137M параметрі бар шағын модель болып саналады. Топ CRT қызыл командалық жұмысты автоматтандырудың маңызды құрамдас бөлігі болуы мүмкін деген қорытындыға келді. CRT коды github сайтында қол жетімді.

«Біз модельдердің көбеюін көріп отырмыз, ол тек өседі деп күтілуде. Мыңдаған немесе одан да көп модельдерді және модель жаңартуларын жиі жіберетін компанияларды/зертханаларды елестетіңіз. Бұл модельдер біздің өміріміздің ажырамас бөлігі болады және олар қоғамдық тұтыну үшін шығарылмас бұрын тексерілгені маңызды. Модельдерді қолмен тексеру жай ғана масштабталмайды және біздің жұмысымыз қауіпсіз және сенімді AI болашағын қамтамасыз ету үшін адамның күш-жігерін азайту әрекеті », - дейді Агравал.

Қауіпсіз LLM үлгілерін жасау болашағы жарқын болып көрінеді. Үздіксіз зерттеулер арқылы кез келген мақсат үшін қауіпсіз LLM құру мақсатына тиімді қол жеткізуге болады. Осы мақаланың артында тұрған зерттеушілер автоматтандырылған қызыл команда және тіл үлгілеріндегі қарсыластық шабуылы сияқты салаларда басқа да байланысты жұмыстарды жариялады.

Бастапқы оқиға MIT News-тен алынған.

Дереккөз: https://www.cryptopolitan.com/toxic-ai-is-a-thing-and-it-gets-rewards/