Ученые МГУ изучают способы выявления искусственно сгенерированных текстов

22 сентября 2023, 10:34 [ «Аргументы Недели» ]

Ученые факультета вычислительной математики и кибернетики МГУ представили результаты своего исследования, направленного на разработку методов распознавания автоматически созданных текстов.

Искусственно сгенерированный текст представляет собой текст на естественном языке, созданный, модифицированный или дополненный машиной. В прошлом веке для создания таких текстов использовались методы на основе шаблонов и статистические методы. Однако с тех пор появились более продвинутые методы машинного обучения и нейронные сети.

В 2017 году была представлена архитектура глубоких нейронных сетей transformer, что привело к созданию большого количества языковых моделей, способных автоматически создавать крупные объемы качественных текстов на естественном языке. В связи с этим возрос интерес к разработке методов, позволяющих распознавать автоматически порожденные тексты от написанных человеком.

В качестве методов распознавания была выбрана модель ruRoBERTa, разработанная командой SberDevices специально для обработки русскоязычных текстов. Дополнительно была рассмотрена модель на основе архитектуры LSTM.

«По причине того, что мы не смогли найти в открытом доступе подходящий для обучения моделей набор данных, было принято решение сформировать его самостоятельно. Для генерации отзывов была выбрана модель ruGPT-3 Large, которая хорошо зарекомендовали себя на схожих задачах в других исследованиях», - отметила ассистент кафедры алгоритмических языков факультета ВМК МГУ Наталья Ефремова.

Созданный набор данных был использован для обучения и оценки качества работы моделей LSTM и RoBERTa. Модель LSTM достигла точности 82%, а модель RoBERTa - 86%.

В целом, модели правильно распознают сгенерированные отзывы, которые на первый взгляд кажутся реальными. При этом большинство ошибочных распознаваний происходит с короткими отзывами.