30 июля 2019 17:49

Битва разумов: искусственный интеллект научился распознавать текст, созданный "коллегой"

Программа отличает текст, написанный человеком, от продукции искусственного интеллекта.
Иллюстрация Pixabay

Фрагмент текста, сгенерированного искусственным интеллектом.
Иллюстрация Harvard University.

Часть статьи в The New York Times.
Иллюстрация Harvard University.

Фрагмент романа Джеймса Джойса.
Иллюстрация Harvard University.

Тексты, сгенерированные программами, с каждым годом становятся всё больше похожи на "человеческие". Но теперь учёные бьют врага его же оружием: распознать подобные фальшивки поможет другой искусственный интеллект.

"Кто с искусственным интеллектом к нам в редакцию придёт, искусственным интеллектом и разоблачён будет". Так можно перефразировать Александра Невского благодаря новой работе учёных из Гарвардского университета и компании IBM.

Времена, когда текст, сгенерированный нейронной сетью, выглядел донельзя неуклюжим и искусственным, прошли, и, похоже, безвозвратно. Так, в ходе испытаний, проведённых авторами нового исследования, студенты распознали только половину творений ИИ.

Есть и более удивительные примеры. В 2008 году в порядке эксперимента учёные подали сгенерированную программой статью в научный журнал, на тот момент входивший в Перечень рецензируемых научных изданий Высшей аттестационной комиссии при Министерстве образования и науки РФ. Напомним, что публикации в журналах из этого списка засчитываются при защите кандидатских и докторских диссертаций. "Научный труд" приняли к публикации. И пусть эта вопиющая история говорит прежде всего о качестве самого издания (вскоре после этого инцидента исключённого из списка), возможности имитации, продемонстрированные компьютером, тоже впечатляют.

Учёные из Гарварда решили, так сказать, бить врага его же оружием. Они создали искусственный интеллект, распознающий литературное творчество "коллег".

Специалисты воспользовались уязвимым местом ИИ: его "стремлением" как можно точнее подражать человеку.

Поясним. Электронные писатели, обучаясь на десятках миллионов текстов, доступных в Интернете, вычисляют, какие слова чаще всего встречаются рядом друг с другом. Например, английские словоформы have, am и was ("иметь", "есть" и "был") обычно следуют за местоимением I ("я").

Программа настолько педантично следует выявленным закономерностям, что её творение становится слишком предсказуемым. И другой искусственный интеллект может распознать эту фальшь.

Новая система была обучена противостоять нейронной сети GPT-2, генерирующей фейковые новости после обучения на 45 миллионах текстов, доступных онлайн.

После этапа обучения новый электронный эксперт продемонстрировал, что "насквозь видит" творения GPT-2, а также хорошо работает с продуктами других систем.

Как это выглядит на практике? Пользователь вводит в специальное окно фрагмент текста. После этого компьютер размечает текст цветом. Зелёный означает, что использование данного слова было, по расчётам системы, весьма предсказуемо. Жёлтый говорит об умеренной предсказуемости, красный – о слабой предсказуемости. Фиолетовый сигнализирует о том, что использование данного слова стало для машины полной неожиданностью.

Вот как выглядит пример текста, сгенерированного алгоритмом GPT-2.

Фрагмент текста, сгенерированного искусственным интеллектом.

Иллюстрация Harvard University.

Ниже – фрагмент статьи в The New York Times (разумеется, написанной человеком).

Часть статьи в The New York Times.

Иллюстрация Harvard University.

Наконец, так выглядит цитата из экспериментального романа Джеймса Джойса "Поминки по Финнегану" (уже почти столетие вызывающего у читателей вопрос, что это было).

Фрагмент романа Джеймса Джойса.

Иллюстрация Harvard University.

Разница видна, как говорится, невооружённым глазом.

Вместе с тем исследователи подчёркивают, что их детище не предназначено для того, чтобы полностью заменить собой эксперта-человека. Скорее программа станет ещё одним инструментом в его руках.

"Это исследование предназначено для того, чтобы дать людям больше информации, чтобы они могли принять обоснованное решение о том, где реальный [текст], а где подделка", – объясняет соавтор разработки Себастьян Германн (Sebastian Gehrmann) из Гарвардского университета.

Тесты показали, что студенты, самостоятельно распознавшие только 50% фальшивок, с помощью электронного помощника верно определили уже 72% поддельных текстов.

Теперь разработчики ИИ-литераторов, возможно, примут вызов и научат свои программы писать менее предсказуемо.

Ситуация напоминает один из крайне эффективных методов обучения искусственного интеллекта, когда одна нейронная сеть стремится создать как можно более точную имитацию чего-либо, а другая – распознать подделку. Такое соревнование приводит к появлению настоящих шедевров, таких как картины в уникальном стиле. Куда подобная "гонка вооружений" заведёт человечество в сфере создания текстов и новостей, остаётся только догадываться.

Сегодня очень многие специалисты обеспокоены тем, что многие пользователи Интернета слепо доверяют подделкам, совершенно не анализируя содержимое и активно распространяя такие утки в социальных сетях. В то же время другая часть пользователей ищет теории заговора там, где их нет и в помине.

К слову, ранее "Вести.Наука" (nauka.vesti.ru) писали о том, как искусственный интеллект научился распознавать фейковые новости лучше человека и искать в научных трудах изображения, использованные повторно. Но ИИ – обоюдоострый инструмент, его можно использовать не только для распознавания фальшивок, но и для их создания.

Live

Битва разумов: искусственный интеллект научился распознавать текст, созданный "коллегой"