Недавно писал о модели, которая убирает из англоязычных новостей воду и оставляет только краткую выжимку. Я считаю, что нашим новостным сайтам очень не помешало бы использование этих технологий.

Теперь немного расскажу о работе нейросетей в модели от Salesforce. К слову, помимо таких вот интересных исследований, ребята занимаются и упрощением доступа к ИИ: их сервис Einstein позволяет пользоваться уже готовыми разработками в личных или бизнес-целях. Конечно, не бесплатно, но сама идея сервиса интересна. Думаю, этот сектор услуг будет очень активно развиваться уже через 2-3 года.

Но давайте вернёмся к нашим нейронам. Для начала нам нужно поставить задачу: модель должна находить в тексте «значимые» участки, удалять всё остальное, а затем оставшиеся (несущие основную смысловую нагрузку) слова собирать в осмысленный текст.

Попробуем вручную разобрать текст недавней новости на сайте отечественного информационного агентства, Укрінформ:

c90d8e8605a7590f488e1.png

Кстати, отличительная особенность СНГ-шной журналистики — вот эти вот ужасные «напомним», которые пишутся вручную и идут в конце текста.

Итак, первый этап: выделить главное в тексте. Последние три абзаца мы вычеркнем: они не несут никакой новостной нагрузки и являются лишь коротким пересказом старых новостей.

7a6e463090602a1f0bc71.png

Итого краткая выжимка этой новости может выглядеть следующим образом:

7 августа во время часового телефонного разговора премьер Южной Кореи и президент США решили продолжить кооперацию по сдерживанию Пхеньяна и увеличить давление и санкции из-за усиления ядерного арсенала КНДР.

Всего 207 символов вместо исходных 1154 (а с последнимм абзацами — 2294). Прочтение такой короткой новости займёт в 10 раз меньше времени, при этом объем полученной новостной информации останется тем же.

Для создания модели Salesforce использовали сотни тысяч уже написанных вручную выжимок для сайтов CNN и Daily Mail. Применялись два метода обучения нейросети: обучение с учителем и обучение с подкреплением. Разница между ними состоит в том, что в первом методе есть «учитель» (человек), который буквально показывает нейросети «что нужно сделать в данный момент», а во втором он лишь ставит оценку за конечный результат.

В нашем случае это значит, что задача человека в обучении состоит не в том, чтобы по очереди говорить, какое именно слово из текста нужно выбрать, а в сравнении составленной нейросетью выжимкой с написанной кем-то вручную («эталонной").

Правда, заставлять людей сравнивать сотни тысяч результатов — глупо, поэтому был использован специальный метод ROUGE. Он позволял сравнить сгенерированные выжимки с написанными человеком и оценить схожесть "основной мысли" в них. По сути, он подсчитывал, насколько созданная нейросетью выжимка наполнена значимой информацией. Чем выше оценка, тем лучше передана суть. Такая выжимка не всегда читабельна, но об этом ниже.

Так вот, чем больше тексты "похожи по смыслу", тем большую награду в виде баллов получает нейросеть. Если варианты очень разнятся — начисляется штраф (баллы снимаются). И задача нейросети состоит в выборе самой выгодной последовательности выборов. Это позволяет ей предсказывать не награду за каждый отдельный шаг, но и предвидеть суммарную награду за следующие за ним действия.

Этот алгоритм хорош в тех случаях, когда каждый шаг влияет на все будущие варианты выбора, когда мы имеем дело с "динамической системой" (это не термин — словосочетание использовано для понимания, именно поэтому я беру его в кавычки).

Модель Salesforce была натренирована при помощи обоих методов: её научили как выбирать самое значимое в данный момет слово, так и полную цепочку слов до конца. Обучение с подкреплением позволяет получать самую важную информацию из текста, а обучение с учителем повышает читабельность текста (за счёт выбора правильных слов-связок).

Таким образом, нейросети смогли не просто выбирать из новости самые важные слова и объединять их, но и научились подавать результат в виде осмысленных сообщений, правильно интерпретируя смысл словосочетаний. Иногда даже вводились новые слова, которых не было в исходном тексте.

Я постарался объяснить суть работы простым языком. Надеюсь, в будущем такие технологии смогут полностью заменить рерайтеров на новостных сайтов, а люди смогут получасть короткие осмысленные выжимки вместо предвзятых разбавленных водой текстов на пару тысяч символов.

Если вам понравился мой текст, можете подписаться на Telegram-канал, там будет много такого: https://t.me/insteadoftwi

Ну а напоследок советую посмотреть известный ролик, на котором показан процесс обучения нейросети игре в Super Mario: