timkin.blog: К проблеме самообновляющегося учебника

Прогресс технологий идет настолько быстро, что становятся бессмысленными статические источники информации, например, статические учебники и онлайн-курсы. Содержание должно непрерывно обновляться и изменяться. Конечно, есть методы и инструменты более динамичные: блоги, агрегаторы контента типа scoop.it и многое тому подобное. Но все же привычный академический формат, рассчитанный не на исследователей, а именно школяров – это учебник, к которому очень близок автоматизированный онлайн-курс. Их непрерывное обновление не под силу человеку - здесь должен быть привлечен ИИ и продвинутые NLP-модели. То есть адекватные прогрессу учебные материалы должны самообновляться, обладать функциями парсера новостей по теме и функциями переформатирования старых и компиляции новых текстов.

Например, при подготовке главы о Больших генеративных моделях (БГМ) в онлайн-курсе и учебном пособии «Искусственный интеллект в образовании», автор столкнулся с тем, что текст и видео за время их подготовки к публикации в онлайн-курсе стабильно устаревает. Только было подготовлено и записано видео о GPT-3, как появилась необходимость дополнить главу информацией о модели Сбера ruGPT-3 Large (ноябрь 2020). Следом появилась информация о новой модели Google на 1.6 трлн. параметров. АК в июне 2021 г., когда весь курс был окончательно подготовлен к реализации «как назло» появляется не только информация о китайской модели Wu Dao, но и отечественной, пусть и более скромной YaLM от Яндекса, да еще и с демонстрационным интерфейсом «Балабоба».

Решаема ли эта проблема – создание «умного» динамического учебника? Попробуем порассуждать.

Новая информация может противоречить существующему содержанию учебника, а может дополнять его.

1. Предположим, что дополняет. Каков может быть подход?

В первом приближении, при условии, что текст был написан добросовестным автором, можно предположить, что дополнения могут поступать только от источников, которые появились позже окончания работы над текстом.

В этом случае алгоритм может быть таким:

1) Система анализирует текст (возможно происходит предварительная суммаризация-реферирование), выделяя ключевые понятия, слова, термины

2) При этом должны быть исключены n-граммы, «заужающие» и затемняющие поиск, например, разного рода именованные сущности – но универсального подхода здесь нет. Например, для поиска информации о новых БГМ, д.б. исключены фирменные, географические названия и прочие наименования. А для учебника по истории Южной Америки нет.

3) Далее м.б. осуществлен поиск-парсинг новой информации, причем поисковая модель должна уметь определять первоисточник информации и его дату публикации. По аналогии как tineye ищет оригинал картинки, где и когда она была впервые опубликована.

4) Все эти этапы в принципе решаемы и не новы: агрегация новостей дело не новое. Это вопросы источников информации, релевантности поиска. Наверное, можно обойтись стандартными и полуавтоматическими решениями.

5) Затем система должна решить: содержит ли найденный контент что-либо новое по сравнению с имеющемся в тексте. То есть должна научиться определять «степень новизны». Непростой вопрос, связанный с задачами поиска плагиата только в самом первом приближении.

6) И далее, если на предыдущем шаге получено значение «да», новизна имеется - информация должна быть очищена от несущественных, повторяющихся частей, возможно сжата. А затем должно быть определено куда она должна быть вставлена и, что совсем не тривиально, стилизована под общий текст.

Итак, перечислим еще раз задачи, которые необходимо решить:

· Анализ исходного текста для целей поиска тематической информации

· Отбор источников информации, парсинг информации с них, тайм-селекция

· Определение новизны информации по отношению к исходному тексту

· Стилизация информации и ее объединение с исходными текстом

2. Исправление содержания

Мне неизвестны решения такого комплексного характера. Хотя, очевидно, что по частям решения есть. Не секрет, что определенной моделью глобального динамического учебника является Википедия. Правда, изменения в ней генерируются множеством людей-редакторов, в том числе на волонтерской основе. Не чужда Википедия и использованию ИИ. Однако до последнего времени его применение ограничивалось несколькими простыми задачами:

· Препятствие вандализму (когда кто-то намеренно добавляет в энциклопедию неправдивую информацию), например, программа ClueBot NG;

· Создание заготовок статей, вставка сведений в заранее определенные шаблоны и т.п.;

· Создании и исправлении ссылок, проверке правописания, определение нарушения копирайта

Более продвинутый вариант предлагают исследователи из Массачусетского технологического института (см. популярное изложение в Офисе новостей MIT за 12.02.2021 г. https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212). В статье «Automatic Fact-Guided Sentence Modification»// Darsh J Shah, Tal Schuster, Regina Barzilay Computer Science and Artificial Intelligence Lab Massachusetts Institute of Technology. https://arxiv.org/pdf/1909.13838.pdf авторы ставят задачу исправления и изменений в статьях Википедии. При этом основной задачей является именно исправление, а не добавление – через выделение противоречий между старой и новой информацией и изменение старой. Это сложная задача ограниченной генерации, поскольку вывод должен быть согласован с новой информацией и вписываться в остальную часть существующего документа.

В статье, представленной на конференции AAAI по искусственному интеллекту, исследователи описывают систему генерации текста, которая определяет и заменяет конкретную информацию в соответствующих предложениях Википедии, сохраняя язык, похожий на то, как люди пишут и редактируют. Идея состоит в том, что люди будут вводить в интерфейс неструктурированное предложение с обновленной информацией, не беспокоясь о стиле или грамматике. Затем система выполнит поиск в Википедии, найдет соответствующую страницу и устаревшее предложение и перепишет их по-человечески. Исследователи говорят, что в будущем есть потенциал для создания полностью автоматизированной системы, которая определяет и использует самую свежую информацию из Интернета для создания переписанных предложений в соответствующих статьях Википедии, отражающих обновленную информацию.

Согласитесь, это предложение наиболее близко к идее самообновляющегося учебника. Но давайте посмотрим как действует эта технология. Что следует учитывать и при каких условиях задача может быть достижимой.

Во-первых назначением системы является не изменение всей статьи, а только «точных частей статей». В качестве входных данных система принимает «устаревшее» предложение из статьи в Википедии, а также отдельное «утверждение», содержащее обновленную и противоречивую информацию. Она должна автоматически удалять и сохранять определенные слова в устаревшем предложении на основе информации в заявлении, чтобы обновить факты, но сохранить стиль и грамматику. Это простая задача для людей, но новая в машинном обучении.

Например, предположим, что это предложение (выделено жирным шрифтом) необходимо обновить: «Фонд A считает 28 из своих 42 миноритарных пакетов акций в операционно активных компаниях особенно важными для группы». Предложение с обновленной информацией может гласить: «Фонд А считает 23 из 43 миноритарных долей участия значительными». Система найдет соответствующий текст в Википедии для «Фонда А» на основе заявления. Затем он автоматически удаляет устаревшие числа (28 и 42) и заменяет их новыми числами (23 и 43), сохраняя при этом предложение точно таким же и грамматически правильным.

Как это работает:

Система была обучена на популярном наборе данных, который содержит пары предложений, в которых одно предложение является утверждением, а другое - соответствующим предложением Википедии. Каждая пара помечается одним из трех способов: «согласен», что означает, что предложения содержат совпадающую фактическую информацию; «Не согласен», что означает, что они содержат противоречивую информацию; или «нейтральный», если для любого ярлыка недостаточно информации. Система должна заставить все несогласные пары согласиться, изменив устаревшее предложение, чтобы оно соответствовало утверждению. Это требует использования двух отдельных моделей для получения желаемого результата.

Первая модель - это классификатор для проверки фактов, предварительно обученный маркировать каждую пару предложений как «согласен», «не согласен» или «нейтральный», - который фокусируется на несогласных парах.

Вместе с классификатором работает настраиваемый модуль «маскировки нейтралитета», который определяет, какие слова в устаревшем предложении противоречат утверждению. Модуль удаляет минимальное количество слов, необходимых для «максимизации нейтралитета» - это означает, что пара может быть помечена как нейтральная. Это отправная точка: хотя предложения не совпадают, они больше не содержат явно противоречивой информации. Модуль создает двоичную «маску» над устаревшим предложением, где 0 ставится над словами, которые, скорее всего, требуют удаления, а 1 ставится поверх хранителей.

После маскирования для генерации окончательного выходного предложения используется новая структура с двумя кодировщиками и декодерами. Эта модель изучает сжатые представления утверждения и устаревшего предложения. Работая совместно, два кодировщика-декодера объединяют несходные слова из заявки, перемещая их в места, оставшиеся свободными после удаленных слов (тех, которые покрыты нулями) в устаревшем предложении.

Результат:

В одном тесте модель получила более высокие оценки, чем все традиционные методы, с использованием метода под названием «SARI», который измеряет, насколько хорошо машины удаляют, добавляют и сохраняют слова по сравнению с тем, как люди изменяют предложения. Они использовали набор данных с вручную отредактированными предложениями Википедии, которых модель раньше не видела. По сравнению с несколькими традиционными методами создания текста, новая модель была более точной в обновлении фактов, а ее результаты более напоминали человеческое письмо. В другом тесте краудсорсинговые люди оценили модель (по шкале от 1 до 5) на основе того, насколько хорошо ее выходные предложения содержали фактические обновления и соответствовали грамматике человека. Модель получила средний балл 4 за фактическое обновление и 3,85 за соответствие грамматике.

№	Старый текст	Новая информация	Результат исправления
1	Родившись в Лоутоне , штат Оклахома , и выросший в Анахайме , штат Калифорния, Хилленбург в детстве увлекся небом, а также развил интерес к искусству	Стивен Хилленбург в детстве был очарован океаном	Родившись в Лоутоне , штат Оклахома , и выросший в Анахайме , штат Калифорния, Хилленбург в детстве увлекся океаном, а также проявил интерес к искусству .
2	Немецкая Startups Group считает, что 28 из 42 миноритарных акционеров в действующих компаниях имеют особое значение для группы.	Он считает значимыми 23 из 43 миноритарных акционеров	Немецкая Startups Group считает, что 23 из 43 миноритарных акционеров в действующих компаниях имеют особое значение для группы.
3	Сиквел Rio 2, был выпущено 11 апреля 2012 года	Сиквел Rio вышел 11 апреля 2014 года	Сиквел Rio 2, было выпущено 11 апреля 2014 года
4	Альберт С. Редди родился 28 марта 1940 года - канадский кино - и телевизионный продюсер	1930 году родился Альберт С. Редди	Альберт С. Редди родился 18 декабря 1930 года -китайский кино - и телевизионный продюсер*

*В последнем примере, несмотря на то, что модель выдает правильный 1930 год, она изменяет месяц и национальность на выдуманные, неправильные значения. Это результат слишком агрессивного удаления.

Итак, что можно сказать о предложенном методе и о возможности его применения для решения задачи саморедактирующегося учебника

1. Очевидно, что его использование позволяет достичь только частичного самообновления, а именно: изменения на основе выделения противоречия между старой и новой информацией
2. Как понятно из примеров пока работают лишь простые и в основном количественные различия и изменения
3. Для обучения модели необходимо сформировать достаточное количество размеченных пар предложений
4. Проблема парсинга необходимых изменений в учебник здесь не ставится: новый фрагмент должен находить и «скармливать» системе человек

Тем не менее мы видим здесь определенный шаг в направлении создания самообновляющегося учебника.

timkin.blog

четверг, 1 июля 2021 г.

К проблеме самообновляющегося учебника

Комментариев нет:

Отправить комментарий

четверг, 1 июля 2021 г.

К проблеме самообновляющегося учебника

Комментариев нет:

Отправить комментарий

четверг, 1 июля 2021 г.