Лет пять назад меня очень заинтересовали военные
мемуары. Благо, есть замечательный ресурс: Милитера http://militera.lib.ru/, на
котором собрано более 1000 (1012 на 01.01.2021) только мемуаров о Великой
отечественной войне. Помимо исторического интереса, часто это просто
захватывающее чтение. Кроме того, часть из них – хороший исторический источник,
источник для собственных размышлений, обобщений и т.д. Здесь мы не всегда, но
часто имеем дело с непосредственным наблюдением
– тем источником знания, который мне как первоначально физико-химику наиболее
близок.
Где-то год назад во мне проснулся зуд писательства
и я начал обобщать то что прочитал в этих мемуарах. Моя работа состояла из:
сопоставления текстов, поиска общего и особенного (событий, отношений, дат и
мест, персоналий и т.п.), формулировки гипотез и умозаключений и их проверки на
основании частотности, времени, локаций и т.п., выделении наиболее характерных
участков текста для иллюстрирования
обобщений и умозаключений. Что из этого получается можете посмотреть в статьях
для живого журнала
https://timkinsl.livejournal.com/.
Другая моя часть достаточно живо интересуется
прогрессом в сфере искусственного интеллекта и применения его технологий в
образовании. А нельзя ли применить последний писк ИИ моды ChatGPT для обработки мемуаров? Ведь каков
алгоритм подготовки статей? Например, в ходе чтения мемуаров военнопленных
возникает гипотеза о различиях в отношении к советским военнопленным солдат
германской и союзных ей армий и штатских в зоне контактов в
зависимости от национальности последних (гипотезу об отношении к пленным в
зависимости от их национальностей мы уже рассмотрели см. здесь https://timkinsl.livejournal.com/4951.html).
Как можно проверить гипотезу? Например, выделить все события и отношения в которых
зафиксированы как их характер (например, знак: положительный, отрицательный,
нейтральный) с одной стороны, а с другой – национальность акторов. Далее можно
посчитать частотность выделенного, ранжировать выделенное по силе отношений
(экстремальные, умеренные и т.п.) и сделать определенные выводы по высказанной
гипотезе.
Может ли помочь ChatGPT в выделении фрагментов
текстов по заданным параметрам?
Было введено 4 фрагмента текста, который
представлял собой набор предварительно отобранных частей мемуаров из списка
мемуаров бывших военнопленных. Это части, где мемуаристы приводили примеры или
описывали события, характеризующие отношения к советским пленным военных или
гражданских лиц с однозначно установленной национальной принадлежностью: немцы
(большая часть случаев), австрийцы, финны, прибалты, поляки, украинцы, казаки
(сознаю, что это не национальность), швейцарцы, французы и прочие. Куски текста
предлагались ChatGPT последовательно и
были разбиты на следующие объемы: 1100, 1000, 2500, 1850 слов.
Причина разбиения в том, что неизвестно какой объем
текста можно задать для анализа. При
введении текста полностью (6500 слов) ответом было: не могу обработать, слишком
длинный текст. В обсуждениях на Хабре утверждалось, что «Языковые модели (ЯМ)
обладают ограниченным контекстом. Для ChatGPT это 4096 токенов (около 3000
слов). За этой границей все сказанное в ходе сессии "забывается" моделью».
Это утверждение относится ко всей беседе-сессии. Оно оспаривалось в дискуссии,
утверждалось, что объем связной и последовательной дискуссии может быть больше.
В то же время не очень понятно, каков
может быть объем единичного запроса.
Сам ChatGPT на вопрос: «Какой максимальный запрос ты
сможешь обработать?» ответил: «Как языковая модель, максимальный запрос, который
я могу обработать, зависит от размера входных данных и доступных вычислительных
ресурсов для их обработки. …. Точный размер входных данных, которые я могу
обработать, определяется множеством факторов, таких как сложность запроса,
объем доступной памяти и вычислительных ресурсов, а также ограничения,
накладываемые API или платформой, на которой я работаю. Однако в целом можно с
уверенностью сказать, что я могу обрабатывать запросы в несколько сотен слов и более, если они хорошо сформированы и не
выходят за рамки того, на чем я обучался».
Несколько сотен слов это немного, мы начали с 1000
и затем увеличили объем. Забегая вперед, надо ответить, что по предварительным
ощущениям при фрагменте около 1000 слов ChatGPT
обрабатывает весь текст, а для фрагментов в 1850 и 2500 вероятны пропуски последних
фрагментов
Сам промт и вводимый текст был переведен на
английский язык переводчиком DeepL. Полученные ответы на английском
переводились на русский тем же переводчиком. Необходимость перевода диктовалась
тем, что собственный опыт и рекомендации других пользователей говорят, что для русского
языка ответы получаются менее качественные и полные. Хотя в статье
https://habr.com/ru/post/715492/ утверждается, что «запросы можно писать на
русском (он хорошо понимает), а вот ответы просить давать на английском», даже
в этой сессии, ввод на русском как минимум приводил к отказу ответа на более
коротком тексте.
Промт-запрос приведен ниже:
Обращаюсь к вам за помощью в
обработке текстов воспоминаний советских военнопленных.
Выберите из приведенного текста
все случаи 1) доброго; 2)жестокого обращения с пленными:
1. Немцы
2. представители других народов
И приведите эти цитаты в своем
ответе с указанием номера источника, из которого они взяты. Номер источника
указывается перед его названием. Также не забудьте подчеркнуть и выделить,
какой национальности был солдат или другой человек в выделенной ситуации.
Вот первый текст, который нужно
обработать
Промт повторялся при вводе каждой из четырех частей текста. Этот порядок также рекомендуется при работе с ChatGPT чтобы ограничить его «стремление к фантазированию и собственному творчеству».
Текст и комментарии к нему можно посмотреть в моем живом журнале по
адресу:
https://timkinsl.livejournal.com/6071.html#t5815
Что еще можно добавить про работу
ChatGPT с подобной задачей:
1.
ChatGPT склонен давать собственные оценки и
умозаключения, особенно, если ты просишь продолжить ответ. В этом случае он
может даже выдать цитату, которой нет в исходном тексте. В частности, вторая
цитата не очень коррелирует с текстом Ю.
Владимиров. Причем трудно сказать,
сформулировал ли ChatGPT ее сам или обратился к первоисточнику в недрах своего «архива»
(если он есть)
2. Тексты
и цитаты сокращаются, но без изменения
смысла. То есть автореферирование осуществляется достаточно корректно
3. Не
всегда придерживается одной и той же формы представления результатов от ответа
к ответу. Форму в промте надо задавать максимально подробно и точно
4.
Порой выходит за рамки задачи запроса. Несмотря
на то, что запрос был на выделение фрагментов жестокого обращения с
пленными, ChatGPT делает несколько
обобщений на доброе или неоднозначное
отношение к пленным австрийцев, румын (это 1944 год и пленный –летчик) и
поляков (см. последние фрагменты).
Общие выводы:
1.
ChatGPT понимает тексты, понимает промты, его
можно привлекать к обработке текстов, выделению из текста событий, отношений,
маркированию событий временем, местом, источником. При этом пользователь может
обходиться естественным языком для формулировки запросов и не быть специалистом
и носителем «языка компьютерных лингвистов»
2. В
то же время та форма чата, которая доступна сейчас мало приспособлена к
подобным задачам: текст нужно «скармливать» слишком малыми частями – это главное,
имеет место языковое неравенство русский-английский, чат даже при наличии
текста имеет тенденцию к «самодеятельности».
3.
Очевидно, что принципиально эти недостатки не
являются неустранимыми и может быть создан удобный инструмент для подобных исследований
И в заключение хотел бы обратиться к заинтересованным в подобных
исследованиях коллегам: подскажите, может есть другие пути обработки большого
количества и больших объемов письменных текстов уже имеющимися инструментами
Такой инструмент может быть востребован:
•
в сфере науки:
для проведения мета-анализа статей, литературного обзора и т.п.
•
в гуманитарике: при обработке источников разного
рода
• в литературе: подготовка к написанию эпических полотен типа «Красного колеса» Солженицына
Возможности Bing с встроенной ChatGPT поражают воображение. Модель прямо в браузере может обработать 15-страничные файлы и ответить на вопросы по тексту документа. - надо устанавливать
ОтветитьУдалить