воскресенье, 12 февраля 2023 г.

Может ли искусственный интеллект (ChatGPT) помочь при анализе текстов?

 

Лет пять назад меня очень заинтересовали военные мемуары. Благо, есть замечательный ресурс: Милитера http://militera.lib.ru/, на котором собрано более 1000 (1012 на 01.01.2021) только мемуаров о Великой отечественной войне. Помимо исторического интереса, часто это просто захватывающее чтение. Кроме того, часть из них – хороший исторический источник, источник для собственных размышлений, обобщений и т.д. Здесь мы не всегда, но часто имеем дело  с непосредственным наблюдением – тем источником знания, который мне как первоначально физико-химику наиболее близок.

Где-то год назад во мне проснулся зуд писательства и я начал обобщать то что прочитал в этих мемуарах. Моя работа состояла из: сопоставления текстов, поиска общего и особенного (событий, отношений, дат и мест, персоналий и т.п.), формулировки гипотез и умозаключений и их проверки на основании частотности, времени, локаций и т.п., выделении наиболее характерных участков текста для иллюстрирования  обобщений и умозаключений. Что из этого получается можете посмотреть в статьях для живого журнала  https://timkinsl.livejournal.com/.

Другая моя часть достаточно живо интересуется прогрессом в сфере искусственного интеллекта и применения его технологий в образовании. А нельзя ли применить последний писк ИИ моды  ChatGPT для обработки мемуаров? Ведь каков алгоритм подготовки статей? Например, в ходе чтения мемуаров военнопленных возникает гипотеза о различиях в отношении к советским военнопленным солдат германской и союзных ей армий и штатских в зоне контактов   в зависимости от национальности последних (гипотезу об отношении к пленным в зависимости от их национальностей мы уже рассмотрели см. здесь https://timkinsl.livejournal.com/4951.html). Как можно проверить гипотезу? Например, выделить все события и отношения в которых зафиксированы как их характер (например, знак: положительный, отрицательный, нейтральный) с одной стороны, а с другой – национальность акторов. Далее можно посчитать частотность выделенного, ранжировать выделенное по силе отношений (экстремальные, умеренные и т.п.) и сделать определенные выводы по высказанной гипотезе. 

Может ли помочь ChatGPT в выделении фрагментов текстов по заданным параметрам? 

Было введено 4 фрагмента текста, который представлял собой набор предварительно отобранных частей мемуаров из списка мемуаров бывших военнопленных. Это части, где мемуаристы приводили примеры или описывали события, характеризующие отношения к советским пленным военных или гражданских лиц с однозначно установленной национальной принадлежностью: немцы (большая часть случаев), австрийцы, финны, прибалты, поляки, украинцы, казаки (сознаю, что это не национальность), швейцарцы, французы и прочие. Куски текста предлагались  ChatGPT последовательно и были разбиты на следующие объемы: 1100, 1000, 2500, 1850 слов.

Причина разбиения в том, что неизвестно какой объем текста можно задать для анализа.  При введении текста полностью (6500 слов) ответом было: не могу обработать, слишком длинный текст. В обсуждениях на Хабре утверждалось, что «Языковые модели (ЯМ) обладают ограниченным контекстом. Для ChatGPT это 4096 токенов (около 3000 слов). За этой границей все сказанное в ходе сессии "забывается" моделью». Это утверждение относится ко всей беседе-сессии. Оно оспаривалось в дискуссии, утверждалось, что объем связной и последовательной дискуссии может быть больше.  В то же время не очень понятно, каков может быть объем единичного запроса.

Сам ChatGPT на вопрос: «Какой максимальный запрос ты сможешь обработать?» ответил: «Как языковая модель, максимальный запрос, который я могу обработать, зависит от размера входных данных и доступных вычислительных ресурсов для их обработки. …. Точный размер входных данных, которые я могу обработать, определяется множеством факторов, таких как сложность запроса, объем доступной памяти и вычислительных ресурсов, а также ограничения, накладываемые API или платформой, на которой я работаю. Однако в целом можно с уверенностью сказать, что я могу обрабатывать запросы в несколько сотен слов и более, если они хорошо сформированы и не выходят за рамки того, на чем я обучался».

Несколько сотен слов это немного, мы начали с 1000 и затем увеличили объем. Забегая вперед, надо ответить, что по предварительным ощущениям при фрагменте около 1000 слов  ChatGPT обрабатывает весь текст, а для фрагментов в 1850 и 2500 вероятны пропуски последних фрагментов

Сам промт и вводимый текст был переведен на английский язык переводчиком DeepL. Полученные ответы на английском переводились на русский тем же переводчиком. Необходимость перевода диктовалась тем, что собственный опыт и рекомендации других пользователей говорят, что для русского языка ответы получаются менее качественные и полные.  Хотя в статье https://habr.com/ru/post/715492/ утверждается, что «запросы можно писать на русском (он хорошо понимает), а вот ответы просить давать на английском», даже в этой сессии, ввод на русском как минимум приводил к отказу ответа на более коротком тексте.

Промт-запрос приведен ниже:

Обращаюсь к вам за помощью в обработке текстов воспоминаний советских военнопленных.

Выберите из приведенного текста все случаи 1) доброго; 2)жестокого обращения с пленными:

1. Немцы

2. представители других народов

И приведите эти цитаты в своем ответе с указанием номера источника, из которого они взяты. Номер источника указывается перед его названием. Также не забудьте подчеркнуть и выделить, какой национальности был солдат или другой человек в выделенной ситуации.

Вот первый текст, который нужно обработать

Промт повторялся при вводе каждой из четырех частей текста. Этот порядок также рекомендуется при работе с ChatGPT чтобы ограничить его «стремление к фантазированию и собственному творчеству».

Текст и комментарии к нему можно посмотреть в моем живом журнале по адресу:

https://timkinsl.livejournal.com/6071.html#t5815

Что еще можно добавить  про работу ChatGPT с подобной задачей:

1.       ChatGPT склонен давать собственные оценки и умозаключения, особенно, если ты просишь продолжить ответ. В этом случае он может даже выдать цитату, которой нет в исходном тексте. В частности, вторая цитата не очень коррелирует с  текстом Ю. Владимиров.  Причем трудно сказать, сформулировал ли ChatGPT ее сам или обратился к первоисточнику в недрах своего «архива» (если он есть)

2.       Тексты и цитаты  сокращаются, но без изменения смысла. То есть автореферирование осуществляется достаточно корректно

3.       Не всегда придерживается одной и той же формы представления результатов от ответа к ответу. Форму в промте надо задавать максимально подробно и точно

4.       Порой выходит за рамки задачи запроса. Несмотря на то, что запрос был на выделение фрагментов жестокого обращения с пленными,  ChatGPT делает несколько обобщений  на доброе или неоднозначное отношение к пленным австрийцев, румын (это 1944 год и пленный –летчик) и поляков (см. последние фрагменты).

Общие выводы:

1.       ChatGPT понимает тексты, понимает промты, его можно привлекать к обработке текстов, выделению из текста событий, отношений, маркированию событий временем, местом, источником. При этом пользователь может обходиться естественным языком для формулировки запросов и не быть специалистом и носителем «языка компьютерных лингвистов»  

2.       В то же время та форма чата, которая доступна сейчас мало приспособлена к подобным задачам: текст нужно «скармливать» слишком малыми частями – это главное, имеет место языковое неравенство русский-английский, чат даже при наличии текста имеет тенденцию к «самодеятельности».

3.       Очевидно, что принципиально эти недостатки не являются неустранимыми и может быть создан удобный инструмент для подобных исследований

И в заключение хотел бы обратиться к заинтересованным в подобных исследованиях коллегам: подскажите, может есть другие пути обработки большого количества и больших объемов письменных текстов уже имеющимися инструментами   

Такой инструмент может быть востребован:

                    в сфере науки:  для проведения мета-анализа статей, литературного обзора и т.п.

                    в гуманитарике: при обработке источников разного рода

                    в литературе: подготовка к написанию эпических полотен типа «Красного колеса» Солженицына 

 


1 комментарий:

  1. Возможности Bing с встроенной ChatGPT поражают воображение. Модель прямо в браузере может обработать 15-страничные файлы и ответить на вопросы по тексту документа. - надо устанавливать

    ОтветитьУдалить