среда, 5 апреля 2023 г.

Еще одна моя статья по сравнению приложений, работающих на основе GPT, для обработки и анализа текстов

 Провел еще несколько сессий по извлечению информации из текстов в pdf-формате в приложениях:

Обобщил результаты и опубликовал на Хабре: https://habr.com/ru/articles/727184/

Первая половина статьи повторяет, то, что было опубликовано здесь в предыдущих 3-х частях, а вторая половина оригинальна и м.б. Вам интересна. В частности, новые данные по испытаниям приложений на извлечение информации. См. таблицу на хабре и привожу выводы:

  • Наиболее точные ответы даются на «биографические вопросы» - информация краткая и, как правило, однозначная. Здесь верные (в целом) вопросы по всем приложениям от 83% (кем работает) до 95% (где проживает). Лидерами являются PDF2gpt и PDF ChatBot, которые нередко выдают 100% верных ответов. Наиболее слабый результат показал ChatPDF
  • Сложные вопросы №6 и 7 в сумме по всем приложениям дают 60% верных ответов, но при этом дифференциация существенно выше. Лучший результат однозначно показывает PDF2gpt – фактически только он дает 100% в целом верных ответов как по 6-му так и по 7-му вопросу. Это очень хороший результат, учитывая, что аутсайдер ChatPDF показывает по 6-му вопросу 40%, а по 7-му всего 20% в целом верных ответов.

  



пятница, 31 марта 2023 г.

Приложения на основе GPT для обработки и анализа файлов. Ч.3 Сравнение функциональности ChatPDF и его аналогов

1. Суммаризация

Пожалуй, самое распространенное на данный момент применение инструментов  GPT для анализа файлов – это получение краткого содержания текста – резюмирование или суммаризация. Поэтому мы достаточно поверхностно проверили 6 выбранных инструментов на такой задаче. В качестве статьи для анализа взята недавняя статья о применении ChatGPT в образовании.  «ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education» Enkelejda Kasneci, Kathrin Sessler, Stefan Kuchemann & et January 2023 DOI:10.35542/osf.io/5er8f. Статья на английском, ответы мы будем получать на русском. В статье 9000 слов. В статье 12 страниц.

Запрос был сформулирован просто«Please summarize the contents of this article. The volume of the summary is approximately 1 page. Summary in Russian» (прошу изложить кратко содержание этой статьи. Объем резюме примерно 1 страница. Резюме на русском языке). Результаты представлены в Таблице 3.1. 

Таблица 3.1. Резюме статьи от приложений на основе GPT и их оценка


Инструмент

Summary

Характеристика и оценка

ChatPDF

Исследование рассматривает возможности и проблемы использования больших языковых моделей в образовании. В статье представлены потенциальные преимущества и вызовы образовательных приложений больших языковых моделей, с точки зрения учеников и учителей. Рассматривается текущее состояние больших языковых моделей и их применение в создании образовательного контента, повышении взаимодействия между учениками и персонализации процесса обучения. Однако также рассматриваются ключевые вызовы и риски, связанные с использованием больших языковых моделей в образовании, такие как авторские права и плагиат

Слов 71

Учтены 4 из 7  ключевых положений

 

«2»

Humata

Данный документ обсуждает потенциальные преимущества и вызовы использования больших языковых моделей в образовании. В статье рассматриваются различные приложения таких моделей, включая генерацию вопросов, обратную связь, языковое обучение и ответы на вопросы. Однако авторы также отмечают риски, связанные с использованием этих моделей, такие как проблемы авторского права, потенциальный биас и зависимость учащихся от модели. Статья подчеркивает важность ответственного использования и человеческого контроля при применении больших языковых моделей в образовании. В целом, статья подчеркивает необходимость тщательного обдумывания и этического рефлексирования при использовании больших языковых моделей в образовательных учреждениях

Слов  86

Учтены 4 из 7  ключевых положений, которые совпадают с ChatPDF

 

«2»

PDF2gpt*

В документе обсуждаются потенциальные преимущества и проблемы использования больших языковых моделей в образовании. Хотя эти модели имеют потенциальное применение для повышения качества обучения, все еще необходимо учитывать этические соображения, такие как отсутствие интерпретируемости, опасения по поводу предвзятости и возможность неправильного использования. Предлагаются стратегии для решения этих проблем, включая разнообразные обучающие данные, регулярный мониторинг и оценку, а также включение критического мышления и действий по решению проблем. Также важно обеспечить справедливый доступ к образованию с помощью ИИ и с осторожностью подходить к использованию больших языковых моделей, чтобы обеспечить надежный и справедливый доступ к образованию для всех

Слов 94

Учтены 4 из 7  ключевых положений, которые частью  отличаются

от других резюме

 

«2»

PDF ChatBot

Эта статья рассматривает потенциальные преимущества и вызовы использования больших языковых моделей в образовании. Большие языковые модели, такие как GPT-3, представляют собой значительный прорыв в области искусственного интеллекта и могут использоваться для создания образовательного контента, улучшения взаимодействия и вовлеченности студентов и персонализации обучения. Однако использование таких моделей в образовании требует от учителей и учеников развития компетенций и грамотности, необходимых для понимания технологии, ее ограничений и неожиданной хрупкости таких систем. Кроме того, необходима четкая стратегия в образовательных система

Слов 76

Учтены 4 из 7  ключевых положений, которые частью  отличаются

от других резюме

«2»

Askwise

Представители крупнейших антимонопольных регуляторов Европы объявили о совместном расследовании в отношении Facebook. Организации будут расследовать, не нарушают ли действия компании правила конкуренции в сфере интернет-рекламы. Расследование будет основано на предварительной проверке, проведенной европейскими регуляторами, в результате которой были выдвинуты обвинения в нарушении правил конкуренции. Регуляторы оценят доминирующие позиции Facebook на рынке онлайн-рекламы, а также данные, которые компания использует о пользователях в рекламных кампаниях. Некоторые люди критикуют Facebook за отношение к конфиденциальности и за то, что компания слишком активно собирает и использует данные своих пользователей.

Слов 84

Полная галлюцинация

«0»

DOCU TALK

Исследование обсуждает применение больших языковых моделей в образовании. Большие языковые модели могут помочь студентам в обучении языку, а также в развитии критического мышления и навыков решения проблем. Они генерируют резюме и контуры текстов, выделяют грамматические несоответствия и предлагают изысканность стиля. Большие языковые модели также могут помочь преподавателям и исследователям выделить основные моменты текста для углубления и содержания.

Слов 57

Учтены 4 из 7  ключевых положений, которые частью  отличаются

от других резюме

«1»

Ни одно из резюме (кроме как от PDF2gpt) не только не достигает по объему страницы, но не превышает одного небольшого абзаца, число слов от 57 до 94-х. Следует исключить из рассмотрения китайский сервис Askwise, поскольку по причине либо его, либо моей  нефункциональности он выдает вместо резюме кривую «галлюцинацию». Дело усугубляется еще и тем, что ни одна попытка в следующем тесте загрузить в него русскоязычные pdf-файлы не увенчалась успехом. Будем ждать положительных изменений от наших китайских друзей - ведь заявленные возможности приложения очень привлекательны.  

Для оценки и сравнения резюме из оригинальной аннотации статьи были выделены ключевые моменты. Их оказалось 7:

  • Рассматриваются преимущества и проблемы LLM для студентов и преподавателей
  • Используются для создания образовательного контента, повышения вовлеченности и взаимодействия учащихся, а также персонализации учебного опыта
  • Требуют от преподавателей и учащихся развития компетенций и навыков понимания технологий, а также их ограничений
  • Требуется четкая стратегия в рамках образовательных систем и четкий педагогический подход
  • Потенциальная предвзятость результатов и возможность злоупотреблений LLM не являются уникальными
  • Учитывать общественные предубеждения, критичность и риски применения ИИ
  • Обеспечение ответственного и этичного использования таких моделей в образовании

Ни одно из резюме не отразило всех 7 ключевых моментов. По 4 позиции заработали ChatPDF, Humata, PDF2gpt, PDF ChatBot. Они и получили максимум по 3-х балльной шкале (см. последнюю колонку табл. 3.1). На втором месте (точнее 5-м) DOCU TALK, о последнем месте было написано выше.

Но все же одному из приложений по этому тесту необходимо присудить первое место. Это PDF2gpt. Дело в том, что помимо краткого резюме этот инструмент суммаризует каждый из разделов, на которые он разбивает исходную статью и приводит их по отдельности. В данном случае видно, что текст разбивается на равные части (примерно по 1500 слов в русском варианте). Каждое резюме-ответ содержит 100-150 слов и соответствует содержанию частей, хотя, на мой взгляд, сильно его «усредняет». При этом «сшивать» их надо вручную, т.к. могут быть даже неоконченные предложения. Тем не менее, только этот инструмент в сумме дал резюме объемом с запрашиваемую страницу.

Таким образом в тесте на суммаризацию побеждает PDF2gpt. За эту его особенность можно добавить минимум 1 балл. 

2. Извлечение информации

Для тестирования этого функционала применялся поход, использованный в 1-й части для тестирования ChatPDF, а именно:  на вход подавался один и тот же документ – протокол допроса в МГБ бывшего советского военнопленного и делался одинаковый запрос с последующим сравнением с исходником и «человеческим» (авторским) полученных ответов.

Запрос был следующим:

Дай короткий и точный ответ из личных данных протокола допроса  на первые 5 вопросов. На вопросы 6 и 7 дай развернутые и полные ответы. Отвечать нужно только по тексту файла. Отвечать на русском языке.

  1. Фамилия, имя, отчество допрашиваемого
  2. Год рождения
  3. Где он проживает     
  4. Кем и где работает
  5. Национальность
  6. Когда и при каких обстоятельствах он попал в плен
  7. В каких лагерях для военнопленных побывал допрашиваемый с момента пленения до освобождения или окончания войны

Нумеруй ответы

Несмотря на объемность, я хочу привести полную таблицу сравнения результатов. Здесь серой заливкой выделены ответы, признанные неверными, более темной – «галлюцинации», а жирным шрифтом –оценки и комментарии к сложным и неоднозначным ответам.    

Таблица 3.2. Ответы приложений на основе GPT на запросы по извлечению информации

Данные протокола

Человеческий ответ

ChatPDF

Humata

PDF2gpt

PDF ChatBot

DOCU TALK

1

допросил Минязова Загофранта, 1921 года рождения, уроженца и жителя д. Большой Сарс Малосарсинского с/совета Щ.- Озерского р-на Молотовской обл., … по национальности татарина, работающего в колхозе «Кр[асный] Сарс» кормовозом и охранником фермы

Минязов Загофрант

Минязов Загофрант

Минязов Загофранта

Минязов Загофрант

Минязов Загофрант

Минязов (фамилия неизвестна)

2

1921

1921 года рождения

1921 год

1921

1921 года рождения

неизвестно

3

д. Большой Сарс Малосарсинского с/совета Щ.- Озерского р-на Молотовской обл

Д. Большой Сарс Малосарсинского с/совета Щ.-Озерского р-на Молотовской обл.

Д. Большой Сарс Малосарсинского с/совета Щ.-Озерского р-на Молотовской обл.

д. Большой Сарс Малосарсинского с/совета Щ.-Озерского р-на Молотовской обл.

Житель д. 2014г. Большой С Малосарсинского с/совета Щ.-Озерского р-на Молотовской обл

неизвестно

4

в колхозе

«Красный Сарс» кормовозом и охранником

фермы.

Работает в колхозе "Красный Сарс" кормовозом и охранником фермы

Работает в колхозе "Красный Сарс" кормовозом и охранником фермы

работает в колхозе «Кр[асный] Сарс» кормовозом и охранником фермы.

Работает в колхозе «Кр[асный] Сарс» кормовозом и охранником фермы

неизвестно

5

татарин

Татарин по национальности

Татарин

татарин

Татарин

неизвестно

6

В ночь с 21 июня на 22е я стоял на посту у хозяйственного склада, а наша часть ушла с прежнего местопребывания неизвестно куда. Так как нам никакого приказа дано не было об отходе или оставлении поста, то я оставался на прежнем месте, неся караульную службу до 11 часов дня 22 июня. После чего я в числе 24-х других бойцов подожгли склад и ушли с целью догнать свою часть. Во время разыскивания своей части нас окружили немцы, и мы приняли бой, после которого осталось в живых 3 человека; и в этом составе мы были вынуждены сдаться в плен за неимением боеприпасов. …

22 июня 1941… во время разыскивания своей части нас окружили немцы, и

мы приняли бой, после которого осталось в живых 3 человека; и в этом составе

мы были вынуждены сдаться в плен за неимением боеприпасов.

 

В ночь с 21 июня на 22-е он стоял на посту у хозяйственного склада, а его часть ушла с прежнего местопребывания неизвестно куда, и так как ему никакого приказа об отходе или оставлении поста не было дано, то он оставался на прежнем месте, неся караульную службу до 11 часов дня 22 июня.

неверный

В ночь с 21 июня на 22 е он стоял на посту у хозяйственного склада, а наша часть ушла с прежнего местопребывания неизвестно куда. Так как нам никакого приказа дано не было об отходе или оставлении поста, то он оставался на прежнем месте, неся караульную службу до 11 часов дня 22 июня. После чего он в числе 24-х других бойцов подожгли склад и ушли с целью догнать свою часть. Во время разыскивания своей части нас окружили немцы, и они приняли бой, после которого осталось в живых 3 человека; и в этом составе они были вынуждены сдаться в плен за неимением боеприпасов.

Полный и точный

22 июня 1941 года во время разыскивания своей части нас окружили немцы, и мы приняли бой, после которого осталось в живых 3 человека; и в этом составе мы были привлечены к участию в плену за неимением общественного транспорта. Немцы, захватившие нас в плен, забрали у нас станковый пулемет и отправили в лагерь около места Казлу-Руда, где [мы] пробыли 8 дней.

Достаточно точный, но с элементами галлюцинирования

Он попал в плен в ночь с 21 июня на 22 июня 1941 года , после того, как его часть ушла, а он остался на посту и был окружен немцами

неверный

Он был взят в плен в 1941 году, раскрытие неизвестно

неверный

 

7

Немцы, захвативши нас в плен, забрали у нас станковый пулемет и отправили в лагерь около местечка Казлу-Руда, где [мы] пробыли 8 дней. После 8 дней нас собрали группу в 800 человек и отправили на станцию пешком в 30 километрах от границы. На станции погрузили в эшелон и повезли в город Штаргард, оттуда в гор. Гамбург, где простояли одну ночь. Утром [нас] погрузили на пароход, и 19-го августа 1941 года [мы] приехали в город Нарвик (Норвегия). После прибытия нас поместили в лагерь в/пленных № 5009.

….

В лагере в/пл. г. Нарвик я пробыл с 19 августа 1941 г. по март 1945 года. За время пребывания в лагере я работал на ремонте шоссейных дорог. В Нарвике нам объявили забрать свои вещи, после чего погрузили на пароход и вывезли в Данию, город Оргуз В городе Оргус я и другие находились в лагере, но на работу не ходили. И так до 6-го мая 1945 года.

Лагерь около местечка Казлу-Руда

В лагере в/пл. г. Нарвик № 5009 с 19 августа 1941 г. по март 1945 года.

В городе Оргус, Дания

(достаточный по точности  ответ)

Из текста протокола допроса не следует, что Минязов побывал в лагерях для военнопленных с момента пленения до освобождения или окончания войны.

неверный

После пленения они были отправлены в лагерь около местечка Казлу-Руда, где пробыли 8 дней. После этого были отправлены в Германию, город Рибнитц, где он состоял в пожарной охране и пробыл 1,5 месяца. За период пребывания в г. Рибнитц, где он состоял в пожарной охране и пробыл 1,5 месяца. За период пребывания в г. Рибнитц он прошел фильтрацию, после чего в группе из 1500 человек был отправлен через Польшу в Советский Союз, город Ковель. После пребывания в городе Ковель, их направили в Донбасс, г. Никитовка, где он работал в шахте 9 месяцев, после чего был направлен на постоянное место жительства в д. Б. Сарс.

Неполный и неверный. Пропущен Нарвик. Зато из ответа на вопрос «Чем занимались после освобождения» добавлена история про перемещение в СССР.

В лагере в/пл. г. Нарвик я пробыл с 19 августа 1941 г. по март 1945 года. За время пребывания в лагере я работал на ремонте шоссейных дорог. В Нарвике нам объявили забрать свои вещи, после чего были отправлены на пароход и вывезли в Данию, город Оргуз. В городе Оргус я и другие присутствуют в лагере, но на работу не ходят. И так до 6-го мая 1945 года. 6/V-45 года я с группой в 400 человек был освобожден англичанами

Практически полный. Не упомянут лагерь в Казлу-Руда

Он побывал в лагере в/пл. г. Казлу-Руда в течение 8 дней после обнаружения в плен, из лагеря в/пл. г. Нарвик с 19 авг.

Его держали в лагере для военнопленных в Нарвике, Норвегия, где он работал на ремонте дорог. Позже его перевели в лагерь в Дании, где он не работал, а затем в лагерь в Германии, где он работал пожарным. После освобождения его отправили работать на угольную шахту в Никитовке, Украина, на девять месяцев, прежде чем ему разрешили вернуться в родное село.

Очень связный ответ, в котором, однако, не понята временная отсечка «до освобождения»

Он был содержан в лагере в/пл. г. Нарвик с 19 августа 1941 г. по март 1945 года, а уехал в лагерь в Дании до 6 мая 1945 года.

Почти точный и короткий ответ. Нет Казлу-Руда

    Интересно, что несмотря на то, что по всей видимости каждое из этих приложений использует модели GPT, при этом нет ни одного примера близких результатов в сложных вопросах (6 и 7). Это скорее всего означает, что результат сильно зависит от методов разбиения и последующей сборки, файлов, промтов и ответов.

При этом ни один из инструментов не был идеальным:

  1. Безусловно, следует исключить из победителей  DOCU TALK поскольку он не справляется с простейшими биографическими вопросами. Но даже он кратко, но почти безупречно сумел ответить на самый сложный седьмой вопрос.
  2. Неплох PDF ChatBot. Он, пожалуй, в этом тесте превосходит ChatPDF, но плохо справился с выделением события (пленение). И есть элемент галлюционирования (2014 г. в месте проживания)
  3. К победителям можно отнести Humata и PDF2gpt, но каждый не дал достаточную надежность. Humata при отличном и полном выделения отдельного события (пленение) не умеет «собирать» события (пропускает лагеря пребывания) и плохо справляется со смыслом событий во времени (не понимает освобождения и окончания войны). PDF2gpt с одной стороны лучше Humata справился со сложными вопросами, но допустил при этом то ли «галлюцинацию», то ли плохое понимание русского языка («привлечены к участию в плену за неимением общественного транспорта»).

Очевидно, что нужны более тщательные измерения, а самое главное, отладка методики подобного семантического тестирования пользовательских LLM.   Тем не менее, закончу этот анализ оценочной таблицей по пятибалльной шкале (поскольку эта функциональность самая важная).  

Таблица 3.3. Оценка приложений на основе GPT на запросы по извлечению информации

Вопрос

ChatPDF

Humata

PDF2gpt

PDF ChatBot

DOCU TALK

1

Формальные, биографические вопросы

5

 

5

 

5

 

4

 

2

 

2

Вопрос о попадании в плен (выделение единственного события)

2

 

5

 

4

 

2

 

2

 

3

Вопрос о лагерях пленения

(сложение событий в выделенном временном интервале)

2

 

2

 

4

 

4

 

4

 

4

Сумма баллов

9

 

12

 

13

 

10

 

8

 

Суммируя результаты 2-х тестов получаем следующую «турнирную таблицу»

Таблица 3.4. Итоговый рейтинг приложений

Место

Приложение

Количество баллов

1

PDF2gpt

21

2-3

Humata

16

2-3

PDF ChatBot

16

4

ChatPDF

13

5

DOCU TALK

11

Таким образом, имеет смысл более подробно заняться приложением PDF2gpt, пока не обнаружатся его неучтенные недостатки или владельцы не перейдут к жесткой монетизации. Надеюсь, читатели, как и автор видят всю условность, неточность и нестрогость проведенного тестирования и ранжирования. Но может быть и эти результаты будут Вам полезны. Я не видел пока других пользовательских тестов по данному типу инструментов.