timkin.blog: февраля 2023

Сэм Альтман (хочется написать Семен) из OpenAI опубликовал статью, в которой изложил стратегию компании по созданию AGI - сильного (общего) искусственного интеллекта. Статья написана так, что для автора AGI (системы ИИ, которые, как правило, умнее людей), если и не состоявшийся факт, то совершенно реальная цель ближайшего времени.

https://openai.com/blog/planning-for-agi-and-beyond/

В краткосрочной перспективе компания исходит из того, что
1. По мере того, как наши системы приближаются к AGI, мы становимся все более осторожными при создании и развертывании наших моделей. Хотя некоторые специалисты в области ИИ считают риски, с вымышленными; мы будем рады, если они окажутся верными, но мы будем действовать так, как будто эти риски экзистенциальны .
2. Мы работаем над созданием все более согласованных и управляемых моделей. Мы считаем важным, чтобы общество согласилось с чрезвычайно широкими рамками того, как можно использовать ИИ, но чтобы в этих границах отдельные пользователи имели большую свободу действий. Наша конечная надежда состоит в том, что институты мира договорятся о том, какими должны быть эти широкие границы
3. Мы надеемся на глобальный разговор по трем ключевым вопросам: как управлять этими системами, как справедливо распределять выгоды, которые они генерируют, и как справедливо распределять доступ.
Татьяна Шаврина из Сбера (Kali Novskaja, https://t.me/rybolos_channel/514) из этих достаточно размытых утверждений делает выводы:
— релизы новых разработок будут более закрытыми
— OpenAI будет ограничивать доступ и объем доступного компьюта разным клиентам.
В краткосрочной перспективе:
— будет постепенная выкатка технологий, с намеренным упрощением версий и "замедленным" прогрессом относительно реально достигнутого: это поможет раньше получать фидбек, тренировать системы в реальном мире, а также работать с более реактивными общественными институтами, в частности, разрабатывать новые правила.
— баланс между открытостью и потенциальным вредом может в любой момент поменяться, и это будет отражаться на всей линейке продуктов.

В долгосрочной перспективе:
— публичность разработок OpenAI будет сохраняться, чтобы у общества была возможность принятия решения.
— фокус придётся на акселерацию науки и переход к новой общественной формации.

Лет пять назад меня очень заинтересовали военные мемуары. Благо, есть замечательный ресурс: Милитера http://militera.lib.ru/, на котором собрано более 1000 (1012 на 01.01.2021) только мемуаров о Великой отечественной войне. Помимо исторического интереса, часто это просто захватывающее чтение. Кроме того, часть из них – хороший исторический источник, источник для собственных размышлений, обобщений и т.д. Здесь мы не всегда, но часто имеем дело с непосредственным наблюдением – тем источником знания, который мне как первоначально физико-химику наиболее близок.

Где-то год назад во мне проснулся зуд писательства и я начал обобщать то что прочитал в этих мемуарах. Моя работа состояла из: сопоставления текстов, поиска общего и особенного (событий, отношений, дат и мест, персоналий и т.п.), формулировки гипотез и умозаключений и их проверки на основании частотности, времени, локаций и т.п., выделении наиболее характерных участков текста для иллюстрирования обобщений и умозаключений. Что из этого получается можете посмотреть в статьях для живого журнала https://timkinsl.livejournal.com/.

Другая моя часть достаточно живо интересуется прогрессом в сфере искусственного интеллекта и применения его технологий в образовании. А нельзя ли применить последний писк ИИ моды ChatGPT для обработки мемуаров? Ведь каков алгоритм подготовки статей? Например, в ходе чтения мемуаров военнопленных возникает гипотеза о различиях в отношении к советским военнопленным солдат германской и союзных ей армий и штатских в зоне контактов в зависимости от национальности последних (гипотезу об отношении к пленным в зависимости от их национальностей мы уже рассмотрели см. здесь https://timkinsl.livejournal.com/4951.html). Как можно проверить гипотезу? Например, выделить все события и отношения в которых зафиксированы как их характер (например, знак: положительный, отрицательный, нейтральный) с одной стороны, а с другой – национальность акторов. Далее можно посчитать частотность выделенного, ранжировать выделенное по силе отношений (экстремальные, умеренные и т.п.) и сделать определенные выводы по высказанной гипотезе.

Может ли помочь ChatGPT в выделении фрагментов текстов по заданным параметрам?

Было введено 4 фрагмента текста, который представлял собой набор предварительно отобранных частей мемуаров из списка мемуаров бывших военнопленных. Это части, где мемуаристы приводили примеры или описывали события, характеризующие отношения к советским пленным военных или гражданских лиц с однозначно установленной национальной принадлежностью: немцы (большая часть случаев), австрийцы, финны, прибалты, поляки, украинцы, казаки (сознаю, что это не национальность), швейцарцы, французы и прочие. Куски текста предлагались ChatGPT последовательно и были разбиты на следующие объемы: 1100, 1000, 2500, 1850 слов.

Причина разбиения в том, что неизвестно какой объем текста можно задать для анализа. При введении текста полностью (6500 слов) ответом было: не могу обработать, слишком длинный текст. В обсуждениях на Хабре утверждалось, что «Языковые модели (ЯМ) обладают ограниченным контекстом. Для ChatGPT это 4096 токенов (около 3000 слов). За этой границей все сказанное в ходе сессии "забывается" моделью». Это утверждение относится ко всей беседе-сессии. Оно оспаривалось в дискуссии, утверждалось, что объем связной и последовательной дискуссии может быть больше. В то же время не очень понятно, каков может быть объем единичного запроса.

Сам ChatGPT на вопрос: «Какой максимальный запрос ты сможешь обработать?» ответил: «Как языковая модель, максимальный запрос, который я могу обработать, зависит от размера входных данных и доступных вычислительных ресурсов для их обработки. …. Точный размер входных данных, которые я могу обработать, определяется множеством факторов, таких как сложность запроса, объем доступной памяти и вычислительных ресурсов, а также ограничения, накладываемые API или платформой, на которой я работаю. Однако в целом можно с уверенностью сказать, что я могу обрабатывать запросы в несколько сотен слов и более, если они хорошо сформированы и не выходят за рамки того, на чем я обучался».

Несколько сотен слов это немного, мы начали с 1000 и затем увеличили объем. Забегая вперед, надо ответить, что по предварительным ощущениям при фрагменте около 1000 слов ChatGPT обрабатывает весь текст, а для фрагментов в 1850 и 2500 вероятны пропуски последних фрагментов

Сам промт и вводимый текст был переведен на английский язык переводчиком DeepL. Полученные ответы на английском переводились на русский тем же переводчиком. Необходимость перевода диктовалась тем, что собственный опыт и рекомендации других пользователей говорят, что для русского языка ответы получаются менее качественные и полные. Хотя в статье https://habr.com/ru/post/715492/ утверждается, что «запросы можно писать на русском (он хорошо понимает), а вот ответы просить давать на английском», даже в этой сессии, ввод на русском как минимум приводил к отказу ответа на более коротком тексте.

Промт-запрос приведен ниже:

Обращаюсь к вам за помощью в обработке текстов воспоминаний советских военнопленных.

Выберите из приведенного текста все случаи 1) доброго; 2)жестокого обращения с пленными:

1. Немцы

2. представители других народов

И приведите эти цитаты в своем ответе с указанием номера источника, из которого они взяты. Номер источника указывается перед его названием. Также не забудьте подчеркнуть и выделить, какой национальности был солдат или другой человек в выделенной ситуации.

Вот первый текст, который нужно обработать

Промт повторялся при вводе каждой из четырех частей текста. Этот порядок также рекомендуется при работе с ChatGPT чтобы ограничить его «стремление к фантазированию и собственному творчеству».

Текст и комментарии к нему можно посмотреть в моем живом журнале по адресу:

https://timkinsl.livejournal.com/6071.html#t5815

Что еще можно добавить про работу ChatGPT с подобной задачей:

1. ChatGPT склонен давать собственные оценки и умозаключения, особенно, если ты просишь продолжить ответ. В этом случае он может даже выдать цитату, которой нет в исходном тексте. В частности, вторая цитата не очень коррелирует с текстом Ю. Владимиров. Причем трудно сказать, сформулировал ли ChatGPT ее сам или обратился к первоисточнику в недрах своего «архива» (если он есть)

2. Тексты и цитаты сокращаются, но без изменения смысла. То есть автореферирование осуществляется достаточно корректно

3. Не всегда придерживается одной и той же формы представления результатов от ответа к ответу. Форму в промте надо задавать максимально подробно и точно

4. Порой выходит за рамки задачи запроса. Несмотря на то, что запрос был на выделение фрагментов жестокого обращения с пленными, ChatGPT делает несколько обобщений на доброе или неоднозначное отношение к пленным австрийцев, румын (это 1944 год и пленный –летчик) и поляков (см. последние фрагменты).

Общие выводы:

1. ChatGPT понимает тексты, понимает промты, его можно привлекать к обработке текстов, выделению из текста событий, отношений, маркированию событий временем, местом, источником. При этом пользователь может обходиться естественным языком для формулировки запросов и не быть специалистом и носителем «языка компьютерных лингвистов»

2. В то же время та форма чата, которая доступна сейчас мало приспособлена к подобным задачам: текст нужно «скармливать» слишком малыми частями – это главное, имеет место языковое неравенство русский-английский, чат даже при наличии текста имеет тенденцию к «самодеятельности».

3. Очевидно, что принципиально эти недостатки не являются неустранимыми и может быть создан удобный инструмент для подобных исследований

И в заключение хотел бы обратиться к заинтересованным в подобных исследованиях коллегам: подскажите, может есть другие пути обработки большого количества и больших объемов письменных текстов уже имеющимися инструментами

Такой инструмент может быть востребован:

• в сфере науки: для проведения мета-анализа статей, литературного обзора и т.п.

• в гуманитарике: при обработке источников разного рода

• в литературе: подготовка к написанию эпических полотен типа «Красного колеса» Солженицына

timkin.blog

суббота, 25 февраля 2023 г.

В предчувствии сильного ИИ

вторник, 14 февраля 2023 г.

Хороший разговор

воскресенье, 12 февраля 2023 г.

Может ли искусственный интеллект (ChatGPT) помочь при анализе текстов?

суббота, 25 февраля 2023 г.