суббота, 25 февраля 2023 г.

В предчувствии сильного ИИ

 Сэм Альтман (хочется написать Семен) из OpenAI опубликовал статью, в которой изложил стратегию компании по созданию AGI - сильного (общего) искусственного интеллекта. Статья написана так, что для автора AGI (системы ИИ, которые, как правило, умнее людей), если и не состоявшийся факт, то совершенно реальная цель ближайшего времени.


https://openai.com/blog/planning-for-agi-and-beyond/

В краткосрочной перспективе компания исходит из того, что
1. По мере того, как наши системы приближаются к AGI, мы становимся все более осторожными при создании и развертывании наших моделей. Хотя некоторые специалисты в области ИИ считают риски, с вымышленными; мы будем рады, если они окажутся верными, но мы будем действовать так, как будто эти риски экзистенциальны .
2. Мы работаем над созданием все более согласованных и управляемых моделей. Мы считаем важным, чтобы общество согласилось с чрезвычайно широкими рамками того, как можно использовать ИИ, но чтобы в этих границах отдельные пользователи имели большую свободу действий. Наша конечная надежда состоит в том, что институты мира договорятся о том, какими должны быть эти широкие границы
3. Мы надеемся на глобальный разговор по трем ключевым вопросам: как управлять этими системами, как справедливо распределять выгоды, которые они генерируют, и как справедливо распределять доступ.
Татьяна Шаврина из Сбера (Kali Novskaja, https://t.me/rybolos_channel/514) из этих достаточно размытых утверждений делает выводы:
— релизы новых разработок будут более закрытыми
— OpenAI будет ограничивать доступ и объем доступного компьюта разным клиентам.
В краткосрочной перспективе:
— будет постепенная выкатка технологий, с намеренным упрощением версий и "замедленным" прогрессом относительно реально достигнутого: это поможет раньше получать фидбек, тренировать системы в реальном мире, а также работать с более реактивными общественными институтами, в частности, разрабатывать новые правила.
— баланс между открытостью и потенциальным вредом может в любой момент поменяться, и это будет отражаться на всей линейке продуктов.

В долгосрочной перспективе:
— публичность разработок OpenAI будет сохраняться, чтобы у общества была возможность принятия решения.
— фокус придётся на акселерацию науки и переход к новой общественной формации.

вторник, 14 февраля 2023 г.

Хороший разговор


Очень хороший разговор о технологиях ИИ и в том числе ChatGPT. Про систему образования см. на 46:00 и 1:01:30. Но здесь оригинального мало для меня, правильнее слушать все. 

 https://youtu.be/IMP1zZ9K4Wc


Обычно не пощщу чужое, но здесь не удержался 

воскресенье, 12 февраля 2023 г.

Может ли искусственный интеллект (ChatGPT) помочь при анализе текстов?

 

Лет пять назад меня очень заинтересовали военные мемуары. Благо, есть замечательный ресурс: Милитера http://militera.lib.ru/, на котором собрано более 1000 (1012 на 01.01.2021) только мемуаров о Великой отечественной войне. Помимо исторического интереса, часто это просто захватывающее чтение. Кроме того, часть из них – хороший исторический источник, источник для собственных размышлений, обобщений и т.д. Здесь мы не всегда, но часто имеем дело  с непосредственным наблюдением – тем источником знания, который мне как первоначально физико-химику наиболее близок.

Где-то год назад во мне проснулся зуд писательства и я начал обобщать то что прочитал в этих мемуарах. Моя работа состояла из: сопоставления текстов, поиска общего и особенного (событий, отношений, дат и мест, персоналий и т.п.), формулировки гипотез и умозаключений и их проверки на основании частотности, времени, локаций и т.п., выделении наиболее характерных участков текста для иллюстрирования  обобщений и умозаключений. Что из этого получается можете посмотреть в статьях для живого журнала  https://timkinsl.livejournal.com/.

Другая моя часть достаточно живо интересуется прогрессом в сфере искусственного интеллекта и применения его технологий в образовании. А нельзя ли применить последний писк ИИ моды  ChatGPT для обработки мемуаров? Ведь каков алгоритм подготовки статей? Например, в ходе чтения мемуаров военнопленных возникает гипотеза о различиях в отношении к советским военнопленным солдат германской и союзных ей армий и штатских в зоне контактов   в зависимости от национальности последних (гипотезу об отношении к пленным в зависимости от их национальностей мы уже рассмотрели см. здесь https://timkinsl.livejournal.com/4951.html). Как можно проверить гипотезу? Например, выделить все события и отношения в которых зафиксированы как их характер (например, знак: положительный, отрицательный, нейтральный) с одной стороны, а с другой – национальность акторов. Далее можно посчитать частотность выделенного, ранжировать выделенное по силе отношений (экстремальные, умеренные и т.п.) и сделать определенные выводы по высказанной гипотезе. 

Может ли помочь ChatGPT в выделении фрагментов текстов по заданным параметрам? 

Было введено 4 фрагмента текста, который представлял собой набор предварительно отобранных частей мемуаров из списка мемуаров бывших военнопленных. Это части, где мемуаристы приводили примеры или описывали события, характеризующие отношения к советским пленным военных или гражданских лиц с однозначно установленной национальной принадлежностью: немцы (большая часть случаев), австрийцы, финны, прибалты, поляки, украинцы, казаки (сознаю, что это не национальность), швейцарцы, французы и прочие. Куски текста предлагались  ChatGPT последовательно и были разбиты на следующие объемы: 1100, 1000, 2500, 1850 слов.

Причина разбиения в том, что неизвестно какой объем текста можно задать для анализа.  При введении текста полностью (6500 слов) ответом было: не могу обработать, слишком длинный текст. В обсуждениях на Хабре утверждалось, что «Языковые модели (ЯМ) обладают ограниченным контекстом. Для ChatGPT это 4096 токенов (около 3000 слов). За этой границей все сказанное в ходе сессии "забывается" моделью». Это утверждение относится ко всей беседе-сессии. Оно оспаривалось в дискуссии, утверждалось, что объем связной и последовательной дискуссии может быть больше.  В то же время не очень понятно, каков может быть объем единичного запроса.

Сам ChatGPT на вопрос: «Какой максимальный запрос ты сможешь обработать?» ответил: «Как языковая модель, максимальный запрос, который я могу обработать, зависит от размера входных данных и доступных вычислительных ресурсов для их обработки. …. Точный размер входных данных, которые я могу обработать, определяется множеством факторов, таких как сложность запроса, объем доступной памяти и вычислительных ресурсов, а также ограничения, накладываемые API или платформой, на которой я работаю. Однако в целом можно с уверенностью сказать, что я могу обрабатывать запросы в несколько сотен слов и более, если они хорошо сформированы и не выходят за рамки того, на чем я обучался».

Несколько сотен слов это немного, мы начали с 1000 и затем увеличили объем. Забегая вперед, надо ответить, что по предварительным ощущениям при фрагменте около 1000 слов  ChatGPT обрабатывает весь текст, а для фрагментов в 1850 и 2500 вероятны пропуски последних фрагментов

Сам промт и вводимый текст был переведен на английский язык переводчиком DeepL. Полученные ответы на английском переводились на русский тем же переводчиком. Необходимость перевода диктовалась тем, что собственный опыт и рекомендации других пользователей говорят, что для русского языка ответы получаются менее качественные и полные.  Хотя в статье https://habr.com/ru/post/715492/ утверждается, что «запросы можно писать на русском (он хорошо понимает), а вот ответы просить давать на английском», даже в этой сессии, ввод на русском как минимум приводил к отказу ответа на более коротком тексте.

Промт-запрос приведен ниже:

Обращаюсь к вам за помощью в обработке текстов воспоминаний советских военнопленных.

Выберите из приведенного текста все случаи 1) доброго; 2)жестокого обращения с пленными:

1. Немцы

2. представители других народов

И приведите эти цитаты в своем ответе с указанием номера источника, из которого они взяты. Номер источника указывается перед его названием. Также не забудьте подчеркнуть и выделить, какой национальности был солдат или другой человек в выделенной ситуации.

Вот первый текст, который нужно обработать

Промт повторялся при вводе каждой из четырех частей текста. Этот порядок также рекомендуется при работе с ChatGPT чтобы ограничить его «стремление к фантазированию и собственному творчеству».

Текст и комментарии к нему можно посмотреть в моем живом журнале по адресу:

https://timkinsl.livejournal.com/6071.html#t5815

Что еще можно добавить  про работу ChatGPT с подобной задачей:

1.       ChatGPT склонен давать собственные оценки и умозаключения, особенно, если ты просишь продолжить ответ. В этом случае он может даже выдать цитату, которой нет в исходном тексте. В частности, вторая цитата не очень коррелирует с  текстом Ю. Владимиров.  Причем трудно сказать, сформулировал ли ChatGPT ее сам или обратился к первоисточнику в недрах своего «архива» (если он есть)

2.       Тексты и цитаты  сокращаются, но без изменения смысла. То есть автореферирование осуществляется достаточно корректно

3.       Не всегда придерживается одной и той же формы представления результатов от ответа к ответу. Форму в промте надо задавать максимально подробно и точно

4.       Порой выходит за рамки задачи запроса. Несмотря на то, что запрос был на выделение фрагментов жестокого обращения с пленными,  ChatGPT делает несколько обобщений  на доброе или неоднозначное отношение к пленным австрийцев, румын (это 1944 год и пленный –летчик) и поляков (см. последние фрагменты).

Общие выводы:

1.       ChatGPT понимает тексты, понимает промты, его можно привлекать к обработке текстов, выделению из текста событий, отношений, маркированию событий временем, местом, источником. При этом пользователь может обходиться естественным языком для формулировки запросов и не быть специалистом и носителем «языка компьютерных лингвистов»  

2.       В то же время та форма чата, которая доступна сейчас мало приспособлена к подобным задачам: текст нужно «скармливать» слишком малыми частями – это главное, имеет место языковое неравенство русский-английский, чат даже при наличии текста имеет тенденцию к «самодеятельности».

3.       Очевидно, что принципиально эти недостатки не являются неустранимыми и может быть создан удобный инструмент для подобных исследований

И в заключение хотел бы обратиться к заинтересованным в подобных исследованиях коллегам: подскажите, может есть другие пути обработки большого количества и больших объемов письменных текстов уже имеющимися инструментами   

Такой инструмент может быть востребован:

                    в сфере науки:  для проведения мета-анализа статей, литературного обзора и т.п.

                    в гуманитарике: при обработке источников разного рода

                    в литературе: подготовка к написанию эпических полотен типа «Красного колеса» Солженицына