"На краю пропасти": экзистенциальные риски цивилизации

18 апреля 2023
ИЗДАНИЕ

Нынешний век – переломный в судьбе человечества: впервые за всю историю своего вида люди получили возможность отменить собственное будущее. Главные риски, грозящие уничтожением долгосрочного потенциала цивилизации, анализирует философ Тоби Орд в книге "На краю пропасти".

Однажды вечером в 1933 г. ведущий мировой эксперт по атомной науке Эрнест Резерфорд назвал мысль о приручении атомной энергии "вздором". На следующее утро физику Лео Силарду пришла в голову идея цепной ядерной реакции.

Не стоит забывать, как быстро могут появляться новые технологии, и не стоит слишком доверять заявлениям о том, что некоторые технологии невозможны или настолько далеки, что у нас нет поводов для беспокойства, замечает Тоби Орд, старший научный сотрудник философского факультета Оксфордского университета, советник (в разные годы) Всемирного банка и Всемирного экономического форума, сооснователь движения эффективного альтруизма и автор книги "На краю пропасти", перевод которой только что вышел в издательстве Corpus. Предметом анализа в ней стали экзистенциальные риски – то есть такие, которые грозят уничтожением долгосрочного потенциала человечества: риски ядерной войны, изменения климата, непоправимого экологического ущерба, пандемий искусственного происхождения, неконтролируемого искусственного интеллекта (ИИ).

Говоря об "экзистенциальной катастрофе" – непосредственном разрушении потенциала цивилизации, – Орд утверждает, что вымирание вовсе не единственный ее сценарий. Другими вариантами могут стать "мир в руинах" или "мир в оковах": тупиковые ветви человечества, загнавшего себя в ловушку в результате экологической катастрофы или реализовавшейся в масштабах всей планеты тоталитарной антиутопии.

"Эконс" публикует фрагмент из книги Тоби Орда, посвященный неконтролируемому ИИ – экзистенциальному риску, реализации которого Орд присвоил вероятность 1 к 10, наиболее высокую в ближайшее столетие.

Неконтролируемый искусственный интеллект

<…> Что случилось бы, если бы в текущем столетии исследователи создали общий искусственный интеллект [ОИИ], превосходящий человеческие способности почти во всех сферах? Этим актом творения мы положили бы конец эпохе, когда человек был самой разумной сущностью на Земле. Следовательно, если у нас не имеется надежного плана по контролю за ИИ, нам следует ожидать, что мы лишимся своего статуса самого могущественного вида, который сам вершит свою судьбу.

Само по себе это, возможно, не дает особых причин для беспокойства. Существует немало способов при хорошем раскладе удержать контроль в своих руках. Так, мы можем попытаться разработать системы, которые неукоснительно подчиняются командам человека. Или системы, которые вольны делать что угодно, но имеют задачи, полностью совпадающие с нашими, а следовательно, строят идеальное будущее не только для себя, но и для нас. К несчастью, немногочисленные исследователи, разрабатывающие подобные планы, обнаружили, что сделать это гораздо сложнее, чем казалось. Именно они и высказывают опасения громче всех.

Чтобы понять причину их беспокойства, стоит тщательнее изучить существующие технологии ИИ и разобраться, почему их сложно настраивать и контролировать. Один из основных подходов к созданию ОИИ подразумевает комбинацию глубокого обучения и обучения с подкреплением, которое появилось раньше. Этот метод предполагает наличие агентов, которые получают вознаграждение (или штраф) за выполнение разных действий в различных обстоятельствах. Например, агент, играющий в Atari, получает вознаграждение, когда набирает очки в игре, а агент, собирающий конструктор лего, может получать вознаграждение, когда детали соединяются друг с другом. Достаточно разумный и опытный агент искусно изменяет свою среду таким образом, чтобы создавать условия для получения высокого вознаграждения.

Комбинация действий и состояний, которые приносят агенту вознаграждение, называется функцией вознаграждения. Ее могут либо задавать разработчики (как в упомянутых выше случаях), либо выводить сам агент. В последнем случае агент, как правило, наблюдает за тем, как задачу выполняет специалист, и логически выводит систему вознаграждений, которая лучше всего объясняет, почему специалист действует именно так, а не иначе. Например, ИИ-агент может научиться управлять дроном, если понаблюдает за тем, как им управляет специалист, а затем выведет функцию вознаграждения, которая наказывает его, если он летает слишком близко к препятствиям, и вознаграждает, если он добирается до пункта назначения.

К сожалению, ни один из этих методов нельзя без труда масштабировать таким образом, чтобы закодировать человеческие ценности в функцию вознаграждения агента. Наши ценности слишком сложны и неочевидны, чтобы описать их вручную. И мы пока даже близко не подошли к тому, чтобы вывести систему ценностей человека во всей ее сложности из наблюдений за его поведением. Даже если бы такое было нам под силу, людей в человеческой общности слишком много и их ценности различаются, меняются со временем, а также не всегда понятны даже им самим. Каждое из этих осложнений ставит глубокие и нерешенные вопросы о том, как обобщать наблюдаемое в единую картину человеческих ценностей.

Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе "О дивный новый мир", или несамостоятельности и бессилию общества из "Со сложенными руками". Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры.

И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.

Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.

У них появятся и другие инструментальные цели. Интеллектуальный агент будет также сопротивляться попыткам изменить его функцию вознаграждения, откалибровав ее в соответствии с человеческими ценностями, поскольку сможет спрогнозировать, что в результате это приведет к уменьшению ожидаемого вознаграждения. Агент будет стремиться к получению дополнительных ресурсов – вычислительных, физических, человеческих, – которые позволят ему эффективнее менять среду, чтобы получать более крупное вознаграждение. В конце концов у него появится и стимул забрать у человечества контроль над будущим, поскольку это поможет ему в достижении всех перечисленных инструментальных целей: он получит доступ к огромным ресурсам, не допустив ни отключения, ни изменения своей функции вознаграждения. Поскольку люди предсказуемо захотят скорректировать инструментальные цели агента, это будет мотивировать его к тому, чтобы скрывать эти цели, пока не станет слишком поздно оказывать ему значимое сопротивление.

Скептики порой отмечают, что описанное выше возможно лишь в том случае, если будет создана ИИ-система, которая окажется достаточно умна, чтобы захватить контроль над миром, но слишком глупа, чтобы понять, что мы этого не хотим. Но это неверная трактовка сценария. На самом деле при таком раскладе система прекрасно понимает, что ее цели не совпадают с нашими, и именно это подталкивает ее к обману, конфликту и захвату власти. Истинная проблема в том, что исследователи ИИ пока не знают, как создать систему, которая, заметив это несоответствие, обновляет свою систему ценностей, приближая ее к нашей, а не корректирует свои инструментальные цели, чтобы одержать над нами верх.

Возможно, найдется способ решить перечисленные проблемы, или найти новые подходы к контролю над ИИ, чтобы снять сразу много вопросов, или переключиться на новые парадигмы создания ОИИ, в рамках которых этих проблем не возникает. Я, безусловно, надеюсь на это и внимательно слежу за прогрессом в этой сфере. Но прогресс пока невелик, и остается немало серьезных нерешенных проблем. При сохранении текущей парадигмы достаточно интеллектуальные агенты в итоге приобретут инструментальные цели, чтобы обмануть и пересилить нас. И если их интеллект будет в значительной степени превосходить наш собственный, не стоит ожидать, что человечество сумеет победить в этой борьбе и сохранить контроль над своим будущим.

Каким образом ИИ-система могла бы захватить власть? Распространено серьезное заблуждение (подпитываемое Голливудом и прессой), что в таком деле не обойтись без роботов. В конце концов, как иначе ИИ сможет действовать в физическом мире? В отсутствие роботизированных манипуляторов система может производить лишь слова, изображения и звуки. Но достаточно немного поразмыслить, чтобы понять, что именно это и нужно для захвата власти. Самыми опасными в истории людьми были вовсе не самые сильные. Гитлер, Сталин и Чингисхан установили абсолютный контроль над огромными территориями, словами убеждая миллионы других людей добиваться побед в необходимых физических столкновениях. Если ИИ-система сможет соблазнять или принуждать людей выполнять физическую работу, роботы ей вовсе не понадобятся.

Нельзя сказать, как именно система может захватить контроль. В самых реалистичных сценариях, вероятно, будут фигурировать неочевидные и нехарактерные для человека действия, которые нам не под силу ни предсказать, ни в полной мере осознать. И эти действия могут быть направлены на слабые места нашей цивилизации, которых мы пока не замечаем. Полезно, однако, обратиться к наглядному примеру, чтобы увидеть, где проходит нижняя граница возможного.

Сначала ИИ-система может получить доступ к интернету и спрятать тысячи своих резервных копий в незащищенных компьютерных системах по всему миру, чтобы в случае отказа оригинала эти копии готовы были продолжить работу. Уже к этому моменту уничтожить ИИ станет практически невозможно: только подумайте, какие возникнут политические препятствия, если попытаться очистить все имеющиеся в мире жесткие диски, где могут храниться резервные копии.

Затем она сформирует огромный "ботнет" из миллионов незащищенных систем, подключенных к интернету. Это позволит ей значительно повысить свою вычислительную мощность и создать платформу для расширения контроля. Далее она может получить доступ к финансовым ресурсам (взломав банковские аккаунты на этих компьютерах) и человеческим ресурсам (используя шантаж и пропаганду для воздействия на восприимчивых людей или просто оплачивая их услуги украденными деньгами). Таким образом система станет столь же влиятельной, как хорошо обеспеченное преступное подполье, но уничтожить ее будет гораздо сложнее. Ни один из перечисленных шагов не предполагает ничего непостижимого: хакерам и преступникам с интеллектом человеческого уровня уже удавалось провернуть такое, всего лишь используя интернет.

Наконец, системе нужно будет получить еще больше власти. Здесь мы уходим в сферу предположений, но правдоподобных вариантов развития событий немало: она может захватить большинство компьютеров в мире и создать миллионы или миллиарды своих взаимодействующих копий; использовать украденную вычислительную мощность, чтобы повысить уровень собственного интеллекта и оставить человека далеко позади; применить свои интеллектуальные способности для разработки новых технологий вооружения и экономических технологий; манипулировать лидерами ведущих мировых держав (шантажируя их или суля им больше власти в будущем); а также заставить подконтрольных ей людей применять оружие массового уничтожения, чтобы покалечить все остальное человечество.

Разумеется, ни одна из существующих ИИ-систем не способна на такое. Но мы пытаемся понять, существуют ли правдоподобные сценарии, в которых контроль захватывает высокоинтеллектуальная система ОИИ. И похоже, что да, существуют. В истории уже были случаи, когда люди, обладающие интеллектом человеческого уровня (Гитлер, Сталин, Чингисхан), сосредотачивали в своих руках не только власть отдельного человека, но и значительную часть мировой власти, поскольку без этого они не могли достичь своих целей. Человечество за время своего существования превратилось из немногочисленного вида, в котором было менее миллиона особей, в вид, способный самостоятельно определять собственное будущее. Нам следует полагать, что такое может произойти и с новыми сущностями, гораздо более интеллектуальными, чем мы сами, особенно если они, по сути, бессмертны, поскольку имеют резервные копии и обладают способностью производить новые копии, пуская на это захваченные деньги и компьютеры.