"На краю пропасти": экзистенциальные риски цивилизации

18 апреля 2023

ИЗДАНИЕ

ЭКОНС

Тоби Орд

Купить

Нынешний век – переломный в судьбе человечества: впервые за всю историю своего вида люди получили возможность отменить собственное будущее. Главные риски, грозящие уничтожением долгосрочного потенциала цивилизации, анализирует философ Тоби Орд в книге "На краю пропасти".

Однажды вечером в 1933 г. ведущий мировой эксперт по атомной науке Эрнест Резерфорд назвал мысль о приручении атомной энергии "вздором". На следующее утро физику Лео Силарду пришла в голову идея цепной ядерной реакции.

Не стоит забывать, как быстро могут появляться новые технологии, и не стоит слишком доверять заявлениям о том, что некоторые технологии невозможны или настолько далеки, что у нас нет поводов для беспокойства, замечает Тоби Орд, старший научный сотрудник философского факультета Оксфордского университета, советник (в разные годы) Всемирного банка и Всемирного экономического форума, сооснователь движения эффективного альтруизма и автор книги "На краю пропасти", перевод которой только что вышел в издательстве Corpus. Предметом анализа в ней стали экзистенциальные риски – то есть такие, которые грозят уничтожением долгосрочного потенциала человечества: риски ядерной войны, изменения климата, непоправимого экологического ущерба, пандемий искусственного происхождения, неконтролируемого искусственного интеллекта (ИИ).

Говоря об "экзистенциальной катастрофе" – непосредственном разрушении потенциала цивилизации, – Орд утверждает, что вымирание вовсе не единственный ее сценарий. Другими вариантами могут стать "мир в руинах" или "мир в оковах": тупиковые ветви человечества, загнавшего себя в ловушку в результате экологической катастрофы или реализовавшейся в масштабах всей планеты тоталитарной антиутопии.

"Эконс" публикует фрагмент из книги Тоби Орда, посвященный неконтролируемому ИИ – экзистенциальному риску, реализации которого Орд присвоил вероятность 1 к 10, наиболее высокую в ближайшее столетие.

Неконтролируемый искусственный интеллект

<…> Что случилось бы, если бы в текущем столетии исследователи создали общий искусственный интеллект [ОИИ], превосходящий человеческие способности почти во всех сферах? Этим актом творения мы положили бы конец эпохе, когда человек был самой разумной сущностью на Земле. Следовательно, если у нас не имеется надежного плана по контролю за ИИ, нам следует ожидать, что мы лишимся своего статуса самого могущественного вида, который сам вершит свою судьбу.

Само по себе это, возможно, не дает особых причин для беспокойства. Существует немало способов при хорошем раскладе удержать контроль в своих руках. Так, мы можем попытаться разработать системы, которые неукоснительно подчиняются командам человека. Или системы, которые вольны делать что угодно, но имеют задачи, полностью совпадающие с нашими, а следовательно, строят идеальное будущее не только для себя, но и для нас. К несчастью, немногочисленные исследователи, разрабатывающие подобные планы, обнаружили, что сделать это гораздо сложнее, чем казалось. Именно они и высказывают опасения громче всех.

Чтобы понять причину их беспокойства, стоит тщательнее изучить существующие технологии ИИ и разобраться, почему их сложно настраивать и контролировать. Один из основных подходов к созданию ОИИ подразумевает комбинацию глубокого обучения и обучения с подкреплением, которое появилось раньше. Этот метод предполагает наличие агентов, которые получают вознаграждение (или штраф) за выполнение разных действий в различных обстоятельствах. Например, агент, играющий в Atari, получает вознаграждение, когда набирает очки в игре, а агент, собирающий конструктор лего, может получать вознаграждение, когда детали соединяются друг с другом. Достаточно разумный и опытный агент искусно изменяет свою среду таким образом, чтобы создавать условия для получения высокого вознаграждения.

Комбинация действий и состояний, которые приносят агенту вознаграждение, называется функцией вознаграждения. Ее могут либо задавать разработчики (как в упомянутых выше случаях), либо выводить сам агент. В последнем случае агент, как правило, наблюдает за тем, как задачу выполняет специалист, и логически выводит систему вознаграждений, которая лучше всего объясняет, почему специалист действует именно так, а не иначе. Например, ИИ-агент может научиться управлять дроном, если понаблюдает за тем, как им управляет специалист, а затем выведет функцию вознаграждения, которая наказывает его, если он летает слишком близко к препятствиям, и вознаграждает, если он добирается до пункта назначения.

К сожалению, ни один из этих методов нельзя без труда масштабировать таким образом, чтобы закодировать человеческие ценности в функцию вознаграждения агента. Наши ценности слишком сложны и неочевидны, чтобы описать их вручную. И мы пока даже близко не подошли к тому, чтобы вывести систему ценностей человека во всей ее сложности из наблюдений за его поведением. Даже если бы такое было нам под силу, людей в человеческой общности слишком много и их ценности различаются, меняются со временем, а также не всегда понятны даже им самим. Каждое из этих осложнений ставит глубокие и нерешенные вопросы о том, как обобщать наблюдаемое в единую картину человеческих ценностей.

Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе "О дивный новый мир", или несамостоятельности и бессилию общества из "Со сложенными руками". Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры.

И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.

Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.

У них появятся и другие инструментальные цели. Интеллектуальный агент будет также сопротивляться попыткам изменить его функцию вознаграждения, откалибровав ее в соответствии с человеческими ценностями, поскольку сможет спрогнозировать, что в результате это приведет к уменьшению ожидаемого вознаграждения. Агент будет стремиться к получению дополнительных ресурсов – вычислительных, физических, человеческих, – которые позволят ему эффективнее менять среду, чтобы получать более крупное вознаграждение. В конце концов у него появится и стимул забрать у человечества контроль над будущим, поскольку это поможет ему в достижении всех перечисленных инструментальных целей: он получит доступ к огромным ресурсам, не допустив ни отключения, ни изменения своей функции вознаграждения. Поскольку люди предсказуемо захотят скорректировать инструментальные цели агента, это будет мотивировать его к тому, чтобы скрывать эти цели, пока не станет слишком поздно оказывать ему значимое сопротивление.

Скептики порой отмечают, что описанное выше возможно лишь в том случае, если будет создана ИИ-система, которая окажется достаточно умна, чтобы захватить контроль над миром, но слишком глупа, чтобы понять, что мы этого не хотим. Но это неверная трактовка сценария. На самом деле при таком раскладе система прекрасно понимает, что ее цели не совпадают с нашими, и именно это подталкивает ее к обману, конфликту и захвату власти. Истинная проблема в том, что исследователи ИИ пока не знают, как создать систему, которая, заметив это несоответствие, обновляет свою систему ценностей, приближая ее к нашей, а не корректирует свои инструментальные цели, чтобы одержать над нами верх.

Возможно, найдется способ решить перечисленные проблемы, или найти новые подходы к контролю над ИИ, чтобы снять сразу много вопросов, или переключиться на новые парадигмы создания ОИИ, в рамках которых этих проблем не возникает. Я, безусловно, надеюсь на это и внимательно слежу за прогрессом в этой сфере. Но прогресс пока невелик, и остается немало серьезных нерешенных проблем. При сохранении текущей парадигмы достаточно интеллектуальные агенты в итоге приобретут инструментальные цели, чтобы обмануть и пересилить нас. И если их интеллект будет в значительной степени превосходить наш собственный, не стоит ожидать, что человечество сумеет победить в этой борьбе и сохранить контроль над своим будущим.

Каким образом ИИ-система могла бы захватить власть? Распространено серьезное заблуждение (подпитываемое Голливудом и прессой), что в таком деле не обойтись без роботов. В конце концов, как иначе ИИ сможет действовать в физическом мире? В отсутствие роботизированных манипуляторов система может производить лишь слова, изображения и звуки. Но достаточно немного поразмыслить, чтобы понять, что именно это и нужно для захвата власти. Самыми опасными в истории людьми были вовсе не самые сильные. Гитлер, Сталин и Чингисхан установили абсолютный контроль над огромными территориями, словами убеждая миллионы других людей добиваться побед в необходимых физических столкновениях. Если ИИ-система сможет соблазнять или принуждать людей выполнять физическую работу, роботы ей вовсе не понадобятся.

Нельзя сказать, как именно система может захватить контроль. В самых реалистичных сценариях, вероятно, будут фигурировать неочевидные и нехарактерные для человека действия, которые нам не под силу ни предсказать, ни в полной мере осознать. И эти действия могут быть направлены на слабые места нашей цивилизации, которых мы пока не замечаем. Полезно, однако, обратиться к наглядному примеру, чтобы увидеть, где проходит нижняя граница возможного.

Сначала ИИ-система может получить доступ к интернету и спрятать тысячи своих резервных копий в незащищенных компьютерных системах по всему миру, чтобы в случае отказа оригинала эти копии готовы были продолжить работу. Уже к этому моменту уничтожить ИИ станет практически невозможно: только подумайте, какие возникнут политические препятствия, если попытаться очистить все имеющиеся в мире жесткие диски, где могут храниться резервные копии.

Затем она сформирует огромный "ботнет" из миллионов незащищенных систем, подключенных к интернету. Это позволит ей значительно повысить свою вычислительную мощность и создать платформу для расширения контроля. Далее она может получить доступ к финансовым ресурсам (взломав банковские аккаунты на этих компьютерах) и человеческим ресурсам (используя шантаж и пропаганду для воздействия на восприимчивых людей или просто оплачивая их услуги украденными деньгами). Таким образом система станет столь же влиятельной, как хорошо обеспеченное преступное подполье, но уничтожить ее будет гораздо сложнее. Ни один из перечисленных шагов не предполагает ничего непостижимого: хакерам и преступникам с интеллектом человеческого уровня уже удавалось провернуть такое, всего лишь используя интернет.

Наконец, системе нужно будет получить еще больше власти. Здесь мы уходим в сферу предположений, но правдоподобных вариантов развития событий немало: она может захватить большинство компьютеров в мире и создать миллионы или миллиарды своих взаимодействующих копий; использовать украденную вычислительную мощность, чтобы повысить уровень собственного интеллекта и оставить человека далеко позади; применить свои интеллектуальные способности для разработки новых технологий вооружения и экономических технологий; манипулировать лидерами ведущих мировых держав (шантажируя их или суля им больше власти в будущем); а также заставить подконтрольных ей людей применять оружие массового уничтожения, чтобы покалечить все остальное человечество.

Разумеется, ни одна из существующих ИИ-систем не способна на такое. Но мы пытаемся понять, существуют ли правдоподобные сценарии, в которых контроль захватывает высокоинтеллектуальная система ОИИ. И похоже, что да, существуют. В истории уже были случаи, когда люди, обладающие интеллектом человеческого уровня (Гитлер, Сталин, Чингисхан), сосредотачивали в своих руках не только власть отдельного человека, но и значительную часть мировой власти, поскольку без этого они не могли достичь своих целей. Человечество за время своего существования превратилось из немногочисленного вида, в котором было менее миллиона особей, в вид, способный самостоятельно определять собственное будущее. Нам следует полагать, что такое может произойти и с новыми сущностями, гораздо более интеллектуальными, чем мы сами, особенно если они, по сути, бессмертны, поскольку имеют резервные копии и обладают способностью производить новые копии, пуская на это захваченные деньги и компьютеры.