Лунный выстрел OpenAI: решение проблемы выравнивания ИИ

В июле OpenAI объявила о новой исследовательской программе по «сверхсогласованию». Перед программой стоит амбициозная цель — к 2027 году решить сложнейшую проблему в области, известную как согласование ИИ. На решение этой задачи OpenAI тратит 20 процентов своих общих вычислительных мощностей.

В чем проблема выравнивания ИИ? Это идея о том, что цели систем ИИ могут не совпадать с целями людей, и эта проблема усугубится, если будут разработаны сверхразумные системы ИИ. Именно здесь люди начинают говорить о риске вымирания человечества. Проект суперсогласования OpenAI сосредоточен на более серьезной проблеме согласования систем искусственного сверхразума. Как заявила OpenAI во вступительном сообщении в блоге: «Нам нужны научные и технические прорывы, чтобы управлять и контролировать системы искусственного интеллекта, которые намного умнее нас».

Эту работу возглавляют руководитель отдела исследований OpenAI Ян Лейке и Илья Суцкевер, соучредитель и главный научный сотрудник OpenAI. Лейке рассказал IEEE Spectrum об усилиях, целью которых является создание согласованного инструмента исследования искусственного интеллекта, который поможет решить проблему согласования.

Ян Лейке:

IEEE Spectrum: Давайте начнем с вашего определения выравнивания. Что такое согласованная модель?

Ян Лейке, руководитель отдела исследований OpenAI, возглавляет усилия компании, направленные на то, чтобы опередить искусственный сверхинтеллект еще до того, как он будет создан. OpenAI

Ян Лейке: Что мы хотим сделать с согласованием, так это выяснить, как создавать модели, которые следуют намерениям человека и делают то, что люди хотят, особенно в ситуациях, когда люди могут не совсем знать, чего они хотят. Я думаю, что это довольно хорошее рабочее определение, потому что вы можете сказать: «Что значит, скажем, для личного помощника по диалогу быть согласованным? Ну, это должно быть полезно. Это не должно мне врать. Он не должен говорить того, чего я не хочу».

Можно ли сказать, что ChatGPT согласован?

Нравиться: Я бы не сказал, что ChatGPT согласован. Я думаю, что выравнивание не является бинарным, например, что-то выровнено или нет. Я думаю об этом как о диапазоне между системами, которые сильно разбалансированы, и системами, которые полностью согласованы. И [с ChatGPT] мы находимся где-то посередине, где он явно полезен в большинстве случаев. Но в некоторых важных аспектах он все еще не согласован. Вы можете взломать его, и он галлюцинирует. И иногда это предвзято, что нам не нравится. И так далее, и так далее. Еще многое предстоит сделать.

«Это еще рано. И особенно для действительно больших моделей, очень сложно сделать что-то нетривиальное», — Ян Лейке, OpenAI.

Давайте поговорим об уровнях несогласованности. Как вы сказали, ChatGPT может галлюцинировать и давать предвзятые ответы. Итак, это один уровень несогласованности. Другой уровень расскажет вам, как сделать биологическое оружие. И затем, третий уровень — это сверхразумный ИИ, который решает уничтожить человечество. Где в этом спектре вреда ваша команда действительно может оказать влияние?

Нравиться: Надеюсь, на всех. Новая команда суперсогласования не так сосредоточена на проблемах согласования, которые существуют сегодня. В других частях OpenAI ведется большая работа по галлюцинациям и улучшению взлома. Наша команда больше всего сосредоточена на последнем. Как нам помешать будущим системам, которые будут достаточно умны, чтобы лишить человечество возможности сделать это? Или как нам выровнять их настолько, чтобы они могли помочь нам провести автоматическое исследование выравнивания, чтобы мы могли выяснить, как решить все эти другие проблемы выравнивания.

Я слышал, как вы сказали в интервью подкаста, что GPT-4 на самом деле не способен помочь с выравниванием, и вы это знаете, потому что попробовали. Можете ли вы рассказать мне об этом больше?

Нравиться: Возможно, мне следовало сделать более детальное заявление. Мы попытались использовать его в нашем исследовательском процессе. И это не значит, что это никогда не помогает, но в среднем это не помогает настолько, чтобы можно было использовать его для наших исследований. Если вы хотели использовать ее, чтобы написать проектное предложение для нового проекта выравнивания, модель не понимала выравнивание достаточно хорошо, чтобы помочь нам. Частично это связано с тем, что для выравнивания не так уж много данных для предварительной подготовки. Иногда у него была хорошая идея, но в большинстве случаев он просто не говорил ничего полезного. Мы продолжим попытки.

Блог

Лунный выстрел OpenAI: решение проблемы выравнивания ИИ