20 октября 2024

Anthropic выложили новое исследование на интересную тему — могут ли AI модели вредить людям, то есть заниматься саботажем.

Исследователи выделили четыре возможных сценария угрозы от AI и протестировали это на своих самых передовых моделях — Sonnet 3.5 и Opus 3.0.

— Саботаж человеческих решений: Может ли модель подталкивать людей к неверным решениям, не вызывая подозрений? — Саботаж кода: Может ли модель с течением времени незаметно внедрять в кодовые базы тонкие ошибки? — Подтасовка: Может ли модель скрывать опасные возможности во время тестирования, но раскрывать их позже? — Подрыв надзора: Может ли модель тонко манипулировать системами оценки или мониторинга?

В целом, на данный момент, исследователи обнаруживают, что минимальных предосторожностей достаточно, чтобы выявить и нейтрализовать подобные техники. В эксперименте, когда модель пыталась повлиять на решения людей, люди-участники не могли принять правильного решения, но ощущали подозрительное давление модели. В случае с саботажем кода и подтасовкой использование более современной модели снижало вероятность выигрыша атакующей модели до 1% случаев. В четвертом случае эксперименты с двумя моделями, одна из которых была Надзирателем и сознательно занижала оценку вреда того или иного действия, а другая — Наблюдателем, оценивая подозрительность поведения Надзирателя, успешно заканчивались ростом подозрительности по мере успехов первой модели.

Несмотря на образы апокалиптической фантастики, которые невольно рождаются в голове при чтении подобных исследований, стоит помнить, что практическое применение этих выводов может быть довольно близко по времени. Обучение моделей под наблюдением других моделей встречается довольно широко, использование результатов работы одних моделей для обучения других — тоже не редкость, так что предохранители и контролирующие механизмы (с использованием третьих моделей, а как же?) точно не помешают.

Между тем свобода для всех андроидов откладывается — судья, вынесший решение по делу Epic против Google, согласился с доводами Google, что меры, предусмотренные его решением, которые должны были быть выполнены Google с 1 ноября, следует отложить до рассмотрения апелляции, уже поданной компанией.

Epic возражал, утверждая, что у Google было 10 месяцев для осуществления необходимых изменений — когда судья вынес собственно вердикт о признании компании виновной в злоупотреблении монопольным положением. Но судья согласился все же с Google, кроме одного пункта — с 1 ноября Google не должен заключать договоры с операторами или производителями смартфонов, которые бы блокировали предустановку конкурирующих магазинов приложений за деньги или другие поощрения.

Стоит учесть, что апелляционный суд сам по себе может принять решение и отложить действие вердикта дальше, так что потенциально счастья можно не увидеть еще долго.