С ростом крупномасштабных языковых моделей (LLM) масштабы отравления контента усиливаются. Эмили Венгер из Университета Дьюка иллюстрирует это на примере генератора изображений собак: перепредставление определенных пород в наборах данных ИИ может привести к тому, что последующие модели забудут о менее распространенных породах, вызывая коллапс модели.
Для решения этой проблемы исследователи предлагают использовать водяные знаки для идентификации ИИ-контента. Широкое распространение неразрешенного обучения нейросетей на пользовательских данных, как в случае с Илоном Маском, также вызывает беспокойство.
Источник: www.gazeta.ru