Современные нейросети научились создавать фотореалистичные видео с идеально синхронизированным голосом и движениями за считанные секунды, рассказали эксперты РИА Новости. Ведущий специалист по искусственному интеллекту Ярослав Селиверстов отметил, что теперь достаточно пары слов, чтобы нейросеть сгенерировала полноценный ролик. Среди популярных моделей, способных на такую генерацию, Селиверстов назвал Sora от OpenAI, Runway Gen-2 и Gen-3, Pika 2, Synthesia, Kaiber, а также голосовые движки ElevenLabs и Coqui.ai.
Эксперт подчеркнул, что отличить видео, созданное ИИ, от настоящего всё ещё возможно. Наиболее очевидные признаки — физика движений, свет и тень, а также детали заднего плана. Искусственный интеллект слабо чувствует массу, инерцию и силу тяжести: люди и животные двигаются слишком легко, предметы подпрыгивают нелогично, а капли воды летят неправдоподобными дугами. Кроме того, в сгенерированных роликах часто встречаются ошибки в источниках света, тени падают не туда, куда должны, а фон или задний план может выдавать генерацию — повторяющиеся деревья, абракадабровые надписи или лица случайных прохожих.
Особое внимание стоит уделять мелким деталям: глаза и лицо персонажей могут быть несимметричными, взгляд «плывет», улыбка «приклеенная», движения губ не совпадают со звуком, а кожа и волосы выглядят неестественно. Пальцы на руках могут переплетаться или исчезать, текстуры тканей и шерсти выглядят искусственными, а зеркала и лужи могут отражать неправильные объекты или менять сцену. Все эти признаки позволяют выявлять использование ИИ в видео.