Не все получается правильно, но с каждой новой версией рисовалки становятся умнее. Игнорировать это глупо.
Они как не умели анализировать предыдущие кадры и определять объекты, распознавать текст и воспроизводить, нормально отрабатывать геометрические искажения от угла камеры и делать естественное освещение, так и не умеют. Все нейросетевые картинки палятся по закорючкам вместо букв и цифр, даже когда в качестве исходника используется реальный объект, взятый из интернета. Она конечно нарисует вывеску по запросу "нарисовать вывеску с таким-то текстом", но когда она обрабатывает картинку по образцу реальной вывески она не в состоянии почему-то просто определить на ней текст, и либо воспроизвести его, либо заменить случайным текстом другой вывески на том же языке. У приборов, будь-то банальные часы или вольтметр вместо цифр непонятная хрень, когда они не являются главным объектом, описанным человеком, а чем-то, что было на картинке-образце из интернета.
Туда же странности с колесами, стеклами у машин, конечностями и прочими выступающими частями, особенно способными двигаться отдельно от от основного тела у различных животных.
Примитивнейшая программа для анимации под DOS разбивает условный автомобиль на пачку многоугольников и тащит, соблюдая геометрию проекции, у нейросетей части внезапно начинают вести себя как картинка на резинке, а то и в чашке кофе, которую мешают ложкой.
Это при том, что нейросети изначально проектировались для распознавания текстов и изображений.
А тут вдруг работающие на огромных кластерах, потребляющих гигаватты, с сотнями тысяч и миллионами ядер CPU и GPU, петабайтами оперативной памяти, то, что 40 лет назад начиналось как продвинутые алгоритмы распознавания изображений что-то не могут распознать боковое окно автомобиля как банальнейший прямоугольник со срезанным углом, который в зависимости от угла камеры при движении либо не искажается вообще, либо слегка сжимается или растягивается, но сохраняя при этом базовые характеристики фигуры, а не превращается из прямоугольника в нечто содержащее окружность искаженной формы.
С речью вообще непонятно. Что сложного для продвинутых алгоритмов разбить абзац текста на таком-то языке, определить используемые устойчивые выражения и расставить паузы в соответствии с правилами данного языка. Но нет, все нейросетевые озвучки в длинном тексте обязательно поставят паузу, где ее быть не должно.
При этом ошибки настолько грубые, что такое недопустимо даже в разных языковых группах, например романских, германских или славянских языках пауза в том месте звучит как дичь, при том, что многие правила в языках сильно отличаются.
Например "человек съел яблоко" - в куче языков, даже азиатских, независимо от порядка слов оно звучит единым массивом с одинаковыми короткими разделительными паузами между каждым словом. Нейросетевая озвучка - "человек съел... яблоко".
Как будто читает диктор с деменцией, который забыл как яблоко называется, или которого непрерывно отвлекают.