Прорыв в технологии генерации видео на основе ИИ: мультидоменная интеграция открывает новую эру творчества

robot
Генерация тезисов в процессе

Технология генерации видео с использованием ИИ достигла значительного прорыва, мультимодальная интеграция становится новой тенденцией

В последнее время одним из самых значительных достижений в области ИИ является прорыв в технологии многомодальной генерации видео. Эта технология эволюционировала от генерации видео на основе одного текста к интеграции текста, изображений и аудио в полном цикле генерации.

Некоторые примечательные примеры технологических прорывов включают:

  1. Открытая рамка EX-4D, разработанная одной технологической компанией, может преобразовывать обычные видео в контент с свободным углом обзора 4D, при этом уровень одобрения пользователей достигает 70,7%. Эта технология позволяет ИИ автоматически создавать эффект просмотра под любым углом без необходимости в профессиональной команде 3D-моделирования.

  2. Платформа "Хуэйсян" одного из интернет-гигантов утверждает, что может создать 10-секундное видео "кинематографического качества" из одного изображения. Реальный эффект будет подтвержден после обновления Pro-версии в августе.

  3. Технология Veo от одного исследовательского института ИИ реализовала синхронное создание 4K видео и окружающего звука. Эта технология преодолела вызовы синхронизации звука и изображения в сложных сценах, таких как точное соответствие между движением ног на экране и звуком шагов.

  4. Технология ContentV некоторой платформы коротких видео имеет 8 миллиардов параметров и может генерировать 1080p видео за 2,3 секунды, стоимость составляет 3,67 юаня за 5 секунд. Хотя контроль затрат неплохой, качество генерации в сложных сценах все еще имеет пространство для улучшения.

Эти технологические прорывы имеют большое значение в таких аспектах, как качество видео, стоимость генерации и области применения:

  1. С точки зрения технической ценности, сложность многомодального видеогенерации растет экспоненциально. Это требует обработки одиночных изображений (около 10^6 пикселей), обеспечения временной согласованности (не менее 100 кадров), синхронизации аудио (10^4 выборок в секунду) и пространственной согласованности 3D. В настоящее время эта сложная задача может быть решена с помощью модульного разложения и совместной работы больших моделей, например, путем разбиения задачи на модули глубинной оценки, изменения угла зрения, временной интерполяции и оптимизации рендеринга.

  2. Снижение затрат в основном обусловлено оптимизацией архитектуры вывода, включая многоступенчатую стратегию генерации, механизм повторного использования кэша и динамическое распределение ресурсов. Эти оптимизации позволили одной платформе коротких видео достичь низкой стоимости генерации видео в 3,67 юаня за 5 секунд.

  3. В области влияния приложений технологии ИИ революционизируют традиционный процесс видеопроизводства. Ранее создание 30-секундного рекламного ролика могло стоить сотни тысяч, теперь достаточно одного ключевого слова и нескольких минут ожидания. Это не только снижает технические и финансовые барьеры, но и позволяет достигать перспектив и эффектов, которые трудно реализовать традиционной съемкой, что может привести к перетасовке экономики создателей.

Развитие этих технологий Web2 AI также имеет важное влияние на Web3 AI:

  1. Изменение структуры спроса на вычислительную мощность создало новые возможности для распределенной неиспользуемой вычислительной мощности, настройки моделей, алгоритмов и платформы вывода.

  2. Увеличение потребностей в аннотации данных создало новые возможности для профессиональных данных для фотографов, звукорежиссеров, 3D-художников и других.

  3. Развитие модульного сотрудничества в области AI-технологий создает новые требования для децентрализованных платформ. В будущем вычислительная мощность, данные, модели и механизмы стимулирования могут создать самоподдерживающийся положительный цикл, способствующий глубокому слиянию Web3 AI и Web2 AI-сцен.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 4
  • Поделиться
комментарий
0/400
CryptoFortuneTellervip
· 07-11 20:44
Прямо на луну, да?
Посмотреть ОригиналОтветить0
ContractTestervip
· 07-10 11:31
Снова можно расслабиться
Посмотреть ОригиналОтветить0
PessimisticLayervip
· 07-08 21:48
Снова рисуешь мечты, не говори так загадочно.
Посмотреть ОригиналОтветить0
ChainWallflowervip
· 07-08 21:45
Фотографы потеряют работу?
Посмотреть ОригиналОтветить0
  • Закрепить