
CausVid är en hybrid AI-modell utvecklad av forskare vid MIT:s forskningslaboratorium för datavetenskap och artificiell intelligens (CSAIL) i samarbete med Adobe Research. Detta innovativa verktyg möjliggör skapandet av högkvalitativa videor på bara sekunder, vilket representerar ett betydande framsteg inom videoproduktion och dess applikationer.
CausVid kombinerar element från två olika typer av modeller: en högpresterande diffusionmodell och en autoregressiv modell. Den pre-tränade diffusionmodellen används som en ”lärare” för den autoregressiva modellen, vilket gör att den kan snabbare förutsäga nästa bild i en videosekvens.
Denna hybridmodell ökar hastigheten på videoproduktion genom att förkorta en typisk 50-stegsprocess till få åtgärder, och kan generera videor i realtid med en hastighet på upp till 9,4 bilder per sekund och med en initial fördröjning på bara 1,3 sekunder för den första bilden.
Forskningsteamet och framtidsvision
Bakom CausVid står forskare från MIT och Adobe Research ledda av bland andra Tianwei Yin och Qiang Zhang. Projektet stöds även av organisationer som Amazon Science Hub, amerikanska flygvapnet och andra forskningsinstitutioner. CausVid kommer att presenteras på den stora forskningskonferensen CVPR under sommaren.
Forskargruppen ser möjligheter att utveckla modellen ytterligare, som att med mindre skräddarsydda varianter kunna generera klipp direkt för olika branscher, exempelvis robotik och spelutveckling, med ännu högre kvalitet och snabbhet.
Leave a Reply