En grupp datavetare från Johns Hopkins universitet har tagit ett stort steg framåt i utvecklingen av artificiell intelligens som kan tänka på ett mer mänskligt sätt. De har skapat en AI-modell som kan ”fantisera” och utforska omgivningen utan att behöva fysiskt undersöka den, vilket gör den närmare mänsklig resonering.
Den nya modellen, som kallas Generative World Explorer (GenEx), kan generera en hel virtuell värld baserad på bara en enda stillbild. Detta ger den en betydande fördel jämfört med tidigare system som kräver en robot eller agent för att fysiskt röra sig genom scenen för att kartlägga omgivningen.
Hur fungerar GenEx?
GenEx använder avancerad kunskap om världen för att generera flera möjliga scenarier av vad som kan finnas bortom det synliga bildområdet. Den tilldelar olika sannolikheter till varje scenario istället för att göra en enda definitiv gissning. Detta gör att modellen kan mentalt kartlägga omgivningen från begränsade visuella data, vilket är avgörande för många verkliga applikationer.
En AI-agent som använder GenEx behöver bara en vy av sin nuvarande scen, en riktning för rörelse och avståndet att resa. Agenten kan sedan röra sig framåt, ändra riktning och utforska sin miljö med obegränsad flexibilitet.
Möjliga användningsområden
Detta innovativa system öppnar upp många spännande möjligheter:
- Katastrofhjälp: Räddningsteam kunde använda en enda övervakningsbild för att utforska farliga platser på distans utan risk för människor eller värdefull utrustning.
- Navigationsappar: Teknologin kan förbättra navigationsappar genom att ge mer detaljerad och kontextuell information om omgivningen.
- Autonoma robotar: Det kan hjälpa till med träning av autonoma robotar genom att simulera olika miljöer och scenarier.
- Immersiva upplevelser: Det kan driva mer realistiska och engagerande spel och virtuell verklighet-upplevelser.
Konsistens och kvalitet
Forskargruppen har utvärderat GenEx mot standardmässiga videogenereringstest. De har också genomfört experiment med mänskliga användare för att se hur modellen kan förbättra deras logiska tänkande och planeringsförmåga. Resultaten visar att användarna fattade mer precisa och välinformerade beslut när de hade tillgång till modellens utforskningsegenskaper.
Framtidsperspektiv
Teamet planerar att fortsätta utveckla tekniken genom att inkorporera riktig sensordata och dynamiska scener för mer realistiska och immersiva planeringsscenario. Detta tvärvetenskapliga projekt, som involverar datorseende, naturligt språkbehandling och kognitionspsykologi, markerar ett betydelsefullt framsteg mot att uppnå mänsklig intelligens i inkorporerad AI.
https://hub.jhu.edu/2024/12/19/a-generated-world-of-pure-imagination
Leave a Reply