NVIDIA:s transkriptionsverktyg Parakeet producerar 60 minuter text på 1 sekund


nvidia-Parakeet

NVIDIA har släppt ett nytt AI-verktyg för transkribering som heter Parakeet, och det är onekligen snabbt. Modellen, Parakeet TDT 0.6B, har 600 miljoner parametrar och kan enligt uppgift transkribera en hel timmes ljud på bara en sekund. Det här kan vara intressant för utvecklare, forskare och olika industrier som bygger applikationer som behöver omvandla tal till text.

Parakeet TDT 0.6B är alltså en automatisk taligenkänningsmodell (ASR). Den är designad för att vara effektiv och kan hantera upp till 24 minuters ljud åt gången tack vare sin ”full attention mechanism”, vilket innebär att den kan analysera hela ljudsegment samtidigt istället för att dela upp dem. Denna version är specifikt utvecklad för engelsk ljudtranskribering.

Prova demon här: https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

Snabbheten och effektiviteten hos Parakeet öppnar upp för en rad olika användningsområden. Det kan till exempel användas för att snabbt skapa prototyper eller för att lokalisera innehåll genom att transkribera videoströmmar från plattformar som YouTube och TikTok. Att modellen dessutom är open source kan göra den mer tillgänglig för en bredare grupp användare.

Det ska bli intressant att se hur Parakeet tas emot och vilka nya tillämpningar som kommer att utvecklas med hjälp av denna teknik.

Mer info:

NVIDIA Build: parakeet-1.1b-rnnt-multilingual-asr Model

Demo  parakeet-tdt-0.6b-v2