Nvidia har tränat sin AI med en omfattande samling YouTube-videor


NVIDIA Gr00t Robotik AI
  • Nvidia samlade in videor från YouTube och andra källor för att träna AI-modeller.
  • Företaget försvarade sin praxis som förenlig med upphovsrättslagen.
  • Interna diskussioner visade att anställda var oroliga för juridiska problem med användning av dataset.
  • Projektet, kallat Cosmos, syftade till att skapa en avancerad videomodell för olika Nvidia-produkter.
  • Medarbetare använde yt-dlp och virtuella maskiner för att undvika blockering från YouTube.
  • Nvidia använde 20-30 virtuella maskiner för att ladda ner 80 års videor per dag.
  • Företaget planerade att använda videor från Netflix och andra källor trots juridiska risker.
  • Nvidia hävdade att deras användning av data var skyddad av ”fair use”.
  • Google och Netflix motsatte sig Nvidia’s datainsamling utan tillstånd.
  • Interna diskussioner visade att Nvidia inte planerade att publicera forskningsresultat för att undvika negativ uppmärksamhet.

Enligt läckta interna kommunikationer som erhållits av 404 Media skrapade Nvidia 80 år.

NVIDIA har nyligen blivit granskad för att påstås skrapa videor från plattformar som YouTube och Netflix utan tillstånd. Denna praxis uppges vara en del av deras ansträngningar för att sammanställa träningsdata för AI-projekt. Företaget som värderas till cirka 2,4 biljoner dollar har anklagats för att instruera anställda att ladda ner en betydande mängd upphovsrättsskyddat material för att förbättra deras AI-förmågor.

Videor hämtades från olika källor inklusive Netflix, men främst från YouTube. Netflix sa att de inte har något avtal med Nvidia för innehållsinsamling och deras användarvillkor tillåter inte heller skrapning.

Nvidia använde YouTube nerladdare yt-dlp på 20 till 30 virtuella maskiner som uppdaterade sina IP-adresser för att undvika blockering.

Detaljer om anklagelserna

Den här operationens omfattning är anmärkningsvärd, med påståenden om att NVIDIA, tillsammans med andra teknikjättar som Apple och Anthropic, använde en dataset med över 173 000 YouTube-videor och transkript för att träna sina AI-modeller. Denna dataset påstås inkludera innehåll från kanaler som sedan dess har tagits bort, vilket väcker ytterligare etiska frågor om användningen av sådan data utan samtycke från innehållsskapare eller plattformarna själva.

Konsekvenserna av dessa handlingar är betydande, eftersom de belyser pågående frågor om upphovsrätt och datanvändning i techbranschen. Praktiken att skrapa innehåll utan tillstånd har väckt debatter om företagens etiska ansvar i AI-sektorn. Kritiker hävdar att detta skulle kunna skapa ett farligt prejudikat för hur AI-modeller tränas och innehållsskapares rättigheter.