Microsofts nye AI stemme er for realistisk til at de tør udgive den

Microsoft har udviklet en AI stemmegenerator VALL-E 2, der kan producere tale som lyder præcist som et mennesket. Modellen behøver kun få sekunder af lyd for overbevisende at efterligne en persons stemme og den overgår tidligere modeller. Men modellen kommer med en masse etiske udfordringer.

På trods af dens potentielle fordele, såsom hjælp til personer med taleproblemer, frigiver Microsoft ikke den nye talemodel til offentligheden på grund af bekymringer om misbrug, herunder svindel og imitation. Denne forsigtige tilgang deles af andre AI-ledere, såsom OpenAI, som også begrænser visse stemmeteknologier. Overalt bliver der også arbejdet på værktøjer der kan opdage deep fakes.

Hvorfor Dette Er Vigtigt: Tale og stemme er tydeligvis den næste store slagmark for generativ AI, og en række virksomheder arbejder hårdt på at producere modeller, der kan forstå og gengive naturlige stemmemønstre. På trods af frigivelsen af lydprøver anser Microsoft deres produkt for at være for avanceret til offentlig frigivelse på grund af potentielt misbrug som stemmespoofing. Altså at nogen udgiver sig for at være en anden ved at kopiere deres stemme.