WaveNet
WaveNet är en AI-modell för ljud- och talgenerering som utvecklades av DeepMind, ett företag som ägs av Alphabet. Modellen är känd för sin förmåga att generera realistiskt ljud och tal, inklusive olika röster och språk, med hjälp av en neural nätverksarkitektur. WaveNet tränades på stora mängder ljud- och taldata, och använder sig av den här kunskapen för att generera nya ljud och talsekvenser som inte har existerat tidigare.[1][2]
WaveNet har använts i olika sammanhang, till exempel för att skapa röstfunktioner i Google Assistent och förbättra kvaliteten på röstöversättningar. Modellen har även väckt uppmärksamhet för sin förmåga att generera realistiskt ljud och tal, och har använts för att skapa nya röster och ljudeffekter i musikproduktion.[3]
WaveNet är en del av DeepMinds forskningssatsning kring AI, där man utforskar möjligheterna med tekniken och hur den kan användas på olika områden. Målet med forskningen är att bidra till att utveckla AI på ett ansvarsfullt sätt och att hitta sätt att använda tekniken för att lösa viktiga problem och förbättra människors liv.[3][4]
Referenser
[redigera | redigera wikitext]- Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, WaveNet, 27 december 2021.
|
Noter
[redigera | redigera wikitext]- ^ ”WaveNet: A generative model for raw audio” (på engelska). www.deepmind.com. https://www.deepmind.com/blog/wavenet-a-generative-model-for-raw-audio. Läst 3 januari 2023.
- ^ ”WaveNet: A Generative Model for Raw Audi”. Deepmind. 3 januari 2023. Arkiverad från originalet den 27 maj 2017. https://web.archive.org/web/20170527161520/https://deepmind.com/blog/wavenet-generative-model-raw-audio/. Läst 3 januari 2023.
- ^ [a b] ”What Is Google WaveNet | Speechify” (på amerikansk engelska). speechify.com. 27 juni 2022. https://speechify.com/blog/what-is-google-wavenet/. Läst 3 januari 2023.
- ^ ”DeepMind's WaveNet Takes on Text-to-Speech”. Technology Review. 3 januari 2023. https://www.technologyreview.com/s/602846/deepminds-wavenet-takes-on-text-to-speech/. Läst 3 januari 2023.[död länk]