Microsoft’un yeni geliştirdiği bir yapay zekâ, üç saniyelik bir kaydı dinledikten sonra bir kişinin sesini tamamen taklit edebiliyor.
Yapay zekânın yapabileceklerinin sınırı yok. Şimdi de üç saniye içerisinde bir kişinin sesini tam olarak taklit etmeye başladı.
Microsoft mühendisleri, üç saniyelik ses örneği ile bir kişinin sesini taklit edebilen bir yapay zekâ geliştirdi. Vall-E olarak adlandırılan bu yapay zekâ, sesini öğrendiği konuşmacıların tonunu korumaya çalışıyor.
60 BİN SAATLİK EĞİTİM
Microsoft, Vall-E robotunun kodlarını yazdıktan sonra yapay zekâyı beslemeye başladı. Vall-E’ye 7 binden fazla hoparlörden 60 bin saatlik konuşma dinletildi. Microsoft bu konuşmaların çoğunu LibriVox adlı kamuya açık sesli kütüphaneden kullandı.
Microsoft have announced their AI “VALL-E”
Using a 3-second sample of human speech, it can generate super-high-quality text-to-text speech from the same voice. Even emotional range and acoustic environment of the
sample data can be reproduced. Here are some examples. pic.twitter.com/ExoS2VWO6d— Tuvok @ NaughtyDog (@TheCartelDel) 7 Ocak 2023
CORNELL ÜNİVERSİTESİ: EN İYİ PERFORMANS
Amerika Birleşik Devletleri’ndeki Cornell Üniversitesi’ndeki akademisyenlerin yayınladığı makalede Vall-E için, “Deney sonuçları, Vall-E’nin konuşma doğallığı ve konuşmacı benzerliği açısından son teknoloji TTS sisteminden (hiç duymadığı sesleri yeniden oluşturan yapay zekâ) önemli ölçüde daha iyi performans gösterdiğini gösteriyor. Ayrıca, VALL-E’nin konuşmacının duygusunu ve akustik istemin akustik ortamını sentez halinde koruyabildiğini bulduk” ifadelerini kullandı.
SESLER BİRAZ ROBOTİK AMA NEREDEYSE AYNISI
Açık kaynak kodlarının paylaşıldığı bir platform olan GitHub’da Vall-E’nin örnek çalışmaları yer alıyor. Buradaki örnekler oldukça başarılı. Seslere bakıldığında uzun bir metnin duygular ve tonlamalarla doğru aktarıldığı duyuluyor. Ancak biraz dikkatli dinlendiğinde seslerin biraz robotik olduğu anlaşılabiliyor.
Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) 9 Ocak 2023
DİĞER YAPAY ZEKÂLAR İLE BERABER KULLANILABİLİR
Vall-E başarılı bir konuşma robotuna benziyor. Peki, bu konuşma robotu başarılı bir metin yazma robotu ile beraber kullanılırsa ne olur? GPT-3 son zamanlarda oldukça popülerleşen bir yazı yazan yapay zekâ robotu. GPT-3 istenilen metni saniyeler içerisinde hızlıca oluşturabiliyor. GPT-3 ayrıca kişilerin kelime analizlerini yapıp, onun tarzında bir metin, makale, hikâye veya şiir oluşturabiliyor. Bu iki yapay zekâ robotu beraber kullanılırsa ünlü bir kişinin kendi sesinden kendi tarzında sahte konuşmalar duyabiliriz.