




Machine Learning Kullanarak Ses Değiştirme (Tez Konusu)
-
https://play.google.com/store/apps/details?id=com.coolapps.changemyvoice
android mi kullanıyorsun bilmiyorum ama böyle bir şey var..
denemedim ama
-
Koşarak uzaklaş hocam:)
-
konuya mesaj yazdığını görünce dedim kesin olumsuz bir şey yazmıştır :) ve tahminimde yanılmadım :D
-
unbalanced bunu yazdı
@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..
@sandman, şimdi hocam demek istediğim şöyle, elimizde kenan ışık'ın binlerce konuşmasını içeren ses dosyaları var, bunları kullanarak kenan ışık için belirli bir pattern oluşturulabilir, ses analizinde uzmanlığım yok ama bana göre seslerin de kişiye göre özellikleri vardır. Yani bir ses dalgasını bir kaç boyutta ele almak gerekir. Bu konuda uzman bir hocam var ona danışabilirim. Neyse bu pattern üzerinden gidip, çevirmek istediğimiz sese bir şekilde implement edebiliriz diye düşünüyorum. Belki ses dalgalarıyla bu iş olmaz çünkü orada sadece değişen tek bir değer var, ama seste bir kaç parametre olduğunu düşünüyorum. Belki kolay olan kişinin konuştuğu harfleri çıkarmak ve sonra diğer kişinin konuşmasını metine çevirerek google translate mantığı ile konuşturmak..
Ama benim düşündüğüm ilk şey, bir kişinin ses patternini oluşturup başka bir sesi implement etmek. Bilmiyorum demek istediğimi anlatabildim mi, nedense karışık geldi yazdıklarım bana
Aradığın şey DTW veya dynamic time warping diye bakarsan senin istediğin çıkar. Söylenen kelime ve harflerin patternleri aynı sadece belli noktada ki genlikleri ve yükseklikleri farklı DTW ile bunu tespit edebilir veya değiştirebilirsin. Machine learning kısmından kastım sistem neyi öğrenecek? Burada örnekleme ve adepte olma var ama öğrenmeyi anlamadım :S
-
-
Dillerin tanımı gereği çok fazla düzensizlik içerdikleri için pattern bulmakta zorlayabilir. Çünkü vurguları yakalamak için makinanın sesli-sessiz harf kombinasyonlarını öğrenmesi yani hecelemeyi bilmesi gerekecek. Birde önceki projen gibi kütüphane hazır değilse olay yazılımdan öte matematik projesine dönüşür. Matematikçilerin dillerde ki desenlere dair çalışmalarını hatırlıyorum, internette olması lazım. Tek bir dili konuşan tek bir kişi için kısıtlanırsa proje, matematik bilgine de güveniyorsan yapılır.
-
ozgunlu bunu yazdıunbalanced bunu yazdı
@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..
Hocam duyguyu nasıl vereceksin ki, yani tamam standart sesini taklit edebilirsin belki ama bu google translate' deki okuttuğun adamlar gibi olur anca.
Benim birebirden kastım, işin içine duygular ruhsal durumlar girdiğindeki ses tonundaki değişimleri nasıl uygulayacağındı. Sadece sample' lar alarak bunu ne kadar gerçekleştirebilirsin bir fikrim yok gerçi.
Neyse köstek olmamak lazım, bişeyler bulursam atarım buraya :)
%100 lük bir benzetim olamaz zaten. Ancak %10 luk ta olsa benzetim yapsa kafî.
Yalnız sıkıntı şu ki danışman hocası ses örneklemedeki kapmamı arttırsa işin içinden çıkılması zor bir teze dönüşebilir. Danışman hocanın dediğini yapmazsa, yani hocayı tatmin edemezse zaten ya tezi vermezler ya da mezun olamaz.
O yüzden daha iyi bilinen bir alanda tez yapılması daha mantıklı gibi.
-
KrypT bunu yazdı
adamlar geliştirmiş baya şeyler.. ee microsoft bu.. vazgeçtim bu konudan :) baya sıkıntılı olacak gibi görünüyor bakıldığında, 6 ayda yetişecek bir iş de değil zaten.
-
Şu robot gibi konuşma olayı alışabilir mi acaba ?
Tonlama vs cümlenin akışına göre...Bir gün yapılabilir mi merak ediyorum -
Hocam fikir çok güzel de, sesin birçok ögesi var. Önemli olan her harfin, hecenin, sesin sadece kişiden kişiye değişen niteliğini bulabilmek.
Bunu machine learningle nasıl yapabilirsin? Mesela "A" dersin kaydedersin, Kenan Işık'ın A dediği sesi alırsın; Adobe audition gibi programlarda mesela dalgalayı görebiliyorsun; iki dalgayı üst üste koyarsın neler farklı diye bakarsın. (daha doğrusu yazılımla baktırırsın, dalgaları kıyaslarsın, sonuçta onlar da matematiksel olarak ifade edilebilen eğriler). Bunu harfler ve heceler için yaptın diyelim ki yapabilmen için harften harfe hangi parametrelerin değiştiğini de hesaba katman lazım.
Bunu başardığında bir ses elde edeceksin ama belki de bu sadece teoride Kenan Işık'ın sesi olacak çünkü adamın heceleri birleştirmesi, harfleri yan yana koyuşu, aradaki nefesler bile farklı ki oluşan ses google translate gibi olur muhtemelen. Bu elde ettiğin sesi gerçekten Kenan Işık'ınki gibi yapmak oldukça zor olsa gerek çünkü öyle olmasaydı Google Translate, Siri gibi uygulamalar robot gibi değil senin benim gibi konuşurdu heralde. Burda tabi ki kimse yapamamış sen mi yapacaksın gibi bi mantıktan bahsetmiyorum ancak onlarca yazılımcının belki de yıllardır çalıştığı ve tamamen bu konuya odaklanılmış uygulamalar da bile mutlak bir başarı elde edilememişken bunu tek başına veya 3-4 kişilik bir grupla ve 6 ay gibi bir sürede yapmak oldukça zor olacaktır.
Zaman ve kişi sınırlamasını da bir kenara bıraktığımızda yoğun bir dil bilimi ve matematik bilgisi gerektireceği kesin bir konu.
Uzun lafın kısası konu çok güzel ama uğraşmaya değmez bence hocam :)