

Machine Learning Kullanarak Ses Değiştirme (Tez Konusu)
-
Selamlar,
Beyaz showdaki o helyum muhabbetine denk geldim ve aklıma bu fikir geldi. Şimdi mesela Kenan Işık'ın ses örnekleri var elinizde, bunu machine learning kullanarak bilgisayara öğretip bir sample yaratsak sonra her hangi bir kişinin sesini bu sample a benzetsek nasıl olur? Teorik olarak mümkündür diye düşünüyorum, çünkü sesi rahatlıkla değiştiriyorlar ama birinin sesini taklit etme olayını bilmiyorum.
Diyorum ki yüksek lisans tez konusunu bu alanda mı seçsem :) Ama işin ucunda tamamlayamamak ve kalmak da var :) Ama yapabilirsem baya güzel bir şey olmuş olur.
Bu konuda özellikle teknik anlamda fikirlerinizi bekliyorum
-
Aynı sıkıntıdan müzdaribim hocam. Klasik öğrenci olarak kolay, işe yarar, kesin geçeceğim, kaliteli bir tez konusu arıyorum :D
Söylediğini düşündüm açıkçası mantıklı. Yalnız işin içine Signals & Systems girer ki (teorisi anlatırken en azından) o dersi 3 senede veremedim ve korkulu rüyamdır kendisi :D
Senin temelin elektronikti sanırım o yüzden yapabilirsin gibi geldi.
Yalnız machine learning ile öğreteceğin verinin kapsamına göre zorluğu değişebilir. Tez danışmanının senden isteği neyse o kadar zor veya kolay olur gibi.
-
hiç araştırmadım ama bunla ilgili çalışmalar vardır, bu biraz daha phd çalışması gibi bir şey. bizim tez süremiz min 5 ay, max 6 ay ve ben aynı zamanda çalışıyorum o yüzden süre konusunda sıkıntı olur gibi.. Ama yapılmayacak bir şey değil tabi.. hatta android açık kaynak bildiğin gibi, oraya bu ses değiştirme olayı implement edilip bir şeyler bile yapılabilir, ya da telefonun şarj soketine bir cihaz yapılıp bu cihaz ile ses değişimi de yapılabilir (işin içine elektronik giriyor), güzel iş güzel bir ar-ge konusu ama çok sıkıntılı gibi duruyor. Şimdi böyle bir şey önerip de risk de almak istemiyorum. benim bu alanda öyle çok da büyük tecrübem falan da yok. Hatta dersteki projede bile machine learning kodlarını biz yazmadık, var olanı kullandık ama sampleları biz kendimiz oluşturduk
-
Ses taklit olayının çok mümkün olduğunu sanmıyorum, bir ara okumuştum bununla ilgili şeyler de hatırlamıyorum. Dökümanları bulursam paylaşırım, sadece pek mümkün olmadığını biliyorum, sanıldığı kadar kolay değil birinin sesini birebir yapmak.
ozgunlu tarafından 10/Haz/15 13:21 tarihinde düzenlenmiştir -
Machine learning kısmını anlamadım daha çok adaptive system ve DP arası bir şey olmuş?
-
@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..
@sandman, şimdi hocam demek istediğim şöyle, elimizde kenan ışık'ın binlerce konuşmasını içeren ses dosyaları var, bunları kullanarak kenan ışık için belirli bir pattern oluşturulabilir, ses analizinde uzmanlığım yok ama bana göre seslerin de kişiye göre özellikleri vardır. Yani bir ses dalgasını bir kaç boyutta ele almak gerekir. Bu konuda uzman bir hocam var ona danışabilirim. Neyse bu pattern üzerinden gidip, çevirmek istediğimiz sese bir şekilde implement edebiliriz diye düşünüyorum. Belki ses dalgalarıyla bu iş olmaz çünkü orada sadece değişen tek bir değer var, ama seste bir kaç parametre olduğunu düşünüyorum. Belki kolay olan kişinin konuştuğu harfleri çıkarmak ve sonra diğer kişinin konuşmasını metine çevirerek google translate mantığı ile konuşturmak..
Ama benim düşündüğüm ilk şey, bir kişinin ses patternini oluşturup başka bir sesi implement etmek. Bilmiyorum demek istediğimi anlatabildim mi, nedense karışık geldi yazdıklarım bana
-
şuanki teknolojide bunu yapabilmek için kişiye binlerce ses kaydı, kelime kaydı, cümle kaydı yaptırmak lazım..
Ve bunları değişik hal ve ruhiyet için de tekrarlamak lazım.
Kısaca söylenebilecek herşeyi söyletip ondan sonra hikaye anlattırılabilir... -
unbalanced bunu yazdı
@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..
Hocam duyguyu nasıl vereceksin ki, yani tamam standart sesini taklit edebilirsin belki ama bu google translate' deki okuttuğun adamlar gibi olur anca.
Benim birebirden kastım, işin içine duygular ruhsal durumlar girdiğindeki ses tonundaki değişimleri nasıl uygulayacağındı. Sadece sample' lar alarak bunu ne kadar gerçekleştirebilirsin bir fikrim yok gerçi.
Neyse köstek olmamak lazım, bişeyler bulursam atarım buraya :)
-
mesela bizim yaptığımız machine learning testleri 0-9 arası rakamları tespit etmek içindi. Elimizde 10 bin tane test resmi vardı her bir rakam için ve 60 bin tane de traning için resim vardı her rakam için yine. Tüm pixelleri alarak yaptığımız test de başarı oranı %84 civarında çıktı. Sonra kendi algoritmamızı oluşturduk dikey ve yatay historgram ile bir algoritma çıkardık ama feature sayısı düştü, daha önce 784 dü ama bizim algoritma ile 57 ye düştü.. bu da sonucu baya etkiledi be %50 civarı bir şey çıktı (burada biraz bahsettim http://www.tahribat.com/Forum/Artificial_Neural_Networks_Kullanarak_Karakte-206276/2#msg2576090 )
ses için bu olay daha zor çünkü biz 10 tane rakam için bu kadar veriyle çok başarılı olamadıysak sesde işimiz daha zor gibi görünüyor
-
ozgunlu bunu yazdıunbalanced bunu yazdı
@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..
Hocam duyguyu nasıl vereceksin ki, yani tamam standart sesini taklit edebilirsin belki ama bu google translate' deki okuttuğun adamlar gibi olur anca.
Benim birebirden kastım, işin içine duygular ruhsal durumlar girdiğindeki ses tonundaki değişimleri nasıl uygulayacağındı. Sadece sample' lar alarak bunu ne kadar gerçekleştirebilirsin bir fikrim yok gerçi.
Neyse köstek olmamak lazım, bişeyler bulursam atarım buraya :)
haklısın hocam, zaten üstteki mesajın birinde dedim ki sesde birden fazla parametre var ama bunları nasıl alabilririm fikrim yok. yani aynı dalgayı oluşturan şey aynı sesi vereceğini düşünmüyorum. Bunun arkaplanında farklı şeyler de olması lazım ama ses analizinde çok bilgim yok o yüzden detaylı düşünemiyorum
-
O değil de piyasada sesi bayan sesi erkek sesi yapan programlar var mıydı?