Machine Learning Kullanarak Ses Değiştirme (Tez Konusu)

10/Haz/15 15:24

Kısayol

Şikayet

Özel Mesaj

unbalanced

Kayıt Tarihi: 14/Haziran/2006

https://play.google.com/store/apps/details?id=com.coolapps.changemyvoice

android mi kullanıyorsun bilmiyorum ama böyle bir şey var..

denemedim ama

Ülkesini Seven Her Türk Vatandasi, Ülkesinin Sessiz Istilasi'na karsi durmak zorunda.

Alıntı yap

10/Haz/15 15:28

Kısayol

Şikayet

Özel Mesaj

YeniHarman

Kayıt Tarihi: 17/Haziran/2012

Koşarak uzaklaş hocam:)

Olaylara karışmayın!

Alıntı yap

10/Haz/15 15:30

Kısayol

Şikayet

Özel Mesaj

unbalanced

Kayıt Tarihi: 14/Haziran/2006

konuya mesaj yazdığını görünce dedim kesin olumsuz bir şey yazmıştır :) ve tahminimde yanılmadım :D

Ülkesini Seven Her Türk Vatandasi, Ülkesinin Sessiz Istilasi'na karsi durmak zorunda.

Alıntı yap

10/Haz/15 15:44

Kısayol

Şikayet

Özel Mesaj

All hail to Tux
sandman

Kayıt Tarihi: 01/Eylül/2005

unbalanced bunu yazdı

@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..

@sandman, şimdi hocam demek istediğim şöyle, elimizde kenan ışık'ın binlerce konuşmasını içeren ses dosyaları var, bunları kullanarak kenan ışık için belirli bir pattern oluşturulabilir, ses analizinde uzmanlığım yok ama bana göre seslerin de kişiye göre özellikleri vardır. Yani bir ses dalgasını bir kaç boyutta ele almak gerekir. Bu konuda uzman bir hocam var ona danışabilirim. Neyse bu pattern üzerinden gidip, çevirmek istediğimiz sese bir şekilde implement edebiliriz diye düşünüyorum. Belki ses dalgalarıyla bu iş olmaz çünkü orada sadece değişen tek bir değer var, ama seste bir kaç parametre olduğunu düşünüyorum. Belki kolay olan kişinin konuştuğu harfleri çıkarmak ve sonra diğer kişinin konuşmasını metine çevirerek google translate mantığı ile konuşturmak..

Ama benim düşündüğüm ilk şey, bir kişinin ses patternini oluşturup başka bir sesi implement etmek. Bilmiyorum demek istediğimi anlatabildim mi, nedense karışık geldi yazdıklarım bana

Aradığın şey DTW veya dynamic time warping diye bakarsan senin istediğin çıkar. Söylenen kelime ve harflerin patternleri aynı sadece belli noktada ki genlikleri ve yükseklikleri farklı DTW ile bunu tespit edebilir veya değiştirebilirsin. Machine learning kısmından kastım sistem neyi öğrenecek? Burada örnekleme ve adepte olma var ama öğrenmeyi anlamadım :S

Mühendis kahveyi projeye dönüştüren bir insan evladıdır.

Alıntı yap

10/Haz/15 15:50

Kısayol

Şikayet

Özel Mesaj

Böcüklerin Efendisi
krypt

Kayıt Tarihi: 05/Mart/2004

http://research.microsoft.com/en-us/projects/vcnn/

while (1<2)

Alıntı yap

10/Haz/15 15:52

Kısayol

Şikayet

Özel Mesaj

kvasir

Kayıt Tarihi: 24/Ağustos/2005

Dillerin tanımı gereği çok fazla düzensizlik içerdikleri için pattern bulmakta zorlayabilir. Çünkü vurguları yakalamak için makinanın sesli-sessiz harf kombinasyonlarını öğrenmesi yani hecelemeyi bilmesi gerekecek. Birde önceki projen gibi kütüphane hazır değilse olay yazılımdan öte matematik projesine dönüşür. Matematikçilerin dillerde ki desenlere dair çalışmalarını hatırlıyorum, internette olması lazım. Tek bir dili konuşan tek bir kişi için kısıtlanırsa proje, matematik bilgine de güveniyorsan yapılır.

Alıntı yap

10/Haz/15 15:53

Kısayol

Şikayet

Özel Mesaj

DrKill

Kayıt Tarihi: 10/Mart/2004

ozgunlu bunu yazdı

unbalanced bunu yazdı

@ozgunlu, kolay değildir hocam zaten, ar-ge çalışması gerekiyor bunun üzerinde ama yapılması imkansız değil..

Hocam duyguyu nasıl vereceksin ki, yani tamam standart sesini taklit edebilirsin belki ama bu google translate' deki okuttuğun adamlar gibi olur anca.

Benim birebirden kastım, işin içine duygular ruhsal durumlar girdiğindeki ses tonundaki değişimleri nasıl uygulayacağındı. Sadece sample' lar alarak bunu ne kadar gerçekleştirebilirsin bir fikrim yok gerçi.

Neyse köstek olmamak lazım, bişeyler bulursam atarım buraya :)

%100 lük bir benzetim olamaz zaten. Ancak %10 luk ta olsa benzetim yapsa kafî.

Yalnız sıkıntı şu ki danışman hocası ses örneklemedeki kapmamı arttırsa işin içinden çıkılması zor bir teze dönüşebilir. Danışman hocanın dediğini yapmazsa, yani hocayı tatmin edemezse zaten ya tezi vermezler ya da mezun olamaz.

O yüzden daha iyi bilinen bir alanda tez yapılması daha mantıklı gibi.

Bu imzayı her gördüğünüzde 4gb kotanızın 0,00000358559191226959228515625 azalmaktadır. Bilerek ve istenerek bu imza yapılmıştır. Amaç kotanızı sömürmektir

Alıntı yap

10/Haz/15 16:04

Kısayol

Şikayet

Özel Mesaj

unbalanced

Kayıt Tarihi: 14/Haziran/2006

KrypT bunu yazdı

http://research.microsoft.com/en-us/projects/vcnn/

adamlar geliştirmiş baya şeyler.. ee microsoft bu.. vazgeçtim bu konudan :) baya sıkıntılı olacak gibi görünüyor bakıldığında, 6 ayda yetişecek bir iş de değil zaten.

Ülkesini Seven Her Türk Vatandasi, Ülkesinin Sessiz Istilasi'na karsi durmak zorunda.

Alıntı yap

10/Haz/15 17:11

Kısayol

Şikayet

Özel Mesaj

slim_38

Kayıt Tarihi: 21/Ekim/2012

Şu robot gibi konuşma olayı alışabilir mi acaba ?
Tonlama vs cümlenin akışına göre...Bir gün yapılabilir mi merak ediyorum

Münferidin münasıbı mükafatından mütefekkir olandır

Alıntı yap

10/Haz/15 17:47

Kısayol

Şikayet

Özel Mesaj

nickalti
Lightsaber

Kayıt Tarihi: 29/Ağustos/2012

Hocam fikir çok güzel de, sesin birçok ögesi var. Önemli olan her harfin, hecenin, sesin sadece kişiden kişiye değişen niteliğini bulabilmek.

Bunu machine learningle nasıl yapabilirsin? Mesela "A" dersin kaydedersin, Kenan Işık'ın A dediği sesi alırsın; Adobe audition gibi programlarda mesela dalgalayı görebiliyorsun; iki dalgayı üst üste koyarsın neler farklı diye bakarsın. (daha doğrusu yazılımla baktırırsın, dalgaları kıyaslarsın, sonuçta onlar da matematiksel olarak ifade edilebilen eğriler). Bunu harfler ve heceler için yaptın diyelim ki yapabilmen için harften harfe hangi parametrelerin değiştiğini de hesaba katman lazım.

Bunu başardığında bir ses elde edeceksin ama belki de bu sadece teoride Kenan Işık'ın sesi olacak çünkü adamın heceleri birleştirmesi, harfleri yan yana koyuşu, aradaki nefesler bile farklı ki oluşan ses google translate gibi olur muhtemelen. Bu elde ettiğin sesi gerçekten Kenan Işık'ınki gibi yapmak oldukça zor olsa gerek çünkü öyle olmasaydı Google Translate, Siri gibi uygulamalar robot gibi değil senin benim gibi konuşurdu heralde. Burda tabi ki kimse yapamamış sen mi yapacaksın gibi bi mantıktan bahsetmiyorum ancak onlarca yazılımcının belki de yıllardır çalıştığı ve tamamen bu konuya odaklanılmış uygulamalar da bile mutlak bir başarı elde edilememişken bunu tek başına veya 3-4 kişilik bir grupla ve 6 ay gibi bir sürede yapmak oldukça zor olacaktır.

Zaman ve kişi sınırlamasını da bir kenara bıraktığımızda yoğun bir dil bilimi ve matematik bilgisi gerektireceği kesin bir konu.

Uzun lafın kısası konu çok güzel ama uğraşmaya değmez bence hocam :)

İnsan; insan olsaydı,insan olmazdı..

Alıntı yap