You are here

Mobil Metne Bağımlı Tek Cümle Konuşmacı Tanıma Uygulamasında Kayıttan Sahte Doğrulama

The vulnerability of mobile textdependent single utterance speaker verification to replay attacks

Journal Name:

Publication Year:

Author NameUniversity of Author
Abstract (2. Language): 
Adapting different technologies for mobile platforms have become an important industry due to the vast use of mobile applications. With the significant increase in mobile applications, the security issues have also become a major concern for the mobile users. The aim of speaker recognition is to recognize the identity of the speaker from his/her voice. Thus, it provides a good alternative for mobile security. Speaker recognition technology can be used to increase the overall security of the applications requiring high security. It can also add extra security to an application by verifying the user with the voice in addition to a typed password. Speaker verification applications might be divided into two categories; text-dependent and textindependent. In text-dependent applications, vocabulary is usually constrained to digit strings or pre-defined pass phrases. In text-independent applications, there is no such constraint and system tries to verify the identity of the speaker from his/her natural speech. In text-dependent single utterance (TDSU) speaker verification, speakers repeat a fixed pass phrase in both enrollment and authentication sessions. The repetition of a single utterance improves the overall recognition accuracy of the system since the authentication utterance is included in the enrollment as a whole. Repetition of the same utterance also makes the usage easier. However, TDSU applications become vulnerable to replay attacks due to the same reason. A pre-record of the pass phrase might be used to spoof the system. In this study, we evaluate the robustness of mobile TDSU applications to replay attacks. In order to test the robustness of mobile TDSU applications to replay attacks, we construct a new speaker recognition database. We choose the Turkish utterance “benim parolam ses kaydımdır (my voice is my password)” as the pass phrase in the TDSU task since it contains 5 of the 8 vowels in the Turkish language. The database consists of 124 speakers. 62 of the speakers are female and 62 are male. The recordings are taken in 2 separate sessions using 2 different smart phones. Using the database, a realistic simulation of the replay attacks is performed by playing the recordings from one phone and recording to the other. The replay recordings are used as imposter trials in the verification tests. Until recently, Gaussian mixture models (GMMs) have been the dominant modeling approach for text independent speaker verification. In GMM, each speaker is modeled with a mixture of Gaussians. Generally, speaker models are adapted from a speaker independent universal background model (UBM). Maximum a posterior (MAP) method is usually used for the adaptation. In text dependent applications, hidden Markov model (HMM) based approaches are used since they better capture the co-articulation information. In a TDSU task, a single whole phrase HMM might be constructed for the pass phrase. The sentence HMM topology might be preferred over the phone HMM in order to better model the co-articulation and improve the verification performance. Recently, very powerful channel compensation techniques such as joint factor analysis (JFA), i-vector and ivector/ probabilistic linear discriminant analysis (ivector/ PLDA) are proposed. The methods achieved very good verification performance especially for text independent tasks. The performance gain of the methods for the text-dependent tasks is still investigated. In this study, we implement GMM, sentence HMM and i-vector/PLDA methods for the TDSU speaker verification task. The methods are tested against the replay spoofing attacks. The baseline equal error rate (EER) of the three methods with zero-effort imposter trials are about 0.5-1%. The best performance is achieved with the sentence HMM method in the baseline case. The verification performance of all three methods significantly decreases when zero-effort imposter trials are replaced with the replay spoofing attacks. The equal error rate increase to 10-25% from 0.5-1% with the replay trials. i-vector/PLDA results in the best performance in the spoofing experiment.
Abstract (Original Language): 
Son yıllarda akıllı telefon gibi mobil araçların kullanımındaki hızlı artış farklı teknolojileri bu platformlar için gerçekleştirmeyi önemli bir sektör haline getirmiştir. Mobil uygulama sayısındaki bu artış bu uygulamalardaki güvenlik meselesini de ön plana çıkarmıştır. Konuşmacının sesinden kimliğinin otomatik olarak belirlenmesini sağlayan konuşmacı tanıma teknolojisi kişisel bilgi güvenliği gerektiren mobil uygulamalarda güvenlik açığını gidermek için kullanılabilir. Metne bağımlı tek cümle konuşmacı tanıma uygulamasında konuşmacılar eğitim ve tanıma sırasında ortak parola cümlesini tekrar ederler. Eğitim ve tanımada aynı metnin tekrarlaması tanıma performansını arttırdığı gibi kullanım kolaylığı da sağlamaktadır. Bununla birlikte tek cümle uygulamaları özellikle kayıttan sahte doğrulama ataklarına karşı son derece savunmasızdır. Bu çalışmada metne bağımlı tek cümle uygulamasının kayıttan sahte doğrulama ataklarına karşı dayanıklılığı test edilmiştir. Bu çalışmada mobil araçlar için geliştirilecek tek cümle uygulamasının kayıttan sahte doğrulama ataklarına karşı dayanıklılığını test edebilmek için yeni bir konuşmacı tanıma veri tabanı oluşturulmuştur. Bu veri tabanında 124 konuşmacı (62 bayan + 62 bay) 2 ayrı oturumda belirlenen parola cümlesini tekrar etmiştir. Kayıtlar 2 farklı akıllı telefon kullanılarak alınmıştır. Bu veri tabanı ile kayıttan sahte doğrulama saldırıları simüle edilmiştir. Gauss karışım modeli (Gaussian mixture models - GKM) metinden bağımsız uygulamalarda en sık kullanılan yöntemlerdendir. Saklı Markov model (hidden Markov model - SMM) tabanlı yöntemler ise metne bağımlı uygulamalarda artikülasyon bilgisinden daha iyi faydalandıkları için tercih edilmektedir. Son dönemlerde kanal uyuşmazlığı problemini gidermek için i-vektör/PLDA yöntemi önerilmiş ve özellikle metinden bağımsız uygulamalarda son derece başarılı sonuçlar vermiştir. Bu çalışmada GKM, cümle SMM ve i-vektör/PLDA yöntemleri mobil metne bağımlı tek cümle uygulamasında kayıttan sahte doğrulama ataklarına karşı test edilmiştir. Deneylerde tüm yöntemlerin sahte doğrulama saldırılarından önemli ölçüde etkilendiği gözlenmiştir. Yaptığımız testlerde eşit hata oranları normal sahte doğrulama denemelerinde %0.5-1 aralığındayken, kayıttan sahte doğrulama denemeleriyle %10-25 aralığına yükselmiştir.
77
88