The vulnerability of mobile textdependent
single utterance speaker
verification to replay attacks
Journal Name:
- Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi
Key Words:
Keywords (Original Language):
Author Name | University of Author |
---|---|
Abstract (2. Language):
Adapting different technologies for mobile platforms
have become an important industry due to the vast
use of mobile applications. With the significant
increase in mobile applications, the security issues
have also become a major concern for the mobile
users. The aim of speaker recognition is to recognize
the identity of the speaker from his/her voice. Thus,
it provides a good alternative for mobile security.
Speaker recognition technology can be used to
increase the overall security of the applications
requiring high security. It can also add extra
security to an application by verifying the user with
the voice in addition to a typed password.
Speaker verification applications might be divided
into two categories; text-dependent and textindependent.
In text-dependent applications,
vocabulary is usually constrained to digit strings or
pre-defined pass phrases. In text-independent
applications, there is no such constraint and system
tries to verify the identity of the speaker from his/her
natural speech. In text-dependent single utterance
(TDSU) speaker verification, speakers repeat a fixed
pass phrase in both enrollment and authentication
sessions. The repetition of a single utterance
improves the overall recognition accuracy of the
system since the authentication utterance is included
in the enrollment as a whole. Repetition of the same
utterance also makes the usage easier. However,
TDSU applications become vulnerable to replay
attacks due to the same reason. A pre-record of the
pass phrase might be used to spoof the system. In
this study, we evaluate the robustness of mobile
TDSU applications to replay attacks.
In order to test the robustness of mobile TDSU
applications to replay attacks, we construct a new
speaker recognition database. We choose the
Turkish utterance “benim parolam ses kaydımdır
(my voice is my password)” as the pass phrase in
the TDSU task since it contains 5 of the 8 vowels in
the Turkish language. The database consists of 124
speakers. 62 of the speakers are female and 62 are
male. The recordings are taken in 2 separate
sessions using 2 different smart phones. Using the
database, a realistic simulation of the replay attacks
is performed by playing the recordings from one
phone and recording to the other. The replay
recordings are used as imposter trials in the
verification tests.
Until recently, Gaussian mixture models (GMMs)
have been the dominant modeling approach for text
independent speaker verification. In GMM, each
speaker is modeled with a mixture of Gaussians.
Generally, speaker models are adapted from a
speaker independent universal background model
(UBM). Maximum a posterior (MAP) method is
usually used for the adaptation. In text dependent
applications, hidden Markov model (HMM) based
approaches are used since they better capture the
co-articulation information. In a TDSU task, a
single whole phrase HMM might be constructed for
the pass phrase. The sentence HMM topology might
be preferred over the phone HMM in order to better
model the co-articulation and improve the
verification performance. Recently, very powerful
channel compensation techniques such as joint
factor analysis (JFA), i-vector and ivector/
probabilistic linear discriminant analysis (ivector/
PLDA) are proposed. The methods achieved
very good verification performance especially for
text independent tasks. The performance gain of the
methods for the text-dependent tasks is still
investigated.
In this study, we implement GMM, sentence HMM
and i-vector/PLDA methods for the TDSU speaker
verification task. The methods are tested against the
replay spoofing attacks. The baseline equal error
rate (EER) of the three methods with zero-effort
imposter trials are about 0.5-1%. The best
performance is achieved with the sentence HMM
method in the baseline case. The verification
performance of all three methods significantly
decreases when zero-effort imposter trials are
replaced with the replay spoofing attacks. The equal
error rate increase to 10-25% from 0.5-1% with the
replay trials. i-vector/PLDA results in the best
performance in the spoofing experiment.
Bookmark/Search this post with
Abstract (Original Language):
Son yıllarda akıllı telefon gibi mobil araçların kullanımındaki hızlı artış farklı teknolojileri bu platformlar
için gerçekleştirmeyi önemli bir sektör haline getirmiştir. Mobil uygulama sayısındaki bu artış bu
uygulamalardaki güvenlik meselesini de ön plana çıkarmıştır. Konuşmacının sesinden kimliğinin otomatik
olarak belirlenmesini sağlayan konuşmacı tanıma teknolojisi kişisel bilgi güvenliği gerektiren mobil
uygulamalarda güvenlik açığını gidermek için kullanılabilir.
Metne bağımlı tek cümle konuşmacı tanıma uygulamasında konuşmacılar eğitim ve tanıma sırasında ortak
parola cümlesini tekrar ederler. Eğitim ve tanımada aynı metnin tekrarlaması tanıma performansını
arttırdığı gibi kullanım kolaylığı da sağlamaktadır. Bununla birlikte tek cümle uygulamaları özellikle
kayıttan sahte doğrulama ataklarına karşı son derece savunmasızdır. Bu çalışmada metne bağımlı tek cümle
uygulamasının kayıttan sahte doğrulama ataklarına karşı dayanıklılığı test edilmiştir.
Bu çalışmada mobil araçlar için geliştirilecek tek cümle uygulamasının kayıttan sahte doğrulama ataklarına
karşı dayanıklılığını test edebilmek için yeni bir konuşmacı tanıma veri tabanı oluşturulmuştur. Bu veri
tabanında 124 konuşmacı (62 bayan + 62 bay) 2 ayrı oturumda belirlenen parola cümlesini tekrar etmiştir.
Kayıtlar 2 farklı akıllı telefon kullanılarak alınmıştır. Bu veri tabanı ile kayıttan sahte doğrulama saldırıları
simüle edilmiştir.
Gauss karışım modeli (Gaussian mixture models - GKM) metinden bağımsız uygulamalarda en sık kullanılan
yöntemlerdendir. Saklı Markov model (hidden Markov model - SMM) tabanlı yöntemler ise metne bağımlı
uygulamalarda artikülasyon bilgisinden daha iyi faydalandıkları için tercih edilmektedir. Son dönemlerde
kanal uyuşmazlığı problemini gidermek için i-vektör/PLDA yöntemi önerilmiş ve özellikle metinden bağımsız
uygulamalarda son derece başarılı sonuçlar vermiştir.
Bu çalışmada GKM, cümle SMM ve i-vektör/PLDA yöntemleri mobil metne bağımlı tek cümle
uygulamasında kayıttan sahte doğrulama ataklarına karşı test edilmiştir. Deneylerde tüm yöntemlerin sahte
doğrulama saldırılarından önemli ölçüde etkilendiği gözlenmiştir. Yaptığımız testlerde eşit hata oranları
normal sahte doğrulama denemelerinde %0.5-1 aralığındayken, kayıttan sahte doğrulama denemeleriyle
%10-25 aralığına yükselmiştir.
FULL TEXT (PDF):
- 1