THE EFFECTS OF FILTER FREQUENCY SCALE VARIABILITY ON SPEAKER IDENTIFICATION PERFORMANCE
Journal Name:
- Sigma Mühendislik ve Fen Bilimleri Dergisi
Key Words:
Keywords (Original Language):
Author Name | University of Author | Faculty of Author |
---|---|---|
Abstract (2. Language):
Extracting discriminatory feature vectors that contain speaker specific information is of crucial importance in
speaker identification. Although the cepstrum coefficients on the Mel frequency scale are commonly used as
feature vectors, it is demonstrated in this paper that linear and ERB frequency scales provide better results
compared to the Mel scale. In the paper, ERB, Bark and linear scales are compared with Mel scale on the
TIMIT and NTIMIT databases. On the TIMIT database, an identification rate of 100% is obtained with the
linear frequency scale when the filter-bank is placed in 0-8 KHz range, and a rate of 98.81% is obtained with
the ERB scale using 0-4 KHz filter-bank frequency range. On the NIMIT database, 73.51% identification rate
is achieved with linear scale, resulting in 2.97% improvement over that of the Mel scale.
Bookmark/Search this post with
Abstract (Original Language):
Kişileri birbirinden ayırt edici özellikleri taşıyan öznitelik vektörlerinin elde edilmesi, konuşmacı tanımanın
en önemli kısmıdır. Öznitelik vektörü olarak her ne kadar Mel frekans ölçeğindeki kepstrum katsayıları
yaygın olarak kullanılsa da, bu makalede görüleceği üzere doğrusal ve ERB frekans ölçekleri kullanılarak Mel
ölçeğe kıyasla daha iyi sonuçlar elde edilmiştir. Bu makalede, TIMIT ve NTIMIT veritabanları için, Mel
ölçeği ile ERB, Bark ve doğrusal ölçek karşılaştırılmıştır. TIMIT veritabanında süzgeç dizilerinin
yerleştirildiği frekans bandı 0-8 kHz için doğrusal ölçekle %100, 0-4 kHz frekans bandı için ERB ölçekle
%98.81 konuşmacı tanıma oranı elde edilmiştir. NTIMIT veritabanında doğrusal ölçekle %73.51 konuşmacı
tanıma oranı elde edilip Mel ölçeğe kıyasla %2.97 tanıma artışı sağlanmıştır.
FULL TEXT (PDF):
- 3
197-207