Character N-gram and Neural Network Application for New Topic Identification in Search Engines
Journal Name:
- Uludağ Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
Keywords (Original Language):
Author Name | University of Author | Faculty of Author |
---|---|---|
Abstract (2. Language):
Nowadays, the estimate of web users’ behaviors has been important due to the web search engine
usage increase. To date, many content-ignorant studies have been performed for automatic new topic identification.
Although, some studies performed well, it was observed that they often made mistakes when queries had
spelling differences. In this study the character n-gram methodology, which is content ignorant, was used for
new topic identification. In addition, it was aimed to improve previous content-ignorant studies. Consideration of
previous studies it was observed that the neural network applications gave better results than the other studies.
Thus, the neural network method’s estimations were used in this study and character n-gram methodology was
used in order to eliminate wrong estimations, because of spelling errors.
Bookmark/Search this post with
Abstract (Original Language):
Günümüzde, arama motorlarının kullanımının artmasıyla beraber kullanıcı davranışlarının tahmini önem
kazanmıştır. Bugüne kadar anlam bazlı olmayan pek çok yöntem yeni konu tanılamada kullanılmıştır. Bazı çalışmalardan
iyi sonuçlar elde edilmesine rağmen, genelde çalışmaların yazım farklılığı içeren sorgularda hatalı
tahminler yaptığı gözlenmiştir. Bu çalışmada, anlam bazlı olmayan, karakter n-gram yöntemi, yeni konu tanılamada
kullanılmıştır. Bununla beraber karakter n-gram yöntemiyle önceki anlam bazlı olmayan çalışmaları iyileştirmek
hedeflenmiştir. Önceki çalışmalar incelendiğinde yapay sinir ağları yönteminin diğerlerinden daha iyi
sonuçlar verdiği gözlenmiştir. Bu yüzden, çalışmada yapay sinir ağları yönteminin tahminleri kullanılmış ve
yazım yanlışlarından kaynaklanan hatalı tahminlerin giderilmesi için karakter n-gram yöntemi kullanılmıştır.
FULL TEXT (PDF):
- 2
75-91