PREDICTIVE MODEL SELECTION IN LINEAR REGRESSION BY GENETIC ALGORITHMS
Journal Name:
- Pamukkale Üniversitesi Sosyal Bilimler Enstitüsü Dergisi
Key Words:
Keywords (Original Language):
Author Name | University of Author | Faculty of Author |
---|---|---|
Abstract (2. Language):
A procedure based on a heuristic approach called Genetic Algorithms (GA) is proposed for selecting regression models constructed by different size of independent variables. Instead of binary representation, the chromosomes are encoded as user-defined size (p) of integer arrays which represent variable subsets. The GA uses an evaluation function which consists of an average fitness (residual mean square error) of the regression model (chromosome) fitted in to 20 bootstrap samples in order to rank the chromosomes. GA runs for different size of variable subset in order to minimize the fitness function. The subsets determined by GA are finally evaluated by leave-one-out-cross-validation in order to decide the best variable subset. The proposed GA is applied to Communities and Crime dataset taken from UCI dataset repository. The GA is used to select different number of variables and the variable subset containing 30 variables (p=30) is found as the best variable subset based on leave-one-out-cross-validation score. The proposed procedure was compared with available feature selection methods and showed better performance.
Bookmark/Search this post with
Abstract (Original Language):
Farklı sayıda değişken içeren regresyon modellerinden seçim yapmak için Genetik Algoritmalar (GA) olarak adlandırılan sezgisel yaklaşıma dayanan bir prosedür önerilmektedir. GA’nın kromozomları ikili sayısı dizi yerine, uzunluğu (p) kullanıcı tarafından belirlenen ve değişken setlerini temsil eden tamsayı dizisi olarak kodlanmıştır. GA, kromozomları sıralamak için kromozomundaki değişkenlerle elde edilen regresyon modellerinin 20 tane Bootstrap örneklemindeki RMSE (tahmin hatalarının karelerinin ortalaması) değerlerinin ortalamasından oluşan bir değerlendirme fonksiyonu kullanmaktadır. GA, farklı değişken sayılarıyla değerlendirme fonksiyonunu en aza indirgemek için çalıştırılır. GA tarafından seçilen setler nihai olarak en iyi değişken alt setini belirlemek için tek gözlemli çapraz geçerlilik yöntemi ile değerlendirilmektedir. Önerilen GA, UCI veri deposundan alınan Topluluklar ve Suç veri setine uygulanmıştır. GA, farklı sayılarda (p) değişken seçmek için kullanılmış ve 30 değişken (p = 30) içeren alt set, tek gözlemli çapraz geçerlilik kriterine göre en iyi alt set olarak bulunmuştur. Önerilen prosedür mevcut değişken seçim yöntemleri ile karşılaştırılmış ve daha iyi performans göstermiştir.
FULL TEXT (PDF):
- 28