Buradasınız

KISMİ EN KÜÇÜK KARELER REGRESYONU YARDIMIYLA OPTİMUM BİLEŞEN SAYISINI SEÇMEDE MODEL SEÇME KRİTERLERİNİN PERFORMANS KARŞILAŞTIRMASI

Journal Name:

Publication Year:

Author NameUniversity of AuthorFaculty of Author
Abstract (2. Language): 
Partial Least Squares Regression (PLSR) is a multivariate statistical method for constructing predictive models when the variables are many and highly collinear. Its goal is to predict a set of response variables from a set of predictor variables. This prediction is achieved by extracting a set of orthogonal factors called latent variables from the predictor variables. This study investigated the performances of model selection criteria in selecting the optimum number of latent variables from PLSR models for data sets that have various observations and variable numbers. Their performances have been compared in a simulation study with k-fold cross validation. This simulation has been performed to compare the performance of MAIC (Bedrick & Tsai, 1994), MAIC (Bozdogan, 2000), MA_opt(PRESS) and Wold’s R criterion in finding the optimum number of latent variables. The simulation results show that all the criteria achieved the optimum number of latent variables for a smallsized design matrix. But when the data dimensions get bigger, MAKAKIE and MBEDRICK could not find the optimum number of latent variables. MA_opt(PRESS) and Wold’s R criteria gave almost the same results and found the optimum number of latent variables with a better performance than the MAIC’s.
Abstract (Original Language): 
Regresyon modellerinin çok sayıda açıklayıcı değişkene sahip olması, gözlem sayısının açıklayıcı değişken sayısından daha az olması ve açıklayıcı değişkenler arasında çoklu doğrusal bağlantı probleminin varlığı gibi durumlar, regresyon analizindeki problemlerden bazılarıdır. Bu problemler en küçük kareler yöntemi varsayımlarını bozmaktadır. Kısmi en küçük kareler regresyonu (KEKKR), bu varsayımların bozulduğu durumlarda regresyon analizi yapmaya olanak sağlayan: kısmi en küçük kareler (KEKK) ve çoklu doğrusal regresyon yöntemlerinden oluşan çok değişkenli istatistiksel bir metottur. Bu çalışmada, çoklu doğrusal bağlantı probleminin olduğu veri setlerinde KEKKR tarafından elde edilen gizli değişkenler ile model kurulup, gizli değişkenlerin optimum sayısını saptamak için ise MAIC (Bedrick & Tsai, 1994), MAIC (Bozdogan,2000), MA_opt(PRESS) ve Wold’s R model seçme kriterleri kullanılmıştır. Model seçme kriterlerinin optimum sayıda gizli değişkeni bulma performanslarını karşılaştırmak amacıyla k-çapraz geçerlilikte benzetim çalışması yapılmıştır. Benzetim çalışması sonucunda; kriterlerin küçük boyutlu veri setlerinde doğru bir şekilde gizli değişken sayısını bulduğu fakat veri setlerinin boyutu arttıkça kriterlerin optimum sayıdan daha fazla sayıda gizli değişken seçme eğiliminde oldukları görülmüştür. Ayrıca, MAKAKIE ve MBEDRICK kriterlerinin hemen hemen aynı sonuçları bulmakta olduğu fakat regresyon modellerinin boyutu büyütüldüğünde optimum sayıda gizli değişkenleri bulamadığı saptanmıştır. MA_opt(PRESS) kriteri ve Wold’s R kriteri yaklaşık olarak aynı sonuçları vermekte olup diğer kriterlere göre daha doğru iyi bir performansla optimum sayıda gizli bileşenleri bulmaktadırlar.
38-52

JEL Codes: