Journal Name:
- İstanbul Üniversitesi Ekonometri ve İstatistik Dergisi
Key Words:
Keywords (Original Language):
Author Name | University of Author | Faculty of Author |
---|---|---|
Abstract (2. Language):
Partial Least Squares Regression (PLSR) is a multivariate statistical method for constructing predictive models
when the variables are many and highly collinear. Its goal is to predict a set of response variables from a set of
predictor variables. This prediction is achieved by extracting a set of orthogonal factors called latent variables
from the predictor variables. This study investigated the performances of model selection criteria in selecting the
optimum number of latent variables from PLSR models for data sets that have various observations and variable
numbers. Their performances have been compared in a simulation study with k-fold cross validation. This
simulation has been performed to compare the performance of MAIC (Bedrick & Tsai, 1994), MAIC
(Bozdogan, 2000), MA_opt(PRESS) and Wold’s R criterion in finding the optimum number of latent variables.
The simulation results show that all the criteria achieved the optimum number of latent variables for a smallsized design matrix. But when the data dimensions get bigger, MAKAKIE and MBEDRICK could not find the
optimum number of latent variables. MA_opt(PRESS) and Wold’s R criteria gave almost the same results and
found the optimum number of latent variables with a better performance than the MAIC’s.
Bookmark/Search this post with
Abstract (Original Language):
Regresyon modellerinin çok sayıda açıklayıcı değişkene sahip olması, gözlem sayısının açıklayıcı değişken
sayısından daha az olması ve açıklayıcı değişkenler arasında çoklu doğrusal bağlantı probleminin varlığı gibi
durumlar, regresyon analizindeki problemlerden bazılarıdır. Bu problemler en küçük kareler yöntemi
varsayımlarını bozmaktadır. Kısmi en küçük kareler regresyonu (KEKKR), bu varsayımların bozulduğu
durumlarda regresyon analizi yapmaya olanak sağlayan: kısmi en küçük kareler (KEKK) ve çoklu doğrusal
regresyon yöntemlerinden oluşan çok değişkenli istatistiksel bir metottur. Bu çalışmada, çoklu doğrusal
bağlantı probleminin olduğu veri setlerinde KEKKR tarafından elde edilen gizli değişkenler ile model kurulup,
gizli değişkenlerin optimum sayısını saptamak için ise MAIC (Bedrick & Tsai, 1994), MAIC
(Bozdogan,2000), MA_opt(PRESS) ve Wold’s R model seçme kriterleri kullanılmıştır. Model seçme
kriterlerinin optimum sayıda gizli değişkeni bulma performanslarını karşılaştırmak amacıyla k-çapraz
geçerlilikte benzetim çalışması yapılmıştır. Benzetim çalışması sonucunda; kriterlerin küçük boyutlu veri
setlerinde doğru bir şekilde gizli değişken sayısını bulduğu fakat veri setlerinin boyutu arttıkça kriterlerin
optimum sayıdan daha fazla sayıda gizli değişken seçme eğiliminde oldukları görülmüştür. Ayrıca, MAKAKIE ve
MBEDRICK kriterlerinin hemen hemen aynı sonuçları bulmakta olduğu fakat regresyon modellerinin boyutu
büyütüldüğünde optimum sayıda gizli değişkenleri bulamadığı saptanmıştır. MA_opt(PRESS) kriteri ve
Wold’s R kriteri yaklaşık olarak aynı sonuçları vermekte olup diğer kriterlere göre daha doğru iyi bir
performansla optimum sayıda gizli bileşenleri bulmaktadırlar.
FULL TEXT (PDF):
- 1
38-52