PENDUGA LEAST TRIMMED SQUARE (LTS) PADA DATA YANG MENGANDUNG OUTLIER
Abstract
Dalam analisis regresi, menduga parameter regresi secara otomatis juga mengestimasi model regresi. Metode yang umum digunakan dalam menduga parameter regresi adalah Ordinar Least Square (OLS). Namun jika terjadi penyimpangan asumsi pada data seperti adanya pencilan (Outlier) maka metode OLS ini tidak lagi efisien untuk digunakan. Data pencilan yaitu suatu data yang terletak jauh dari garis regresi. Adanya pencilan dapat mengakibatkan estimasi parameter regresi menjadi bias dan tidak efisien sehingga model regresi yanhg diperoleh tidak cocok (fit) terhadap data yang dimodelkan. Ada dua jenis data pencilan yang dapat mempengaruhi model regresi, diantaranya yaitu pencilan pada variabel bebas (x) dan pencilan pada variabel respon (y). Pencilan yang disebabkan karena variabel bebas (x) disebut Laverage Point dan pencilan yang disebabkan variabel respon (y) disebut Vertical Outlier. Model linier yang mengandung Laverage Point dan Vertical Outlier dapat diatasi dengan metode robust. Salah satu metode robust yaitu Least Trimmed Square (LTS). Penelitian dilakukan terhadap dua jenis data yaitu data tanpa pencilan dan data yang mengandung pencilan (Laverage Point dan Vertical Outlier) dengan dua presentase pencilan yaitu 5% dan 10% pada 4 skenario simulasi, dengan masingmasing skenario simulasi 1 pencilan diberikan pada data variabel X1, skenario simulasi 2 pencilan diberikan pada data variabel X2, skenario simulasi 3 pencilan diberikan pada data variabel X1 dan X2, dan skenario simulasi 4 pencilan diberikan
viii
pada data variabel X1, X2, dan Y. Jumlah data yang ditetapkan adalah 100. Data tersebut merupakan data simulasi dengan cara membangkitkan data dengan parameter yang telah ditetapkan. Simulasi dilakukan menggunakan program R versi 3.1.2 dengan bantuan fungsi lm, ltsreg, sortlist dan Boxplot. Data pada setiap skenario simulasi dianalisis menggunakan metode Ordinary Least Square dan metode Least Trimmed Square untuk mendapatkan estimasi parameter dan model. Selain untuk mengetahui pengaruh estimasi parameter dari kedua metode, penelitian ini juga bertujuan untuk mengetahui signifikan dengan uji Hipotesis melalui Uji T dan juga untuk mengetahui metode mana yang lebih baik untuk memodelkan data dengan membandingkan nilai Mean Square Error (MSE) model pada data pencilan (Laverage Point dan Vertical Outlier). Hasil analisis menunjukkan bahwa pada data tanpa pencilan, metode OLS adalah model regresi yang lebih baik memodelkan data. Dapat dilihat hasil uji Hipotesis melalui Uji T pada metode OLS mengalami signifikan di semua skenario simulasi artinya variabel bebas (X) berpengaruh nyata terhadap variabel respon (Y). Sedangkan pada metode LTS terjadi ketidakstabilan terhadap pengujian Hipotesis , karena dapat dilihat pada metode LTS tidak semua skenario simulasi mengalami signifikansi . Dapat dilihat juga dari nilai MSE pada model regresi OLS lebih kecil daripada nilai MSE pada model LTS pada data tanpa pencilan. Namun pada data sudah terkontaminasi pencilan (Laverage Point dan Vertical Outlier) dengan masing-masing presentase yang telah ditetapkan sebelumnya, nilai MSE dari metode LTS lebih kecil dibanding dengan nilai MSE pada metode OLS. Maka dalam hal ini metode LTS yang paling baik dalam memodelkan data. Karena metode LTS lebih baik dalam mengatasi data pada pencilan (Laverage Point dan Vertical Outlier) maka metode LTS dapat dikatakan robust terhadap pencilan.