11 Pages
English

Didacticiel Études de cas R R

-

Gain access to the library to view online
Learn more

Description

Niveau: Supérieur, Doctorat, Bac+8
Didacticiel ? Études de cas     R.R.  9 décembre 2009    Page 1 sur 11  1. Subject Detecting outliers and influential points for regression analysis.  The analysis of outliers and influential points is an important step of the regression diagnostics. The  goal is to detect (1) the points which are very different to the others (outliers) i.e. they seem do not  belong  to  the analyzed population; or  (2)  the points  that  if  they are  removed  (influential points),  leads us to a different model. The distinction between these kinds of points is not always obvious.  In this tutorial, we implement several indicators for the analysis of outliers and influential points. To  avoid confusion about the definitions of indicators1 (some indicators are calculated differently from  one tool to another), we compare our results with state?of?the?art tool such as SAS and R. In a first  step, we give the results described  into the SAS documentation. In a second step, we describe the  process and the results under Tanagra and R. In conclusion, we note that these tools give the same  results.  2. Dataset The  dataset  comes  from  the  SAS  documentation2,  available  on  line3.  The  goal  is  to  predict US  population size (USPopulation) from the Year (Year) and the squared Year (YearSq). We will mainly  focus on the implementation of calculations and comparison of results in this tutorial.  3. SAS results The used dataset and the results provided by the regression under SAS are the following.  Year YearSq Populat ion 1790 3204100 3.929 1800 3240000 5.308 1810 3276100 7.239 1820 3312400 9.638 1830 3348900 12.866 1840 3385600 17.069 1850 3422500 23.191 1860 3459600 31.443 1870 3496900 39.818 1880 3534400 50.155 1890 3572100 62.947 1900 3610000 75.994 1910 3648100 91.972 1920 3686400 105.71 1930 3724900 122.775 1940 3763600 131.669 1950 3802500 151.325 1960 3841600 179.323 1970 3880900 203.211                                                                           1  2  3 

  • define  status  component

  • to  predict us 

  • didacticiel ? études de cas    

  • the  right

  • then  we 

  • variables  using  the 

  • we  insert 

  • from  the 


Subjects

Informations

Published by
Reads 46
Language English
DidacticielÉtudesdecas
1. Subject
Detectingoutliersandinfluentialpointsforregressionanalysis.
R.R.
Theanalysisofoutliersandinfluentialpointsisanimportantstepoftheregressiondiagnostics.Thegoalistodetect(1)thepointswhichareverydifferenttotheothers(outliers)i.e.theyseemdonotbelongtotheanalyzedpopulation;or(2)thepointsthatiftheyareremoved(influentialpoints),leadsustoadifferentmodel.Thedistinctionbetweenthesekindsofpointsisnotalwaysobvious.
Inthistutorial,weimplementseveralindicatorsfortheanalysisofoutliersandinfluentialpoints.To1 avoidconfusionaboutthedefinitionsofindicators(someindicatorsarecalculateddifferentlyfromonetooltoanother),wecompareourresultswithstateofthearttoolsuchasSASandR.Inafirststep,wegivetheresultsdescribedintotheSASdocumentation.Inasecondstep,wedescribetheprocessandtheresultsunderTanagraandR.Inconclusion,wenotethatthesetoolsgivethesameresults.
2. Dataset
2 3 ThedatasetcomesfromtheSASdocumentation ,availableonline .ThegoalistopredictUSpopulationsize(USPopulation)fromtheYear(Year)andthesquaredYear(YearSq).Wewillmainlyfocusontheimplementationofcalculationsandcomparisonofresultsinthistutorial.
3. SAS results
TheuseddatasetandtheresultsprovidedbytheregressionunderSASarethefollowing.
Year 1 7 9 0 1 8 0 0 1 8 1 0 1 8 2 0 1 8 3 0 1 8 4 0 1 8 5 0 1 8 6 0 1 8 7 0 1 8 8 0 1 8 9 0 1 9 0 0 1 9 1 0 1 9 2 0 1 9 3 0 1 9 4 0 1 9 5 0 1 9 6 0 1 9 7 0
Year Sq 3 2 0 4 1 0 0 3 2 4 0 0 0 0 3 2 7 6 1 0 0 3 3 1 2 4 0 0 3 3 4 8 9 0 0 3 3 8 5 6 0 0 3 4 2 2 5 0 0 3 4 5 9 6 0 0 3 4 9 6 9 0 0 3 5 3 4 4 0 0 3 5 7 2 1 0 0 3 6 1 0 0 0 0 3 6 4 8 1 0 0 3 6 8 6 4 0 0 3 7 2 4 9 0 0 3 7 6 3 6 0 0 3 8 0 2 5 0 0 3 8 4 1 6 0 0 3 8 8 0 9 0 0
Pop ulat ion 3 .9 2 9 5 .3 0 8 7 .2 3 9 9 .6 3 8 1 2 .8 6 6 1 7 .0 6 9 2 3 .1 9 1 3 1 .4 4 3 3 9 .8 1 8 5 0 .1 5 5 6 2 .9 4 7 7 5 .9 9 4 9 1 .9 7 2 1 0 5 .7 1 1 2 2 .7 7 5 1 3 1 .6 6 9 1 5 1 .3 2 5 1 7 9 .3 2 3 2 0 3 .2 1 1
1 http://wwwstat.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf2 http://v8doc.sas.com/sashtml/stat/chap55/sect33.htm#regprv3 http://eric.univlyon2.fr/~ricco/tanagra/fichiers/USPopulation.xls
9décembre2009
Page1sur11