# Mittelwert von y, Mittelwert von x; Anzahl der Werte in x (oder y) my = mean(y) mx = mean(x) n = length(x) covxy = cov(y,x) # Korrelation gleicht die Kovarianz # dividiert durch (sd von y Mal sd von x) r = covxy/(sd(x) * sd(y)) # Regressionsneigung: r mal sd von y dividiert durch die sd von x b = r * sd(y)/sd(x) # Intercept: Mittelwert von y - (b mal Mittelwert von x) k = my - b * mx # Eingeschaetze Werte: yhut = b * x + k # Error: Der Unterschied zwischen den tatsaechlichen und eingeschaetzen # Werte error = y - yhut # SSE: sum-of-squares (Error) SSE = sum(error^2) # SSR: sum-of-squares (Regression) SSR = sum((yhut - my)^2) # SSY: sum-of-squares (Total) SSY = sum((y - my)^2) ### Bestaetigung: SSY = SSR + SSE (ja/nein?) # ja ## Zwei Methoden r-squared zu berechnen ## 1 rsquared = cor(x, y)^2 ## 2 rsquared = SSR/SSY ## Pruefen ob es eine eine signifikante lineare Beziehung ## zwischen x und y gibt (ob rsquared signifikant von 0 abweicht). ## critical ratio (tstat): r dividiert durch die Standardabweichung von r ## Die Standardabweichung von r ist rsb = sqrt( (1 - r^2)/(n-2)) tstat = abs(r/rsb) 2 * (1 - pt(tstat, n-2)) # Die F-statistik ist tstat hoch 2 fstat = tstat^2 # Pruefen - selbe Wahrscheinlichkeit? 1 - pf(fstat, 1, n-2) # Noch eine Weise die F-Statstik zu berechnen: MSE = SSE/(n-2) MSR = SSR/1 fstat = MSR/MSE # Ergebnis Es gibt einen nicht-signifikanten Unterschied zwischen x und y r-squared = 0.04233346, F= 1.9, df= 1, 43,... p = 0.175 # Die Regressionlinie berechnen mit lm() reg = lm(y ~ x) # x, y Werte abbilden plot(x,y) # Regressionslinie ueberlagern abline(reg) # Die Quantitaeten tstat, fstat, SSR/SSY, die Wurzel von MSE # hier idenfizieren summary(reg) # Die Quantitiaeten SSR, SSE, MSR, MSE,fstat hier identifizieren anova(reg)