# Mittelwert von y, Mittelwert von x; Anzahl der Werte in x (oder y)
my = mean(y)
mx = mean(x)
n = length(x)
covxy = cov(y,x)

# Korrelation gleicht die  Kovarianz 
# dividiert durch  (sd von y Mal sd von x)
r = covxy/(sd(x) * sd(y))

# Regressionsneigung: r mal sd von y dividiert durch die sd von x
b = r * sd(y)/sd(x)

# Intercept: Mittelwert von y - (b mal Mittelwert von x)
k = my - b * mx

# Eingeschaetze Werte:
yhut = b * x + k

# Error: Der Unterschied zwischen den tatsaechlichen und eingeschaetzen
# Werte
error = y - yhut

# SSE: sum-of-squares (Error)
SSE = sum(error^2)

# SSR: sum-of-squares (Regression)
SSR = sum((yhut - my)^2)

# SSY: sum-of-squares (Total)
SSY = sum((y - my)^2)

### Bestaetigung: SSY = SSR + SSE  (ja/nein?)
# ja
## Zwei Methoden r-squared zu berechnen
## 1
rsquared = cor(x, y)^2

## 2
rsquared = SSR/SSY

## Pruefen ob es eine eine signifikante lineare Beziehung
## zwischen x und y gibt (ob rsquared signifikant von 0 abweicht).
## critical ratio (tstat): r dividiert durch die Standardabweichung von r
## Die Standardabweichung von r ist 
rsb = sqrt( (1 - r^2)/(n-2))
tstat = abs(r/rsb)
2 * (1 - pt(tstat, n-2))

# Die F-statistik ist tstat hoch 2
fstat = tstat^2

# Pruefen - selbe Wahrscheinlichkeit?
1 - pf(fstat, 1, n-2)

# Noch eine Weise die F-Statstik zu berechnen:
MSE = SSE/(n-2)
MSR = SSR/1
fstat = MSR/MSE

# Ergebnis
Es gibt einen nicht-signifikanten
Unterschied zwischen x und y
r-squared = 0.04233346, F= 1.9, df= 1, 43,... p = 0.175

# Die Regressionlinie berechnen mit lm()
reg = lm(y ~ x)

# x, y Werte abbilden
plot(x,y)
# Regressionslinie ueberlagern
abline(reg)


# Die  Quantitaeten tstat, fstat, SSR/SSY, die Wurzel von MSE
# hier idenfizieren
summary(reg)

# Die Quantitiaeten SSR, SSE, MSR, MSE,fstat hier identifizieren
anova(reg)