最小二乗法からp値まで：知財ファイナンス・モデリング：So-netブログ

	ブログをはじめるログイン

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

テキストマイニングのフリーツール

最小二乗法からp値まで　[統計学] [編集]

線形回帰の基本は最小二乗法を実行して決定係数やp値を確認しながらモデルをブラッシュアップしていくことです。

Rにはlm関数などの便利なものがあるので内部ロジックがどうなっているのか、この関数を使っている限りは気になりません。しかし、いざ人に説明しようとすると内部ロジックに精通する必要が出てきます。というわけで、今日は最小二乗法かp値算出までの線形回帰の基本を確認したいと思います。結構、このあたりをきちんと理解していると次のステップに進みやすいでしょう。

■データ
・今回は次のデータを使います。

x <- c(45,33,39,40,42,30,53,45,42,31) #説明変数
y <- c(41,29,36,36,40,26,46,33,35,28) #目的変数
X <- matrix(1,10,2) #行列作成
X[,2] <- x  #1列目 = 切片, 2列目=説明変数

■最小二乗法によるパラメータの推定
・線形回帰の場合には最小二乗法=最尤法で次のシンプルな式を解くだけでパラメータを求めることができます。
$\hat{\beta}=(X^TX)^{-1}Xy$

B <- t(X) %*% X; c <- t(X) %*% y; beta <- solve(B, c)
a <- beta[1,]; b <- beta[2,]
yhat <- a + b*x

・カンタンカンタン！

■決定係数
・修正済み決定係数: γ^2
$\bar{\gamma}^2 = 1 - \frac{\hat{\sigma}}{\hat{\sigma}^2_y}$
$\hat{\sigma}^2_y=\frac{1}{n-1}\sum^n_{i=1}(y_i-\bar{y})^2$
$\hat{\sigma}^2=\frac{1}{n-2}(Y-X\beta)^2$

#試行錯誤そのままなのでコードが冗長
n <- length(x)
sy2 <- sum((y-mean(y))^2)/n
sy <- sqrt(sy2)
syx2 <- sum((y-a-b*x)^2)/n
syx <- sqrt(syx2)

sig2 <- n*syx2/(n-2)
sig <- sqrt(sig2)
sigy2 <- n*sy2/(n-1)

rbar2 <- 1 - (sig2/sigy2)

■t値
・βの仮説検定を行うにはt値を算出しておく必要があります。
$t_a=\frac{a}{\hat{\sigma}_a}, \hat{\sigma}_a=\frac{\hat{\sigma}\sqrt{\sum{x_i^2}}}{ns_x}, s_x=\sqrt{\sum_{i=1}^n{(x-\bar{x})^2}}$
$t_a=\frac{b}{\hat{\sigma}_b}, \hat{\sigma}_b=\frac{\hat{\sigma}}{s_x\sqrt{n}}$

sx2 <- sum((x-mean(x))^2)/n
sx <- sqrt(sx2)

siga2 <- sig2 * sum(x^2) /(n^2*sx2)
siga <- sqrt(siga2)

sigb2 <- sig2/(n*sx2)
sigb <- sqrt(sigb2)

ta <- a / siga
tb <- b / sigb

■p値
・最後に上記で求めた値からt分布を使ってp値を求めます。

pa <- (1 - pt(ta, n-2))*2
pb <- (1 - pt(tb, n-2))*2

■参考文献

基本統計学

作者: 宮川公男
出版社/メーカー: 有斐閣
発売日: 1999/03
メディア: 単行本

・宮川先生のこの本では線形回帰がとても分かりやすく書かれています。上記のコーディングもこの本を参考にしました。おススメの一冊です。初学者には下記の本よりも分かりやすいことでしょう。（入門書としては下記が紹介されることが多いですが、こちらの方が記載が優しいので下記本に挫折した人でもこちらでリカバリーできる可能性があります。）

統計学入門 (基礎統計学)

作者:
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本

・この本も分かりやすいですが、入門書を数冊読んだ後の方がよいですね。宮川先生の本を先に一読されることをおススメします。

■全コード

####DATA
x <- c(45,33,39,40,42,30,53,45,42,31) #説明変数
y <- c(41,29,36,36,40,26,46,33,35,28) #目的変数
X <- matrix(1,10,2) #行列作成
X[,2] <- x  #1列目 = 切片, 2列目=説明変数

####Estimation
B <- t(X) %*% X; c <- t(X) %*% y; beta <- solve(B, c)
a <- beta[1,]; b <- beta[2,]
yhat <- a + b*x

####R-squared
n <- length(x)
sy2 <- sum((y-mean(y))^2)/n
sy <- sqrt(sy2)
syx2 <- sum((y-a-b*x)^2)/n
syx <- sqrt(syx2)

sig2 <- n*syx2/(n-2)
sig <- sqrt(sig2)
sigy2 <- n*sy2/(n-1)

rbar2 <- 1 - (sig2/sigy2)
rbar <- a / (sig*sqrt(n)*1)

####t-value
sx2 <- sum((x-mean(x))^2)/n
sx <- sqrt(sx2)

siga2 <- sig2 * sum(x^2) /(n^2*sx2)
siga <- sqrt(siga2)

sigb2 <- sig2/(n*sx2)
sigb <- sqrt(sigb2)

ta <- a / siga
tb <- b / sigb

####p-value
pa <- (1 - pt(ta, n-2))*2
pb <- (1 - pt(tb, n-2))*2

####Print
print(paste("a=", a))
print(paste("b=", b))
print(paste("rbar2=", rbar2))
print(paste("ta=", ta))
print(paste("tb=", tb))
print(paste("pa=", pa))
print(paste("pb=", pb))

タグ：最小二乗法 p値

2013-04-07 22:59 nice!(0) コメント(0) トラックバック(0)

nice! 0

コメントを書く

トラックバック 0

トラックバックの受付は締め切りました

ベイズ統計学入門｜ビッグデータ分析の本当に面白いところブログトップ

知財ファイナンス・モデリング

パトリック・シルベストルさん

カレンダー

タグクラウド

月別表示

最新記事一覧

マイカテゴリー

パトリック・シルベストルさんがコメントした記事

最近のコメント

最近トラックバックされた記事

読んでいるブログ(RSS)

検索ボックス

最小二乗法からp値まで　[統計学] [編集]

nice! 0

コメント 0

コメントを書く

トラックバック 0

IT関連書籍ランキング

データベース書籍ランキング

知財ファイナンス・モデリング

パトリック・シルベストル さん

カレンダー

タグクラウド

月別表示

最新記事一覧

マイカテゴリー

パトリック・シルベストル さんがコメントした記事

最近のコメント

最近トラックバックされた記事

読んでいるブログ(RSS)

検索ボックス

最小二乗法からp値まで [統計学] [編集]

nice! 0

コメント 0

コメントを書く

トラックバック 0

IT関連書籍ランキング

データベース書籍ランキング

パトリック・シルベストルさん

パトリック・シルベストルさんがコメントした記事

最小二乗法からp値まで　[統計学] [編集]