10/18 あさごはんが - もずくの勉強日記

えのきとぶなしめじ山盛り+油揚げの炊き込みごはんと，玉ねぎ人参ピーマンキャベツぶなしめじをこれでもかといれたコンソメスープ．お昼もおなじだけどはっぴー．いい匂いのめざめ．でもおなかいたい（あたったわけではない）

きょうはひとまず，セミナー復習もろもろ．

En-route/Pre-trip

En-route choice model（逐次選択）：段階に達するごとにその先の効用を考えて選択

⇔pre-trip model：先に経路をすべて（最後まで）考えて，その効用を考えて選択

RLモデル

元論文：A link based network route choice model with unrestricted choice set

Transportation Research Part B: MethodologicalVolume 56, October 2013, Pages 70-80

説明資料：http://bin.t.u-tokyo.ac.jp/kaken/pdf/2014_oyama1.pdf　

http://bin.t.u-tokyo.ac.jp/rzemi17/file/1-5.pdf

選択肢セットに制約を課さない，計量経済学的なランダム効用モデルの経路選択モデル．特徴は，無限の選択肢でMultinominal model（MNLモデル）と静的なモデルと等価であることを示せているということ．link size（リンクサイズ）を導入して，リンクが加算的だが重複するパスの効用を訂正する．

やっぱり3000ノード，7000リンクくらいなら回るはずらしい．

有向グラフをリンクとノードで定義する．決定段階はそれぞれのリンクと結びつけられている．

活用は

・道路ネットワーク関連，たとえばロードプライシング，インフラ投資などへのモデル

・ルートガイドソフトウェア．ダイクストラ法により最低コストを算出．

長さ，速さ，遅延しやすさ，右折数など様々な特徴を持っているパスに対して，パスのコストを算出する必要がある．経路選択モデルで観測された選択に対してパラメタ推定ができる．

Rust（1987）の動的離散選択モデルのように，MNLモデルの形で経路選択を記述することはできるのだけれど，そうすると選択肢が無限に生じることになってしまう．なのでこれまでの観測されたパスから推定されることのできる経路選択モデルというのは，みんなパスに基づいていて，つまり離散選択がパスに沿って行われるということを記述したものだった．

RLモデルなら，推定することも効率的な方法で予測のために使うこともできるという利点がある．経路選択モデルと有限MNLモデルに基づいた一連のリンク間のリンクを

与える．

サンドイッチ推定量

Freedman, D. A. (2006). On the so-called “Huber sandwich estimator” and “robust standard errors”. The American Statistician, 60(4), 299-302.

ハーバーのサンドイッチ推定量は，モデルが不正確な時に最尤法の分散を推定するのに使える．モデルがほぼ正しいのなら普通の標準誤差の方も同じくほぼ正しくて，頑健性はあまり助けにはならない．一方で，モデルがひどく誤差を持っていた場合，サンドイッチは分散において大きな助けとなるが，最尤法で推定されるパラメータは無意味なものになりがちである．ただしおそらく記述統計においては意味があるだろう．

ただし，バイアスを考慮しているというわけではないので，留意が必要．

i: 観測番号

y_i: その値

Θ⊂R^p: パラメータベクトルで，p*1の行列

y→f_i(y|Θ): 正の密度（今回重視するケースのように0か1だけをとるならば，f_i(0|Θ）>0，f_i(1|Θ）>0，f_i(0|Θ）+f_i(0|Θ）=1）

あとこれ

GEE(一般化推定方程式)の理論 from Koichiro Gibo

www.slideshare.net

Moore Penrose 逆行列

zellij.hatenablog.com

ここが平易でよさそう．

がムーア・ペンローズ逆行列が未達性質．一般化された逆行列の性質ということになる．

Aが縦長なら||Ax-b||^2, Aが横長なら||x||（ノルム）が最小．こうしておくと誤差が最小ということ．

Rではlibrary(MASS)を実行してginv()を使えば求められる．要するに「逆行列は存在しないのだけれど，もっともそれっぽいものを充てるなら」というような行列が出る．

準ニュートン法（BFGS）

まず，ニュートン法というのは最大値探索の方向の決定の方法（式は下のリンクから）．解の近くでは二次収束するのでそれが利点だが，ヘッセ行列の計算に時間がかかる＆収束しないことがある＆ヘッセ行列が計算できないとだめ．

www.msi.co.jp

そこで使われるのが準ニュートン法．ヘッセ行列を逐次的に近似しているのでヘッセ行列の逆行列がいらないらしい．

===

以下http://bin.t.u-tokyo.ac.jp/model14/lecture/Sasaki.pdfから．

ヘッセ行列が逆行列をもたないとき

・変数が完全相関

・変数が効用関数に効かない

ここに書いてあったから変数が効かないっていう解釈はあってた．よかった．

あとはモデルが間違えてるとか，近似がいまいちとか，初期値が不適当とか，推定できないモデルだとか．

MCMC法

d.hatena.ne.jp

・MCの一個目：マルコフ連鎖（Markov Chain）

マルコフ連鎖とは，「それより前の状態に現在の状態が影響される」こと．

・MCの二個目：モンテカルロ法（Monte Carlo）

モンテカルロ法とは，乱数を発生させて頻度を用いてある値を求めるというもの（モンテカルロというのは昔のお金持ちの街で，乱数を発生させるのはコンピュータが発展するまではとても大変なことだったので，「お金持ちしかできないでしょう」という揶揄みたいなネーミングらしい）．

初期値を与えてマルコフ連鎖（パラメータが収束するまで）→繰り返し繰り返しパラメータの分布を得るモンテカルロ法→その中央値や平均値を推定値とする

Rだとlibrary(MCMCpack)で使えるみたい．まだよく見てない．

どういうときに使うかというと，

・条件付き分布は分かるが，積分が難しいので周辺分布が求まらなくてパラメータが推定できない（階層モデル，混合効果モデル）

・サンプルの数が少ないので，最尤法だとパラメータの値が不安定（説明変数にカテゴリ変数や交互作用項が多い．ロジスティック分布など）

MCMC法は，ベイズ的といわれることもある．

ベイズ推定，ベイジアン推定

MCMCは，「条件付き分布を使って分布を更新していく」ところがこれっぽいらしい．

ベイズ推定は，事後確率=事前確率*尤度とするもの．

事前確率というのは，前もって持っている知識を確率で表現したもの．尤度（ベイズファクター）は得られたデータを確率で表現したもの．

ベイズファクターはベイズ情報量基準BICに近似できるらしい．

　いいところ

・解析的にパラメータを推定できない複雑なモデルもパラメータ分布が求められる（パネルデータの個人モデルを考慮した階層モデルなど）

・そもそもパラメータの分布がわかる（たとえば多峰性になったとき（identification problem※），最尤法だと最大になるところがわからないので求められないということになるので，モデル構造を考え直すべきだろう，ということがわかる，など）

※

意志決定者間では異なるが選択肢間で異ならない変数とか，逆とか．

よくないところ

・時間がかかる

・収束しない場合もある

===

今更だけど正式名称を知ったので．

IIDガンベル分布=independently identically distributed

独立で，同一の分散を持つ分布．

誤差項が多変量正規分布だったら多項プロビットモデル（中心極限定理的にもっともらしいがopen-form，つまり無限に足し算をするとかが入っているモデルなので計算負荷が大きい），その分布をこれに直すと多項ロジットモデル．

ミックストロジットモデルMMNL

プロビットモデルの柔軟な誤差構造ηと，ロジットモデルの操作性のよい誤差構造ν（IIDガンベル分布）を両方いれたもの．

U=βX+η+ν

ηはunknown．open-formで計算負荷が大きいのは同じなので．乱数を発生させそれに基づいて選択確率を計算することを繰り返し，選択確率の平均値を出して，それを尤度として最尤推定法により未知パラメータを推定する．

Nestedにもできる．ηに分散σをかけた項になる．NLモデルとは違う形の誤差になる．もちろんCross-Nestedにもできて，そのときはたとえばσ_transitとσ_roadのように二つの誤差をそれぞれのηにかける．こちらもCNLとは違う形になる．

そして全部異分散という計算もできる．ただし，identification（上述）の問題で，全部を変数にすることはできなくて，一つを0として固定する．

νにG関数を仮定できて，iidガンベルならMNL，そのほかどんなG関数でもよいならNL, PCL, CNL（Cross Nested Logit　それぞれのηにかけるやつ）, GNLなんかになる．

ηは普通標準分布になる．くわしくは

http://bin.t.u-tokyo.ac.jp/model16/lecture/Yaginuma.pdf

ICVCモデル：変数とバイアス，媒介性

integrated choice and latent（非観測な） variable model．

社会経済属性や客観的なサービス基準だけでなく，主観的な要因がかかわってくる意思決定は多い．これを変数とできたらよさそう．ということで森川・佐々木，1993；佐々木，1998；Walker and Ben-Akiva, 2002などが取り組んでいる．

しかし潜在変数（主観的要因）は内生性によるバイアスが大きいのでは？（「電車の快適性」など）将来値の取得が困難では？という批判もある（Chorus and Kroesen, 2014）（これに対して，予測しようとせず長期モニタリングするのがよいのではという研究も．原，2017）．

たしかに多くの場合は潜在変数を含まないMLmodelなどを使えば表現できるのだが，あえてICVCモデルを使うことで，因果関係等の構造関係を同定することができるなどの有用性がある（Vij and Walker, 2016）．

ここで重要なのが，「媒介性」である．

例えば浸水可能性地域ダミーがあって転居意向に影響していたとする．この間には浸水可能性地域ダミー→居住地安全性への不安に対し有意→転居意向に有意といった関係があるかもしれないのである（王・山本，2015）．この間に挟まれるものを調整効果といい，説明変数と調整変数を式の上で区別することはできない．理論的な妥当性が重要になる．

行動モデルの発展について

経路選択でいえば，

・ルートのオーバーラップ（重複．どこまで分岐しているか．相関の問題が出てくる）→McFaddenのG関数(McFadden, 1978)，一般化G関数(Mattsson et al., 2014)

・ルート長→一般化G関数(Mattsson et al., 2014)

・ルート列挙の問題（代替選択肢の計算）→Recursive Logitモデル(Fosgerau et al., 2013)

など．

McFaddenのG関数（1978）

四つ満たすべき性質があって（かくのは大変なので下を参照．p.7），

http://bin.t.u-tokyo.ac.jp/model16/lecture/Chikaraishi.pdf

これを満たすと，選択確率がGを使ってかける．要するにそのような形のモデルの一般化式ということ．

この誤差項がmultivariate extreme value (MEV) 分布に従うとすると計算ができて確率が超シンプルに表せる…みたいな流れ．Logit, Nested Logit, Paired combinational logit, Generalized nested logitなどさまざまなモデルに適用できる．

一般化G（A）関数(Mattsson et al., 2014)

こちらも満たすべき性質が四つあって，確率が表されるようになる．ある条件をさらに満たすと，具体的にはiidガンベル分布に従うとかeのVij乗で確率のなかのA関数の係数が表せるとかすると，上のMcFaddenのG関数に一致する．つまり，McFaddenのG関数をさらに一般化したのがこれということになる．こちらもこれを使って算出する確率は非常に美しい．

よくわからないけど，一般化するとふつうモデル推定が困難になるらしい．