分析① 「距離帯別係数」の導入
分析の主目的
「距離帯別係数」の導入
回帰式を一次の重回帰分析に置き換え
とおくと、(2)の回帰式は、次のように表すことができます。
Ri = C × Lj × Zk × εi …(3)
これは、以下のように、両辺の対数をとり、「路線」「距離帯」に関するダミー変数を組み込むことで、単純な重回帰分析に置き換えることができます。
まず、(3)の式の両辺について、対数をとります。
log Ri = log( C × Lj × Zk × εi ) = log C + log Lj + log Zk + log εi …(4)
(4)の式の log Lj に「路線jの駅について1、その他の駅について0をとるダミー変数Sj」をかけて Sj × log Lj とします。
同様に、 log Zk に「距離帯kの駅について1、その他の駅について0をとるダミー変数Tk」をかけて Tk × log Zk とします。
log Ri = log C + Sj log Lj + Tk log Zk + log εi …(5)
このようなダミー変数をかけた項を、各路線・各距離帯について連ねます(※1、※2)。
log Ri = log C + S2 log L2 + S3 log L3 + S4 log L4 + …… + T2 log Z2 + T3 log Z3 + T4 log Z4 + …… + log εi …(6)
(6)の回帰式は、log Rを被説明変数とし、S2, S3, S4, …, T2, T3, T4, ……を説明変数とする、重回帰分析の式と見なすことができます。
なお、このような、「路線」「距離帯」のようなカテゴリ変数を組み込んだ回帰分析は、「数量化1類」とも呼ばれます。
※1:(5)と(6)の式が同じものであることの説明
例として、路線3・距離帯4の駅について考えてみます。
このとき、ダミー変数のうちS3とT4のみが1で、その他のS2, S4, S5…, T2, T3, T5…はすべて0となります。
すると、 S2 log L2 + S3 log L3 + S4 log L4 + …… の部分は S3 log L3 と等しくなり、 T2 log Z2 + T3 log Z3 + T4 log Z4 + …… の部分は T4 log Z4 と等しくなります。
※2:路線1の効果、距離帯1の項を設けないことの説明
(6)の式には、路線1 =JR埼京線に関する項 S1 log L1と、距離帯1 =0~500mに関する項 T1 log Z1 を組み込みません。
これは、この分析が、路線1=JR埼京線 の路線別係数L1と、距離帯1=0~500m未満 の距離帯別係数Z1を、それぞれ1.0に固定し、これを基準として、各路線の路線別係数と各距離帯の距離帯別係数を算出する、という方法をとっていることによります。
L1とZ1を1.0に固定すると、log L1とlog Z1はいずれも0となり、S1 log L1と T1 log Z1 も0となるため、式の中に登場しないこととなります。
そもそも、「 n 個に区分されたカテゴリ変数をダミー変数に変換し、回帰分析に投入する」場合、用意すべきダミー変数は、n 個ではなく n-1 個です。
n-1 個のダミー変数があれば、「1つのダミー変数が1であとは0」というパターンが n-1 種類と、「すべてのダミー変数が0」 というパターンの合計で、 n 種類のカテゴリが区分できます。
ここで、n 個目のダミー変数まで投入してしまうと、n 個目のダミー変数が、それまでの n-1 個の変数との間に完全な相関を持つため、多重共線性の問題から、正しい回帰分析が行えなくなります。
重回帰分析(数量化1類)の分析結果
重回帰分析(数量化1類)の結果
log Rを被説明変数とし、S2, S3, S4, …, T2, T3, T4, ……を説明変数とする重回帰分析を行い、回帰係数(log C, log L2, log L3, log L4, ……, log Z2, log Z3, log Z4……)を推計すると、下記のような結果が得られます。
決定係数は0.7を超えており、かなり適合度は高そうです。
表2 ①の重回帰分析の結果
距離帯別係数
距離帯に関する回帰係数 log Zk のlogを外す(指数をとる)と、距離帯別係数 Zk が得られます。
距離帯別係数は、基準に据えた距離帯1の係数1.000に対し、距離帯2では1.718、距離帯3では3.084……という値となり、距離帯6以上では、6.6付近でほとんど値が変わらなくなる、という結果となりました。
表3・図1 分析①による距離帯別係数
ここからは、「他路線の最寄駅までの距離」が遠くなるほど距離帯別係数は大きくなり、乗車人員も多くなりやすくなる一方、距離が2500mを超えると、乗車人員の多くなりやすさは変わらなくなることが読み取れます。
路線別係数
路線に関する回帰係数 log Lj のlogを外す(指数をとる)と、路線別係数 Lj が得られます。
路線別係数は、東京メトロ有楽町線(和光市~池袋間)を筆頭に、JR京葉線(蘇我~新木場間)、JR埼京線(大宮~赤羽間)などで大きく、千葉都市モノレール、金沢シーサイドラインなどで小さくなっています。
表4 分析①による路線別係数
全体的には、普通鉄道(路線1~14)に比べ、中量軌道輸送機関に位置づけられるモノレール等(路線15~19)の係数が、小さい傾向が読み取れます。
また、東京駅・大手町駅、新宿駅、池袋駅といった、東京都心の大ターミナル駅に直結する路線や、速達列車が設定されている路線の係数が、大きくなる傾向にあるようです。
JR京葉線、せっかく路線別係数が大きいのに、昼間以外の快速を全廃近くまで減らしてしまって、大丈夫なのでしょうか……
完成した回帰式
以上の結果をまとめると、分析①による(1)の回帰式は、下記のような結果となります。
定数Cは、重回帰分析で得られた回帰係数 log C = -1.511 のlogを外し(=指数をとっ)た0.221となります。
乗車人員 = 0.221 × 住勤鉄道需要 × 表4の路線別係数 × 表3の距離帯別係数 × 誤差
モデルの当てはまりのよさ
ここで、得られた関数f(d)のグラフの当てはまりのよさを確認するために、
- 横軸…「他の路線の最寄駅までの距離」
- 縦軸…「定数・路線別係数で補正した各駅の鉄道需要・乗車人員比 Ri /(C × Lj) = 距離帯別係数Zk × 誤差εi 」
を置き、これを 関数f(d) = 距離帯別係数Zkのグラフと重ね合わせてみます。
図2 分析①による関数f(d)と補正済み鉄道需要・乗車人員比の重ね合わせ
当初の散布図に比べ、各駅の分布のバラツキが抑えられ、また分布のほぼ中央を通る形で、 関数f(d) のグラフが描かれています。
当てはまりの面でも解釈のしやすさの面でも、想像以上に、きれいな結果を得ることができました。
結論
既存の鉄道網の中で、後発路線の単独駅の乗車人員は、
- 「鉄道路線」及び「他の路線の最寄駅からの距離」に大きく影響される。
- 「他の路線の最寄駅からの距離」が遠いほど、乗車人員が多くなりやすい。
- 一方、一定(おおむね2500m)以上離れると、それ以上に乗車人員は増えにくい。
といったことが、かなりの確からしさをもって言えそうです。