分析① 「距離帯別係数」の導入

 

分析の主目的

前回の記事では、「後発路線(=既存の鉄道網の中に、後から開通した路線)の単独駅」の乗車人員を推計する式として、以下の回帰式を立てました。
 
 乗車人員 = 定数 × 住勤鉄道需要 × 路線別係数 × 関数f(d) × 誤差項 …(1)
 
ここで、この分析の主な目的は、「他路線の最寄駅からの距離に応じて、駅の乗車人員(直接的には、鉄道需要・乗車人員比)が、どのように増減するのか」を把握することにあります。そして、これを関数として表したものが、 関数f(d) です。
したがって、ここでは、「 関数f(d) がどのような式で表される関数で、そのグラフがどのような形を描くのか」が、分析の主眼となります。
 

「距離帯別係数」の導入

ここでは、分析の初期段階として、 関数f(d) のグラフについて、たとえば「直線となる」「二次曲線となる」「指数曲線となる」といったような、特定の前提条件を置かない分析を行ってみます。
 
まず、「距離帯1:0~500m未満」「距離帯2:500~1000m未満」……というように、「他路線の最寄駅からの距離」が短いものから長いものまでを並べた「距離帯」を設定します。そして、分析対象の179駅を、距離帯別のグループに分類します。
 
この際、あまりに属する駅の数が少ないグループを作ってしまうと、その距離帯に属する特定の駅が、 関数f(d) のグラフの形に大きく影響してしまいます。ここでは、グループ間の駅数のバランスも考慮しながら、下表のような8つのグループに区分しました。
 
表1 設定した距離帯のグループ
 
次に、このグループごとに、「乗車人員の多くなりやすさ」を数値化した係数として、「距離帯別係数」を導入します。
これは、路線別係数の「距離帯」版のようなものですが、別の見方をすれば、「他路線の最寄駅からの距離」の入力に対して「当該距離帯に含まれる駅の乗車人員の多くなりやすさ」を出力する、一種の関数でもあります。
これを踏まえて、(1)の式の 関数f(d) 距離帯別係数で置き換え、次のような回帰式にします。
 
 乗車人員 = 定数 × 住勤鉄道需要 × 路線別係数 × 距離帯別係数 × 誤差項 …(2)
 
 

回帰式を一次の重回帰分析に置き換え

路線j、距離帯kに属するi駅について、
 
Ji:i駅周囲1km圏内の住勤鉄道需要(トリップ/日)
Pi:i駅の乗車人員(人/日)
Ri:i駅の鉄道需要・乗車人員比(=Pi/Ji
C:定数
Lj:路線jの路線別係数
Zk:距離帯kの距離帯別係数
εi:i駅の誤差

 

とおくと、(2)の回帰式は、次のように表すことができます。

 

Ri = C × Lj × Zk × εi …(3)

 

これは、以下のように、両辺の対数をとり、「路線」「距離帯」に関するダミー変数を組み込むことで、単純な重回帰分析に置き換えることができます。

 

まず、(3)の式の両辺について、対数をとります。

log Ri = log( C × Lj × Zk × εi ) = log C + log Lj + log Zk + log εi …(4)

 

(4)の式の log Lj に「路線jの駅について1、その他の駅について0をとるダミー変数Sj」をかけて Sj × log Lj とします。

同様に、 log Zk に「距離帯kの駅について1、その他の駅について0をとるダミー変数Tk」をかけて Tk × log Zk とします。

log Ri = log C + Sj log Lj + Tk log Zk + log εi …(5)

 

このようなダミー変数をかけた項を、各路線・各距離帯について連ねます(※1、※2)。

log Ri = log C + S2 log L2 + S3 log L3 + S4 log L4 + …… + T2 log Z2 + T3 log Z3 + T4 log Z4 + …… + log εi …(6)

 

(6)の回帰式は、log Rを被説明変数とし、S2, S3, S4, …, T2, T3, T4, ……を説明変数とする、重回帰分析の式と見なすことができます。

なお、このような、「路線」「距離帯」のようなカテゴリ変数を組み込んだ回帰分析は、「数量化1類」とも呼ばれます。

 

※1:(5)と(6)の式が同じものであることの説明

例として、路線3・距離帯4の駅について考えてみます。

このとき、ダミー変数のうちS3T4のみが1で、その他のS2, S4, S5…, T2, T3, T5…はすべて0となります。

すると、 S2 log L2 + S3 log L3 + S4 log L4 + …… の部分は S3 log L3 と等しくなりT2 log Z2 + T3 log Z3 + T4 log Z4 + …… の部分は T4 log Z4 と等しくなります。

 

※2:路線1の効果、距離帯1の項を設けないことの説明

(6)の式には、路線1 =JR埼京線に関する項 S1 log L1と、距離帯1 =0~500mに関する項 T1 log Z1 を組み込みません。

これは、この分析が、路線1=JR埼京線 の路線別係数L1と、距離帯1=0~500m未満 の距離帯別係数Z1を、それぞれ1.0に固定し、これを基準として、各路線の路線別係数と各距離帯の距離帯別係数を算出する、という方法をとっていることによります。

L1Z1を1.0に固定すると、log L1log Z1はいずれも0となり、S1 log L1T1 log Z1 も0となるため、式の中に登場しないこととなります。

そもそも、「 n 個に区分されたカテゴリ変数をダミー変数に変換し、回帰分析に投入する」場合、用意すべきダミー変数は、n 個ではなく n-1 個です。

n-1 個のダミー変数があれば、「1つのダミー変数が1であとは0」というパターンが n-1 種類と、「すべてのダミー変数が0」 というパターンの合計で、 n 種類のカテゴリが区分できます。

ここで、n 個目のダミー変数まで投入してしまうと、n 個目のダミー変数が、それまでの n-1 個の変数との間に完全な相関を持つため、多重共線性の問題から、正しい回帰分析が行えなくなります。

 

  重回帰分析(数量化1類)の分析結果

 

重回帰分析(数量化1類)の結果

log Rを被説明変数とし、S2, S3, S4, …, T2, T3, T4, ……を説明変数とする重回帰分析を行い、回帰係数(log C, log L2, log L3, log L4, ……, log Z2, log Z3, log Z4……)を推計すると、下記のような結果が得られます。

決定係数は0.7を超えており、かなり適合度は高そうです。

 

表2 ①の重回帰分析の結果

距離帯別係数を用いた回帰分析の結果

 

距離帯別係数

距離帯に関する回帰係数 log Zk のlogを外す(指数をとる)と、距離帯別係数 Zk が得られます。

 

距離帯別係数は、基準に据えた距離帯1の係数1.000に対し、距離帯2では1.718、距離帯3では3.084……という値となり、距離帯6以上では、6.6付近でほとんど値が変わらなくなる、という結果となりました。

 

表3・図1 分析①による距離帯別係数

 

ここからは、「他路線の最寄駅までの距離」が遠くなるほど距離帯別係数は大きくなり、乗車人員も多くなりやすくなる一方、距離が2500mを超えると、乗車人員の多くなりやすさは変わらなくなることが読み取れます。

 

路線別係数

 路線に関する回帰係数 log Lj のlogを外す(指数をとる)と、路線別係数 Lj が得られます。

 

路線別係数は、東京メトロ有楽町線(和光市~池袋間)を筆頭に、JR京葉線(蘇我~新木場間)、JR埼京線(大宮~赤羽間)などで大きく、千葉都市モノレール、金沢シーサイドラインなどで小さくなっています。

 

表4 分析①による路線別係数

 

全体的には、普通鉄道(路線1~14)に比べ、中量軌道輸送機関に位置づけられるモノレール等(路線15~19)の係数が、小さい傾向が読み取れます。

 

また、東京駅・大手町駅、新宿駅、池袋駅といった、東京都心の大ターミナル駅に直結する路線や、速達列車が設定されている路線の係数が、大きくなる傾向にあるようです。

JR京葉線、せっかく路線別係数が大きいのに、昼間以外の快速を全廃近くまで減らしてしまって、大丈夫なのでしょうか……

 

  完成した回帰式

以上の結果をまとめると、分析①による(1)の回帰式は、下記のような結果となります。

定数Cは、重回帰分析で得られた回帰係数 log C = -1.511 のlogを外し(=指数をとっ)た0.221となります。

 

 乗車人員 = 0.221 × 住勤鉄道需要 × 表4の路線別係数 × 表3の距離帯別係数 × 誤差

 

  モデルの当てはまりのよさ

ここで、得られた関数f(d)のグラフの当てはまりのよさを確認するために、

  • 横軸…「他の路線の最寄駅までの距離」
  • 縦軸…「定数・路線別係数で補正した各駅の鉄道需要・乗車人員比 Ri /(C × Lj)  = 距離帯別係数k × 誤差εi

を置き、これを 関数f(d)   距離帯別係数kのグラフと重ね合わせてみます。

 

図2 分析①による関数f(d)と補正済み鉄道需要・乗車人員比の重ね合わせ

 

当初の散布図に比べ、各駅の分布のバラツキが抑えられ、また分布のほぼ中央を通る形で、 関数f(d) のグラフが描かれています。

当てはまりの面でも解釈のしやすさの面でも、想像以上に、きれいな結果を得ることができました。

 

  結論

既存の鉄道網の中で、後発路線の単独駅の乗車人員は、

  • 「鉄道路線」及び「他の路線の最寄駅からの距離」に大きく影響される。
  • 「他の路線の最寄駅からの距離」が遠いほど、乗車人員が多くなりやすい。
  • 一方、一定(おおむね2500m)以上離れると、それ以上に乗車人員は増えにくい。

といったことが、かなりの確からしさをもって言えそうです。