「既存駅からの距離に応じた乗車人員の増減」を数値化する　…分析①：「距離帯別係数」を用いる

分析①　「距離帯別係数」の導入

分析の主目的

前回の記事では、「後発路線（＝既存の鉄道網の中に、後から開通した路線）の単独駅」の乗車人員を推計する式として、以下の回帰式を立てました。

乗車人員＝定数 × 住勤鉄道需要 × 路線別係数 × 関数f(d) × 誤差項　…(1)

ここで、この分析の主な目的は、「他路線の最寄駅からの距離に応じて、駅の乗車人員（直接的には、鉄道需要・乗車人員比）が、どのように増減するのか」を把握することにあります。そして、これを関数として表したものが、 関数f(d) です。

したがって、ここでは、「 関数f(d) がどのような式で表される関数で、そのグラフがどのような形を描くのか」が、分析の主眼となります。

「距離帯別係数」の導入

ここでは、分析の初期段階として、 関数f(d) のグラフについて、たとえば「直線となる」「二次曲線となる」「指数曲線となる」といったような、特定の前提条件を置かない分析を行ってみます。

まず、「距離帯1：0～500m未満」「距離帯2：500～1000m未満」……というように、「他路線の最寄駅からの距離」が短いものから長いものまでを並べた「距離帯」を設定します。そして、分析対象の179駅を、距離帯別のグループに分類します。

この際、あまりに属する駅の数が少ないグループを作ってしまうと、その距離帯に属する特定の駅が、 関数f(d) のグラフの形に大きく影響してしまいます。ここでは、グループ間の駅数のバランスも考慮しながら、下表のような8つのグループに区分しました。

表1　設定した距離帯のグループ

次に、このグループごとに、「乗車人員の多くなりやすさ」を数値化した係数として、「距離帯別係数」を導入します。

これは、路線別係数の「距離帯」版のようなものですが、別の見方をすれば、「他路線の最寄駅からの距離」の入力に対して「当該距離帯に含まれる駅の乗車人員の多くなりやすさ」を出力する、一種の関数でもあります。

これを踏まえて、(1)の式の 関数f(d) を距離帯別係数で置き換え、次のような回帰式にします。

乗車人員＝定数 × 住勤鉄道需要 × 路線別係数 × 距離帯別係数 × 誤差項　…(2)

回帰式を一次の重回帰分析に置き換え

路線j、距離帯kに属するi駅について、

J_i：i駅周囲1km圏内の住勤鉄道需要（トリップ/日）

P_i：i駅の乗車人員（人/日）

R_i：i駅の鉄道需要・乗車人員比（=P_i/J_i）

C：定数

L_j：路線jの路線別係数

Z_k：距離帯kの距離帯別係数

ε_i：i駅の誤差

とおくと、(2)の回帰式は、次のように表すことができます。

R_i = C × L_j × Z_k × ε_i　…(3)

これは、以下のように、両辺の対数をとり、「路線」「距離帯」に関するダミー変数を組み込むことで、単純な重回帰分析に置き換えることができます。

まず、(3)の式の両辺について、対数をとります。

log R_i = log( C × L_j × Z_k × ε_i ) = log C + log L_j + log Z_k + log ε_i　…(4)

(4)の式の log L_j に「路線jの駅について1、その他の駅について0をとるダミー変数S_j」をかけて S_j × log L_j とします。

同様に、 log Z_k に「距離帯kの駅について1、その他の駅について0をとるダミー変数T_k」をかけて T_k × log Z_k とします。

log R_i = log C + S_j log L_j + T_k log Z_k + log ε_i　…(5)

このようなダミー変数をかけた項を、各路線・各距離帯について連ねます(※1、※2)。

log R_i = log C + S₂ log L₂ + S₃ log L₃ + S₄ log L₄ + …… + T₂ log Z₂ + T₃ log Z₃ + T₄ log Z₄ + …… + log ε_i　…(6)

(6)の回帰式は、log Rを被説明変数とし、S₂, S₃, S₄, …, T₂, T₃, T₄, ……を説明変数とする、重回帰分析の式と見なすことができます。

なお、このような、「路線」「距離帯」のようなカテゴリ変数を組み込んだ回帰分析は、「数量化１類」とも呼ばれます。

※1：(5)と(6)の式が同じものであることの説明

例として、路線3・距離帯4の駅について考えてみます。

このとき、ダミー変数のうちS₃とT₄のみが1で、その他のS₂, S₄, S₅…, T₂, T₃, T₅…はすべて0となります。

すると、 S₂ log L₂ + S₃ log L₃ + S₄ log L₄ + …… の部分は S₃ log L₃ と等しくなり、 T₂ log Z₂ + T₃ log Z₃ + T₄ log Z₄ + …… の部分は T₄ log Z₄ と等しくなります。

※2：路線1の効果、距離帯1の項を設けないことの説明

(6)の式には、路線1 ＝JR埼京線に関する項 S₁ log L₁と、距離帯1 ＝0～500mに関する項 T₁ log Z₁ を組み込みません。

これは、この分析が、路線1＝JR埼京線の路線別係数L₁と、距離帯1＝0～500m未満の距離帯別係数Z₁を、それぞれ1.0に固定し、これを基準として、各路線の路線別係数と各距離帯の距離帯別係数を算出する、という方法をとっていることによります。

L₁とZ₁を1.0に固定すると、log L₁とlog Z₁はいずれも0となり、S₁ log L₁と T₁ log Z₁ も0となるため、式の中に登場しないこととなります。

そもそも、「 n 個に区分されたカテゴリ変数をダミー変数に変換し、回帰分析に投入する」場合、用意すべきダミー変数は、n 個ではなく n-1 個です。

n-1 個のダミー変数があれば、「1つのダミー変数が1であとは0」というパターンが n-1 種類と、「すべてのダミー変数が0」というパターンの合計で、 n 種類のカテゴリが区分できます。

ここで、n 個目のダミー変数まで投入してしまうと、n 個目のダミー変数が、それまでの n-1 個の変数との間に完全な相関を持つため、多重共線性の問題から、正しい回帰分析が行えなくなります。

重回帰分析（数量化１類）の分析結果

重回帰分析（数量化１類）の結果

log Rを被説明変数とし、S₂, S₃, S₄, …, T₂, T₃, T₄, ……を説明変数とする重回帰分析を行い、回帰係数（log C, log L₂, log L₃, log L₄, ……, log Z₂, log Z₃, log Z₄……）を推計すると、下記のような結果が得られます。

決定係数は0.7を超えており、かなり適合度は高そうです。

表2　①の重回帰分析の結果

距離帯別係数

距離帯に関する回帰係数 log Z_k のlogを外す（指数をとる）と、距離帯別係数 Z_k が得られます。

距離帯別係数は、基準に据えた距離帯1の係数1.000に対し、距離帯2では1.718、距離帯3では3.084……という値となり、距離帯6以上では、6.6付近でほとんど値が変わらなくなる、という結果となりました。

表3・図1　分析①による距離帯別係数

ここからは、「他路線の最寄駅までの距離」が遠くなるほど距離帯別係数は大きくなり、乗車人員も多くなりやすくなる一方、距離が2500mを超えると、乗車人員の多くなりやすさは変わらなくなることが読み取れます。

路線別係数

路線に関する回帰係数 log L_j のlogを外す（指数をとる）と、路線別係数 L_j が得られます。

路線別係数は、東京メトロ有楽町線（和光市～池袋間）を筆頭に、JR京葉線（蘇我～新木場間）、JR埼京線（大宮～赤羽間）などで大きく、千葉都市モノレール、金沢シーサイドラインなどで小さくなっています。

表4　分析①による路線別係数

全体的には、普通鉄道（路線1～14）に比べ、中量軌道輸送機関に位置づけられるモノレール等（路線15～19）の係数が、小さい傾向が読み取れます。

また、東京駅・大手町駅、新宿駅、池袋駅といった、東京都心の大ターミナル駅に直結する路線や、速達列車が設定されている路線の係数が、大きくなる傾向にあるようです。

JR京葉線、せっかく路線別係数が大きいのに、昼間以外の快速を全廃近くまで減らしてしまって、大丈夫なのでしょうか……

完成した回帰式

以上の結果をまとめると、分析①による(1)の回帰式は、下記のような結果となります。

定数Cは、重回帰分析で得られた回帰係数 log C = -1.511 のlogを外し（＝指数をとっ）た0.221となります。

乗車人員＝ 0.221 × 住勤鉄道需要 × 表4の路線別係数 × 表3の距離帯別係数 × 誤差

モデルの当てはまりのよさ

ここで、得られた関数f(d)のグラフの当てはまりのよさを確認するために、

横軸…「他の路線の最寄駅までの距離」
縦軸…「定数・路線別係数で補正した各駅の鉄道需要・乗車人員比 R_i /(C × L_j) ＝距離帯別係数Ｚ_k × 誤差ε_i 」

を置き、これを 関数f(d) ＝距離帯別係数Ｚ_kのグラフと重ね合わせてみます。

図2　分析①による関数f(d)と補正済み鉄道需要・乗車人員比の重ね合わせ

当初の散布図に比べ、各駅の分布のバラツキが抑えられ、また分布のほぼ中央を通る形で、 関数f(d) のグラフが描かれています。

当てはまりの面でも解釈のしやすさの面でも、想像以上に、きれいな結果を得ることができました。

結論

既存の鉄道網の中で、後発路線の単独駅の乗車人員は、

「鉄道路線」及び「他の路線の最寄駅からの距離」に大きく影響される。
「他の路線の最寄駅からの距離」が遠いほど、乗車人員が多くなりやすい。
一方、一定（おおむね2500m）以上離れると、それ以上に乗車人員は増えにくい。

といったことが、かなりの確からしさをもって言えそうです。

「既存駅からの距離に応じた乗車人員の増減」を数値化する …分析①：「距離帯別係数」を用いる

分析① 「距離帯別係数」の導入