ビットコインと金は一緒に動く?「見せかけの相関」とは
Crypto Times 編集部
今回は「ビットコインと金は一緒に動く?「見せかけの相関(Spurious Correlation)」とは」と題しまして、「見せかけの相関」と言われる現象を解説していきます。
詳しい説明は後ほどしますが、「見せかけの相関」とは2つの時系列データの相関分析で、実は相関がないのに高い相関係数が算出されてしまう現象のことです。
この現象が時系列データ分析では容易に起こることを知らないと、ビットコインと別の資産に相関関係があるというニュースに敏感に反応してしまうことになります。
もちろんそれらのニュースが正しければいいのですが、「見せかけの相関」に陥っているケースも否めないためすぐに鵜呑みにするのは危険と言えるでしょう。
先日BloombergやCoindeskから「ビットコインと金」の高い相関性を指摘した記事が出ましたが、Bloombergほど大きな企業だから大丈夫と盲信するのではなく、他の媒体や意見も参考にしてみてください。
これから解説する「見せかけの相関」に陥っている場合があるからです。
この記事を読んでいただければ、相関に関するリテラシーが向上し俯瞰的に関連ニュースをみることができるようになります。
まずは時系列データとはなにか説明していきます。
目次
時系列データとは?
そもそも時系列データとはどのような特徴をもつデータなのでしょうか。
我々が想定する”普通”のデータと何が違うのでしょうか。
時系列データとは、時間の推移とともに観測されるデータのことで、各時点で得られるデータは1つだけです。
2014年1月3日のビットコイン価格は1つしかありません(終値)。
また2019年3月2日午後2時に観測された気温は1つしかありません。それら各時間帯に得られたデータを縦軸に、時間を横軸に並べたデータがよくみなさんが目にするチャートと言われるものですね。
反対に、私たちにとっておなじみな、容易に統計分析が行える”普通”のデータを、時系列データと対比してクロスセクションデータ(cross section data)などと言います。
こちらのデータは同時点で複数のデータが得られます。2018年1月時点の東京都の世帯数・人口、またAさんの英語、数学、国語の期末試験の点数などです。
その他にもパネルデータなど、データの性質でデータの種類が区分けされています。
それら多くの種類のデータに相関分析が有効に使われていますが、とりわけ時系列データでは、時系列データならではの言える落とし穴があります。
2つの時系列データ、例えばビットコイン価格とダウ平均株価で相関分析をする場合、”本来は相関していない時系列データの間にあたかも相関関係が認められるかのように見えてしまう”現象が起こるのです。
それが「見せかけの相関」です。
見せかけの相関とは?
まずは「見せかけの相関」に陥ってしまっている2つの時系列データを見ていただきます。
以下のチャートは、相関係数が0.66と比較的高い相関を示している2つのデータです。
一方が、ニコラス・ケイジ(アメリカ俳優)の映画出演本数で、もう一方がプールでの水死による死亡者数の時系列データを示しています。本来相関などしているとは思えない2つのデータ間に高い相関性が認められてしまうような状況がまさに「見せかけの相関」と言われるものです。
2つのデータ間で0.66もの高い相関係数が算出されてしまいました。
もう一つチャートを見ていただきます。
アーケード(ゲームセンター)の総売上と米国のコンピューターサイエンス分野で博士号を与えられた人数のデータを示しています。
なんと0.9851もの高い相関係数を示しており、相関分析では2つの時系列データが相関しているという結果を示してしまっています。
「見せかけの相関」の原因はトレンドにある?
これらが起こる原因は、時系列データにトレンドというものがあるからだと考えられます。
全く2つのデータに相関がないにも関わらず、個別の要因で単調な上昇トレンドが2つのデータにある場合、あたかも2つのデータが同じ動きをしているように見える現象です。
上で見た、アーケード総売上と米国コンピューターサイエンス博士号取得者数には、それぞれ上昇トレンドが見られると思います。
関係はないけど同じ方向性を持って上昇しているのですから、データが同様な動きをしてしまい、結果的に高い相関値が出てしまうのです。
おそらく同時期に上昇トレンドがあるデータならばどんなデータでも、アーケード総売上と高い相関が見られるかと思います(例えば地球温暖化など上昇トレンドにあるようなもの)。
例えて言えば、同じ方向に向かって歩いている男女をカップルだと思ってしまうようなものですかね。
実は関係ないのにそばに寄り添いながら、または縦1列になりながら、同じ方向に歩いている2人の赤の他人同士が関係しているかのように見える現象に似ているかもしれません。
皆さんも一度は、同じ方向に歩きたいだけなのに後ろをついてきていると勘違いされた経験があるかと思います(僕のように)。
シミュレーションによる分析
では実際に、本来相関するはずのない2つの時系列データをシミュレーションして「見せかけの相関」が起こるか確かめてみたいと思います。
これは簡単で、本来相関がない2つのデータを使って相関分析をすればいいだけです。
相関するはずのないデータを用意するために、コンピューターを使ったシミュレーションにより乱数を生成します。
乱数はランダムな値なのでそれぞれ関連性がありません。
まず、ランダムウォークする2つの系列(RW1とRW2)を生成します。
ランダムウォークとは、ランダムに生成された値の累積和を取るデータです。簡単に言えば、過去に生成された乱数を現時点の乱数に加えてできたデータ群です。
ランダムウォークするデータを2つ用意しました。
これら2つのデータはランダムにウォークしていますから、データの間には相関がみられるはずがありません。
しかし、実際に相関を求めると十分に高い0.7443666という相関係数が弾き出されてしまいました。
またp値も2.2e-16とかなり低いため1%の有意水準でも信頼できる値ということになります。
p値 < 2.2e-16
これはどういうことでしょうか。上でも説明したように、2つのデータはそれぞれ上昇傾向にあると言えます。つまり上に向かう強いトレンドがあるということです(ランダムな値を足しているのでトレンドはできます)。
つまり、トレンドがある時系列データ間では、全く関係ないような系列でもこのように高い相関が出てしまうことがあるのです(もちろん常にというわけではありません)。
関係はないけどどちらも上に向かっているから相関しているように見えるということです。
ここで2つのランダムウォークしている系列にどのようなトレンドがあるのか、トレンド成分を抽出して可視化してみました。
見てわかるように、どちらのデータにも上昇トレンドが伺えます。
また試しに、図2の2つめのランダムウォークデータと、図1のダウ平均株価で相関係数をとってみました。
ダウ平均株価も対象期間では強い上昇トレンドが伺えるので高い相関性が予想できます。
結果は予想通り、この2つの間にも0.808とかなり高い相関係数が算出されました。
p値 < 2.2e-16
また一方がはっきりとした上昇トレンドで、他方が下落トレンドの場合強い逆相関が見られることも容易にわかります。
本当は関係ないのに、あたかも一方が下がれば他方が上がりその逆も起こると勘違いしかねません。
変化率を求めてトレンドを除去する
このように、双方の時系列データにはっきりとした単調トレンドがある場合、相関係数が(正・負のいずれかで)高くなってしまうことがあるのです。
この「見せかけの相関」を解決するためには、端的に言ってトレンドを除去してしまえばいいわけです。
トレンド除去方法はいろいろありますが、一番てっとり早い方法として変化率を取る方法がよく使われています。
変化率(または前期比)は、現時点のデータが前回のデータに比べてどれほど変化したかを表しています。
あるいは、対数差分を取る方法も使われます。対数差分も変化率もほとんど同じようなものだと思っていただいて構いません。
つまり前時点から現時点でどれだけデータの値が変化したかという変化率にデータを変形してあげれば良いのです。
ダウ平均株価(図1)を対数差分系列に変形させたデータをお見せします。
そうすれば以前まであったトレンド成分を除去することができ、トレンドの有無に関わらない相関が出せることになります。
実際にランダムウォークする系列をそれぞれ対数差分系列に変形して、相関をとってみました。
結果は、相関係数が-0.01043016で、相関していないという結論に至ります。
p値 = 0.6877
また、上で高い相関性を示したダウ平均株価とランダムウォーク系列も対数差分をとって再度相関を調べてみました。
結果は、-0.00371806と全く相関が見られないという結論に至りました。
p値 = 0.8861
これは当然と言えば当然です。
ランダムに生成された系列とダウ平均株価に相関が見られてしまったら、なんでも相関していることになってしまいます。
夏に差し掛かった頃のあなたが摂取する水分量とダウ平均株価すらも相関が見られてしまうかもしれません。
反対に対数差分によりデータを変形しトレンドを除去してしまうと、確かに相関しているデータ間の本来の相関性が失われるのではと心配になる方もいるかと思います。
そこで、ダウ平均株価とS&P500のデータ間の相関性を調べてみましょう。
これら2つのデータは多少の計算方法・対象株式が異なるだけでどちらも米国株式市場と同様に動く指標ですから、ほとんど一致するはずです。
まずはデータを変形させずにトレンド除去しない場合の相関係数を計算してみましょう。
すると0.99というとてつもなく大きな相関係数が出ました。
0.99の数値はとても高く、全く同じ動きをすることがわかります。もともとダウ平均株価とS&P500は似たように動くデータで、さらにトレンドも合間ってこのような高い相関係数が出ると言えるでしょう。
もちろんダウとS&P500ではそのようなことが起きても不思議ではありませんが。
では対数差分系列にしてから相関係数を計算するとどうなるでしょうか。
結果、0.96とそれでも高い値になりました。
これはトレンド除去を施したとしても本当に相関しているならば、相関係数も高くなることを意味しています。
当然アメリカの株価が上昇すればダウとS&P500も上がりますし、下がれば両方下がります。ダウ平均株価とS&P500なら当然似通った動きを見せるわけです。
ビットコインと金は本当に相関しているのか?
それではビットコインと金の相関性は実際に高いのでしょうか。それとも見せかけの相関がでてしまっているのでしょうか。
以下に示したが、2014年1月から2019年11月までのビットコインと金の日足のチャートです。
相関していると言えば相関しているし、相関していないと言えば相関していないように見えます。特に、最後の上昇などは、相関している感じがしますが、全期間ではあまり感じられないというのが率直な意見なのではないでしょうか。
では、まずそのままデータを変形させずに相関係数を計算してみます。
すると結果は以下のように
p-value < 2.2e-16
比較的高い相関がみられることがわかります。
また、Bloombergの記事が想定してる2018年8月から2019年8月の約1年間での相関係数を取りました(Bloombergが想定している期間と完璧に一致しているわけではありません)。
p-value < 2.2e-16
この値は、Bloombergが出しているビットコインと金の相関係数である0.496とほとんど一致する結果になりました。
よって、この分析によりBloombergがトレンドを加味しながら相関分析を行なっているだろうと予測ができます。
それでは、ビットコインと金のデータを対数差分系列に変換して、同期間の2018年8月から2019年8月までの相関係数を調べた場合、どういった結果になるでしょうか。
p-value = 0.02951
このように0.11ほどの相関係数が、5%の有意水準で認められました。
うっすらと、かなり弱い相関が確かに認められていますが、トレンド除去前の相関係数に比べてかなり低い値に止まっています。
もちろんこの分析が全て正しいというわけではありません。
トレンドを加味して分析すべき時もありますし、上記で説明した対数差分系列で時系列データを変形すると、いくつかのデータの性質が失われると知られています。
ですから、一概に対数差分系列での相関係数計算が良いというわけでも、Bloombergの相関分析が誤りであるというわけでもないことに注意してください。
ビットコインと金の相関性を盲信だけではなく、分析手法によっても相関係数が容易に変わる、あるいは解釈が変わるということも念頭におきながらニュースに接してみてはいかがでしょうか 。
まとめ
本記事では、2つのデータ間に単調なトレンドがある場合、本来相関していないにも関わらず高い相関係数が出てしまう「見せかけの相関」について解説しました。
つまり、時系列データでは比較的高い相関係数が出やすいと言えるでしょう。
ビットコインと金の間にある相関性が話題になったり、トレンド成分の故に同じような動きをしているかのように見える2つの時系列データにも疑いの目を持って向かいあわなければ、思わぬ損失を被る可能性があります。
ですから、国内・海外問わず「ある資産とビットコインの相関性が高い」というニュースが出た場合、その2つの資産の相関性をすぐに鵜呑みにするのではなく、是非他の媒体などを当たって確かめてみてください。
そのようなニュースがあればCrypto Timesのリサーチャー側も全力で検証に当たります。
最後まで読んでいただきありがとうございました。