記事

日本の大学ランキングが急落した理由とは?その3(ほんとうの理由)

1/2

前回のちょっと気が狂いそうにもなる「被引用数」の話を一応ご理解いただいたものと仮定して、いよいよ、なぜ、タイムズ世界大学ランキングで日本の「被引用数」スコアが急落したのか、という本題に入ります。

 まず図表30を見てください。横軸がタイムズ社の2014年の被引用スコア(以下Citationsと書きます)、縦軸が同じく2015年のCitationsです。

画像を見る

 どちらも「累積分布関数」によって表されています。これは、例えば、この値が「80」の大学は、その大学の下に80%の大学が存在することを意味します。その大学の上に約20%の大学が存在するといってもいいでしょう。2014年のタイムズ社Citationsは約700大学で分析されていますので、「80」の大学というのは、その下におよそ700×0.80=560の大学があるということであり、上には約140の大学があるということを意味します。つまり、700大学中約140位。

それでは2015年で「80」の大学はどうでしょうか?2015年は800の大学で分析されていますので、その大学の下におよそ800×0.80=640の大学があり、上には約160の大学があるということになります。つまり、800大学中約160位。

この図表30のグラフを見ると、右半分に点が偏っていますね。これは、2014年のタイムズ社のランキングでは分析された約700大学のうち上位400大学の値が公表され、それを下回る大学については公表されていないためです。なお、2015年は800大学の値が分析され、800大学の値が公表されています。

そして、2014年と2015年の値を比べると、2014年に比べて2015年の方が高くなっている大学が多いことがわかりますね。点の集まりの傾向としては上に凸の三日月型をしています。しかし、赤丸で示した日本の大学は、むしろ低くなっています。なぜ、他国の大学が上がっているのに、日本の大学が下がったのか、これが、今日のテーマです。

また、グラフをみて他に気づくこととしては、2014年から2015年にかけて大きくCitationsの値が低下した大学が、ぱらぱらと散在していることです。このような、集団から大きく外れた値を「外れ値」といいますね。

図表31には、タイムズ社世界大学ランキングにおいて、2014年から2015年にかけてのCitationsの変化に影響したかもしれないと思われるデータ処理工程の違いをまとめてみました。

画像を見る

 まずは分析担当機関がトムソン・ロイター社からエルゼビア社に代わり、そして、学術文献データベースが「Web of Science」と呼ばれるデータベースから「Scopus」と呼ばれるデータベースに変更されていることです。データベースの変更により、扱っている論文数は大きく異なっています。なぜ、論文数が大きく異なっているかということについては、「Web of Science」の方はトムソン・ロイター社が一定の質の評価を与えた学術誌のみを収載していることが一つの理由として考えられます。

 データベースが代われば、Citationsの値が違って当たり前、と言ってしまえば、それまでなのですが、それでは身も蓋もありませんね。全く同じ結果を期待するのは無理としても、異なるデータベースにおいても、よく似た結果が出ないことには、「被引用数」や「被引用インパクト」なるものが、大学ランキングの普遍的な指標として認められにくくなりますからね。

 データベースの変更以外にも、いくつかのデータ処理工程の違いがあります。

まず、分析対象大学の数が約700~800に変わったことです。これは、上にも少し触れましたが、累積分布関数表示をする時に影響してきます。それから、対象とする論文の発行年が異なります。2014年では2008-12年の5年間の論文、2015年では2010-14年の5年間の論文が分析されています。この2年間の経過の間に、被引用数が変わる可能性がありますね。

また、論文種が変更されています。論文には、原著論文、総説論文、会報論文などいくつかの種類があるのですが、2014年は[原著+総説]で分析されており、2015年は[原著+総説+会報]で分析されています。「会報」という論文種が加わったことにより、被引用数が変化する可能性があることは、前回の頭の痛くなるようなブログでご説明しましたね。

もう一つ大きな変更点がありました。地域調整の変更です。

トムソン・ロイター社が担当していた時には、被引用インパクト(正確には分野調整被引用インパクトCategory Normalized Citation Impact CNCI)が、国や地域によってかなり違うので、その差を弱めるために、高い国が低くなるように、そして、低い国が高くなるように、係数をかけていました。具体的には、その国や地域全体の被引用インパクトの平方根の逆数です。

それが、エルゼビア社に代わった2015年は、係数を掛けない生の値と、掛けた値を等しくブレンドしたと書かれています。つまり、地域調整の程度を半減させたということですね。

このように、データベースの変更という大きな変更以外にも、いくつかのデータ処理工程の変更がなされています。今回の検討では、図表32および33に記しましたように、トムソン・ロイター社のInCites™のデータを用いて、2014年~2015年にかけて行われたデータ処理工程の変更と類似のデータ処理工程(図表33の①~⑥)をたどって分析し、データベースが異なる2015年のタイムズ社Citationsを推定することを試みました。

画像を見る

 画像を見る

 この方法には、限界があります。それを、先ほどの図表32に記しました。特に、 現時点でInCites™を使って分析できるのは、その論文が発行された時から現在までの被引用数であり、それは、タイムズ社の分析がなされた時点の被引用数とは異なる、ということにも注意が必要です。

 全く異なるデータベースで、しかも、分析当時の被引用数とは異なる被引用数で、分析担当機関が代わったことで各指標の算出方法が同一であるという保証もない状況で、果たして使用に耐えうる確度で推定ができるのでしょうか?

 ちょっと無謀と感じられる試みですが、とにかくやってみることにしました。

<外れ値の検討>

 データ分析をする際には、まず外れ値を検討するのが定石とされていますので、それに従ってみました。

 図表30にもどっていただいて、三日月型の点の集まりの下に、ぱらぱらと散らばっている点が、外れ値と考えられます。その中で、特に2014年のCitationsが90以上で、25ポイント以上低下した6つの大学について、毎年の被引用インパクト(CNCI)を調べてみました。すると、図表34の左図のように、どの大学にも急峻なピークが観察されます。これは、小規模大学にしばしば見られる、被引用数のブーストです。被引用数が非常に高い論文が1個あるとこのようなことが起こります。

画像を見る

 ここには、日本の首都大学東京(前回のブログでご紹介しましたね)が含まれています。また、最も極端に下がった米国のフロリダ工科大学(Florida Institute of Technology)も含まれています。

この被引用数のブーストが、外れ値に何らかの関係があったのではないかと推測しています。図表34の右図は、図表30について、2008-2012年の論文数が6000以上あった大学、つまり大規模大学だけをプロットした図です。そうすると、図表30で見られた外れ値の大学は、ほとんど除かれてしまいます。

画像を見る

 図表35左図は、InCitesで求めた2014年のCitations推測値と2015年のCitations推測値の関係性を調べた図です。InCites™で求めた値どうしでも、パラパラと外れ値が観察されます。これらのほとんどは被引用数のブーストがみられる大学です。例えば、2015年Citations推定値で非常に高い値となり上に外れた大学は、2008-2012年の間にはブーストが起こらず、2010-2014年の間にブーストが起こった大学です。

図表30のタイムズ社Citationsの2014と2015の相関図では、右半分の上に凸の三日月型の集団になりましたが、推定値では、このようにS字状になります。2014年のタイムズ社のCitationsにおいても、400大学だけではなく700大学のデータをプロットすれば、このようなS字状になるはずです。つまり、2014年のCitationsが概ね半分より高かった大学ではより高く、低かった大学はより低く変化しているということが感じ取れますね。

赤丸で示した日本の大学は、軒並み低くなっています。ただし、最初から低い大学は、それ以上低くなりようがないので、低いままです。また、右上に一つ赤丸がありますが、これが首都大学東京です。InCites™の推定値では高いままなのですが、タイムズ社Citationsでは、大きく低下しています。このように、InCites™による推測と、タイムズ社のCitationsが大きくずれる大学が一部にあり、これが今回の方法の限界(つまり、データベースが変わったからということでしか説明できない部分)と考えています。

2008-12年の論文数が6000以上の大学に限ると、右図のように外れ値がほとんど観察されなくなります。首都大学東京も除かれてしまいます。

外れ値を示す大学の中には、必ずしも被引用数のブーストを示さない大学もあります。そのような大学は、どうも特定の国に多いように感じられました。そこで、国・地域を図表36に示したように、3つに分けて、2015年推定値と2015年タイムズ社Citationsの相関を調べてみました。

画像を見る

 グループAは、英・独・北欧・北米・イスラエル・豪・ニュージーランド、グループBは東・東南アジア、グループCは、仏・南欧・東欧・ロシア・中東・南米です。そうすると、グループAとBは、左図に示したように比較的集団がまとまっていましたが、グループCは右図に示したようにばらついており、推定の確度がかなり落ちることがわかりました。

 なぜ、グループCで推定値と実際の値との相関がばらつくのか、という理由については、例えばグループCの諸国を中心に、Web of Scienceにはあまり収載されていなかった種類の論文や学術誌(例えば英語以外の言語で記述された論文・学術誌やトムソン・ロイター社による評価の低い学術誌など)がScopusに多く収載されている等の可能性もありうるのではないかと考えていますが、確認をしておらず、詳細は不明です。

<2014年タイムズ社Citationsの推定>

 2014年のタイムズ社のCitationsはトムソン・ロイター社によって行われたので、同じ会社の同じデータベースに基づいているInCites™によって、簡単に推定できるはずと思われるかもしれませんが、先に限界のところで触れましたように、分析した時点が違うことにより異なった被引用数を用いて分析をしているので、必ずしもそうは言えないのです。

幸いInCites™には、CNCI-country adjという指標が参照できます。これは、トムソン・ロイター社がタイムズ社のCitationsを計算した時に使った指標であり、当時の分析時点の値と考えられます。図表37にこの、CNCI-country adjと2014タイムズ社Citationsの相関を示しました。両者は良く相関し、ほぼ同等の指標であると考えられます。

画像を見る一方、InCites™により、現時点でのCNCIから求めた2014年Citations推定値と、タイムズ社2014Citationsとほぼ同等とみなせる2008-12CNCI-country adjの相関をみると(図表38)、先ほどの図よりもばらつきが大きくなります。これは、分析時点の違いにより、異なった被引用数を用いているために生じる差であると考えています。しかし、まずまずの相関を示しているので、InCites™による現時点(2016年1月27日データ抽出)での被引用数を用いて評価可能と考えます。

画像を見る

<分析対象大学数の増加の影響>

タイムズ社のCitations算出において、2014年と2015年とでは、分析対象大学数が約700から800に変更され、700大学の一部は800大学に含まれておらず、一部入れ替わっています。

仮に500大学の分析で、Citationsが累積分布関数値で80だったとしましょう。これは、上位20%の位置にあることを意味し、順位としては100番目ということです。これに、その下位の大学が500加わり1000大学になったと仮定して計算しますと、この大学の順位は100番目で変わりませんが、上位10%に位置することになり、累積分布関数値は90に上がります。

これを、今回のタイムズ社Citationsで約700大学から800大学に変わったことで、どの程度累積分布関数値が変化するかをInCites™のデータで計算したのが、図表39です。85程度の大学では約2%上昇し、25程度の大学では約2%減少することがわかります。

画像を見る

<地域調整係数について>

 次に地域調整係数について説明します。

図表40に、計算方法を記しました。2014年では国・地域全体のCNCIの平方根の逆数。2015年では、それと「1」との平均値が地域調整係数と考えられます。

画像を見る

 

右端の表に主要国の二つの地域調整係数と、その増減率が示してあります。もともとCNCIが高かった国ほど高くなり、低かった国は低くなることがわかりますね。日本は-3.9%とわずかに低くなっています。

高々-3.9%ですが、他の多くの国が増えているので相対的に順位が下がり、累積分布関数で表示しますと、けっこうガクッと下がります。

このようにして求めた地域調整係数をCNCIに掛けて、2015年Citations推定値を求めますが、実際のタイムズ社Citationsと比較すると、なお、国・地域ごとにずれが観察されます。

図表41の右図は、米国の大学において、累積分布関数値を標準化値に変換して(平均0、標準偏差1)、2015年推定値とタイムズ社Citations値の相関を見たものですが、かなりきれいな直線相関関係が得られ、回帰直線はほぼ原点を通ります。

画像を見る

一方、左図に韓国と日本の大学を示しましたが、特に韓国の2015年推定値と実際の値とでは、回帰直線が原点を通らずに、少し上にずれています。これは、InCites™のデータで求めた地域調整係数と、実際にタイムズ社が使った地域調整係数のずれであると考え、補正を加えることにしました。

ただし、この方法は、推定値と実際の値とがばらつくグループCの国々では使えません。

ちなみに、米国で最も大きく外れ値となっている大学はフロリダ工科大学(Florida Institute of Technology)、日本は首都大学東京です。

<はたして推定値はどの程度実際の値を推定できたのか?>

さて、このようにしてInCites™によって求めた2015年Citations推定値と、実際のタイムズ社2015年Citationsは、どの程度合致したのでしょうか?

あわせて読みたい

「大学」の記事一覧へ

トピックス

  1. 一覧を見る

ランキング

  1. 1

    BLOGOSサービス終了のお知らせ

    BLOGOS編集部

    03月31日 16:00

  2. 2

    なぜ日本からは韓国の姿が理解しにくいのか 識者が語る日韓関係の行方

    島村優

    03月31日 15:41

  3. 3

    「いまの正義」だけが語られるネット社会とウェブ言論の未来

    御田寺圭

    03月31日 10:09

  4. 4

    カーオーディオの文化史 〜ドライブミュージックを支えた、技術の結晶たち〜

    速水健朗

    03月30日 16:30

  5. 5

    BLOGOS執筆を通じて垣間見たリーマンショック後10年の企業経営

    大関暁夫

    03月31日 08:27

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。