記事

SEOの最重要特許ベスト10 その5 – フレーズベースのインデックス

SEO Japanでもお馴染みになってきたSEO by the Seaの「SEOに関する最重要特許」シリーズ、今回はフレーズベースのインデックスに関するお話を。「何となく意味は分かるけど何が重要なの?」というあなた、検索精度を高めるのはもちろん、リンクスパムを撲滅する意味合いでもとっても重要な特許なんです。今回はそんなフレーズベースのインデックスの謎に迫ります!
— SEO Japan

21世紀の最初の10年間で世界最大の検索エンジンを作ったその人物は、その直後にグーグルに加わり、そして、そのテクノロジーをグーグルに委託したと見られている。この人物はグーグルで長年働き、ページ上に現れる重要なフレーズを基にページをインデックスする手法、フレーズがページで再び現れる仕組みに注目してページをまとめ、ランキングを変更する手法、フレーズを使ってスパムページおよび重複するコンテンツを持つページを特定する手法、そして、フレーズを利用してページに対するタクソノミーおよびスニペットを作成する手法を考案した。このフレーズベースのインデックスシステムは、グーグル爆弾に対抗する手段を与え、どの程度のアンカーテキストの関連性をリンクに渡すべきかを特定することが可能であった。

画像を見る

その後、当該の人物であるアンナ・パターソン氏はグーグルを去り、グーグルキラーとなるはずの検索エンジン、Cuil(クイル)を立ち上げたが、失敗に終わった。パターソン氏は再びグーグルに戻り、フレーズベースのシステムに取り組んでいるようである。

同氏が生み出したフレーズベースのインデックスシステムは3つの世代にまたがると言われており、3世代の特許で描かれている。

この特許ファミリーの1代目の世代は、2004年6月26日、またはその後の数年内に申請されていた。

2代目のフレーズベースのインデックスの特許は、2007年3月30日に申請されたようであり、フレーズベースのインデックスを大規模なデータシステムに導入する仕組みを描いていた。ただし、現在も審査中であり、まだ公表されていない2世代目の特許は他にも幾つかあるようだ。

そして、第1世代の特許の一つを再び申請し、付与された第3世代のフレーズベースのインデックスの特許がデビューを飾っている。

単一の単語のインデックス

ページに向かうリンクの品質と量を基に文書を格付けする仕組みに加え、グーグルは、検索されたクエリの用語もまた特定のページに現れているかどうかにも注目している。グーグルのマット・カッツ氏は、1本目のグーグル・ライブラリアン・ニュースレターの中で(ちなみにこのニュースレターは最近消えてしまったようだ)、グーグルのこのシステムを見事に説明していた。私はミシガン大学のウェブサイトでこの文書のコピーを発見した。この文書を基に私はこのエントリの残りを綴るつもりであり、是非、皆さんにも目を通してもらいたい。

このニュースレターは、グーグルが結果を集め、格付けしているのかと言う疑問を投げかけ、答えていた。読む際は特に「ポスティングリスト」のセクションに注意して欲しい。第2世代のフレーズベースのインデックスの特許を読み始めると、フレーズがポスティングリストに含まれると考えられる仕組みへ言及していることに気づくだろう。

フレーズベースのインデックス

多数の第1世代のフレーズベースのインデックスは2004年7月26日に申請されており、その大半の説明はほとんど同じだが、請求範囲が異なっていた。

私はフレーズベースのインデックスに関しては複数のエントリで取り上げており、このアプローチを最も詳しく紹介しているのが2006年12月29日に投稿した「フレーズベースの情報検索およびスパム検知」である(この先に進む前に一度立ち寄って、読んでおくことを強く勧める)。

フレーズベースのインデックスの特許 第1世代を取り上げたSEO by the Seaのエントリ:

フレーズベースのインデックスの特許を取り上げたSEO by the Seaのエントリ:


フレーズ化のインデックスを支える推測とアプローチ

1) 良いフレーズとあまり役に立たないフレーズを見分けることは可能である。良いフレーズは例えば[ice cream]のようにフレーズ自体が意味を持つ。[ice]と[cream]だけとは異なる。良いフレーズとは[President of the]とは対照的に、[president of the United States]のように完全なフレーズである。 フレーズは単語1つの可能性もある。ドイツの羊飼い、もしくは、犬の種類を意味する[German Shepard]のように、複数のフレーズを持つ場合もある。

2) その他のフレーズと同時に現れる傾向のあるフレーズもある。例えば、[President of the United States]で検索を行い、10位、100位、もしくは1000以内の結果を見ると、[whitehouse]、[vice president]、[Oval Office]、または[Washington, DC]等関連する複数の用語がこれらのページに定期的に表示されている点に気づくのではないだろうか。検索エンジンは、これらの通常同時に現れる関連するフレーズを持つ傾向があるフレーズを検索結果で上位に押し上げる可能性がある。しかし、統計的に見てこのようなフレーズを必要以上に多く持っているページは、スパムと見なされるだろう。

3) 意味が複数あるフレーズに対しては、異なるタイプの関連するフレーズの“塊”が存在する可能性がある。例えば、フレーズが[German shepard]なら、上位(10位、100位、1000位)の検索結果に現れる一連の関連するフレーズに[kennel]、[dog collar]、[dog house]、[obedience training]等の用語が含まれている場合、このフレーズの1つの意味を示唆すると推測される。[German shepard]のフレーズでランクインしている2番目の文書のグループが[sheep herding]、[Germany]、[large flock]、そして、[Grazing space]等の用語を含んでいる場合、これらのフレーズは、ドイツの羊飼いを描写しており、2つ目の意味を示唆すると見られる。

4) フレーズまたは関連するフレーズ(当該のフレーズに対してページ上で同時に現れる傾向があるフレーズ)を含むページに向かうリンク内のアンカーテキストは、含まないページよりも重要視されるべきである。そのため、[miserable failure]等のテキスト使ってグーグル爆弾のターゲットになった米国大統領の経歴を含むページは、このページがこの用語に関連していないなら、[miserable failure]で上位にランクインさせる効果はない。数年前、グーグルは、フレーズ[miserable failure]を使ったジョージ W. ブッシュの経歴ページに対するグーグル爆弾を葬ったと発表していた。そして、このページは、少なくともホワイトハウスのスタッフの誰かがページを更新している際にうっかり[failure]と言う単語を加え、グーグル爆弾を復活させてしまうまでは、上位への格付けは行われていなかった。

5) また、グーグルは意図的にインデックス内でページとフレーズのつながりを削除することで、特定のフレーズへの上位への格付けを阻止することも可能であり、スパム行為に及ぶページへのペナルティとして利用する可能性がある。

フレーズベースのインデックスの特許: 第1世代


フレーズベースのインデックスの特許: 第2世代

第2世代の特許の多くはまだ米国特許商標庁から公表されているわけではなく、また、付与されるまでは公表されない可能性もある。複数の公表済みの特許はアンナ・パターソン氏が発明者として関わっているが、多くの特許には同氏の名前は挙がっていない。まず審査中の特許を挙げていく。繰り返すが、フレーズベースのインデックスに関する特許は、付与されるまでは公表されていなかった点を伝えておこう。


フレーズベースのインデックス: 第3世代

現時点では1点しか存在しないようだが、グーグルが、この一連の既存の特許に請求範囲を加える続きの特許を、もしくは特定の特許から一部の請求を分離させ、これらの請求範囲を拡大することに焦点を絞る分割特許をさらに申請していく可能性はある。

フレーズベースの情報検索システムでのスパム文書の検知(米国特許番号 8,078,629)
発明: アンナ・リン・パターソン
付与日: 2011年12月13日
申請日: 2009年10月13日

概要

フレーズを使って、文書のインデックス、検索、整理、そして、説明を行う情報検索システム。文書内のその他のフレーズの存在を推測するフレーズが特定される。文書は含まれるフレーズに応じてインデックスされる。スパム文書は、文書内に含まれる関連するフレーズの数で特定される。

結論

特許の数だけでなく、グーグルがフレーズベースのインデックスを利用している点を信じるに足る理由は数多くある。また、グーグルがフレーズを処理する仕組みを把握するため、フレーズを使っていろいろ実験する価値はあるだろう。

キーワードリサーチ、ウェブページの最適化、そして、リンク構築を行っているなら、フレーズベースのインデックスの仕組みを理解することがその取り組みにプラスに働くだろう。

幸いにも、グーグルがこれらの特許で説明されているようなフレーズベースのインデックスを実施していなかったとしても、ページの最適化の対象に選びたい用語やフレーズに“関連する”可能性のある用語やフレーズを理解し、このような関連するフレーズをページに含める努力をすることで、より豊かで、より質の高いページを作ることが出来るだろう。


この記事は、SEO by the Seaに掲載された「10 Most Important SEO Patents, Part 5 – Phrase Based Indexing」を翻訳した内容です。

いきなりアンナ・パターソンの話ですが、スミマセン、私も「そういえばCuilって検索エンジンが一瞬話題になったよな・・・」程度でその名前までは知りませんでした。いずれにしても現在Googleで再度頑張っているということで何よりです。って、記事読む限りSEO業者には天敵な人かも?

特許を羅列しただけのような記事になっていましたが、部分部分の鋭い分析コメントには着目したいですね。単語レベルでなくフレーズベースでウェブページをインデックスすることで、ウェブページの内容をより的確に理解することができるようにする。そしてリンク評価に関してもフレーズベースで評価することにより、かつて流行ったGoogleボムのような単一ワードの過剰リンクによる順位操作を妨げ、より適切なウェブコンテンツからのリンクをより正しく評価できるようになると。

いっていることは、なんとなく理解できますし、多分ある程度実装されている気もしなくもないです。最後にも触れられていますが、SEOでも最近はウェブページに上位表示を意識したキーワード以外の関連語を入れることが重要だという話がありますが、そこにもこのフレーズインデックスの影響が出ているのでしょうか?

Google自身のSEO防御策にも、ロングテール検索時代のユーザーニーズに答えるためにも有効と思われるこのフレーズベースのインデックス、SEOに携わっているあなたなら最低限の知識は理解しておきたいところです。 — SEO Japan

トピックス

ランキング

  1. 1

    共産党の式欠席に「ありえない」

    音喜多 駿(参議院議員 / 東京都選挙区)

  2. 2

    渋野騒動 日テレのスポーツ軽視

    WEDGE Infinity

  3. 3

    立ち食いやきそば コロナで閉店

    田野幸伸

  4. 4

    簡単に休業要請 橋下氏「最悪」

    橋下徹

  5. 5

    医療崩壊危惧のワケ 医師が解説

    中村ゆきつぐ

  6. 6

    竹中氏もMMT認めざるを得ないか

    自由人

  7. 7

    韓国はなぜ延々謝罪を要求するか

    紙屋高雪

  8. 8

    株バブル過熱で短期調整の可能性

    藤沢数希

  9. 9

    秋篠宮さまにみる結婚反対の本音

    女性自身

  10. 10

    無策の菅政権「日本危なくなる」

    畠山和也

ランキング一覧

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。