コピーコンテンツの恐るべき負の効果

ホームページの検索順位が深刻に低迷している、という現象に遭遇し、原因を調べる機会がありました。
その結果、トップページの中身のほとんどが、同業者のホームページからコピー&改変したコンテンツであることが判明しました。
コピーコンテンツは検索エンジンの品質の妨げとなるため、Googleはその対策を続けており、今回のように実際に効果が出ているようです。
ここでは、本事案を紹介しながら、コピーコンテンツの負の効果について考えます。

負の効果の測定

対象

今回対象となったのは、地域の店舗のホームページです。
元のデータをそのまま公表できないため、人口規模と店舗数の類似性を調べ、仮に次表のエリア・業種としました。
実在する店舗とは一切関連がありません。

市町村横須賀市
最寄り駅久里浜駅
業種ラーメン店
店舗名ラーメン来々軒

コピーコンテンツの分析

今回はPHPで用意されているsimilar_textという2つのテキストの類似性をパーセントで表せる関数を利用し、トップページのコンテンツを分析しました。
その結果は、図のようにトップページの6つのブロックのうち5つがコピーコンテンツでした。
4つの文章は、他県のラーメン店の3つのホームページからコピーして、一部を改変しています。

検索順位と負の効果

検索結果は次表の通りです。ラーメン店の数が多いとはいえ、「業種+地域名」で上位100~200位にランクインしないのは不自然です。
また、ランクインしているのはいずれも下層ページであり、トップページが除外されている不自然な結果です。
以上から、コピーコンテンツを多く配置したトップページが、何らかのランクダウン措置(いわゆるペナルティ)を受けていると予想できます。

キーワード順位 / ヒット数(上位*1)ヒットしたページ
横須賀市 ラーメン-- / 170--
久里浜駅 ラーメン43 / 110下層ページ
ラーメン来々軒-- / 190--
ラーメン来々軒 横須賀6 / 110下層ページ
000-000-0000(電話番号)3 / 20下層ページ

*1) Googleでは「約50,000件」というように検索結果を返す一方で、「最も的確な検索結果を表示するために、上の ○○ 件と似たページは除外されています」として検索結果を「上位」と「除外対象」とに分けています。ここで示すヒット数は、除外対象外である「上位」の件数です。

分析と教訓

今回の結果から、分かること、予想できることを質疑形式で列記します。

  • Googleはコピーコンテンツを調べているのか?
    調べている
  • コピーコンテンツのペナルティは存在するか?
    存在する(Googleはペナルティとは呼ばないようなので、それは「-100点」のような減点の可能性がある)
  • 内容を改変してもバレるのか?
    バレる
  • コピーコンテンツはサイト単位(ドメイン単位)かページ単位か?
    おそらくページ単位(下層ページがランクインすることから。エースと言えるトップページがランクダウンすると、あたかもサイト単位のように見えると予想される)
  • ペナルティはキーワード単位かページ単位か?
    ページ単位(電話番号で検索した場合にトップページが除外されていることから、特定のキーワードでのみ除外されるわけではない)

コピーコンテンツを回避する方法は、とにかく自分で作文をすることです。
検索エンジン対策を考えれば、コピーしたプロの文章より自作した駄文の方が有利だと言えます。
作文は楽な作業ではありません。1回勝負ではないので、何度も書き直し、書き直しながら考えを整理し、少しずつ改善しましょう。

コピーコンテンツの基礎知識

コピーコンテンツとは

コピーコンテンツは、別のホームページにも掲載されたコンテンツ(ページ内容)の総称です。次のように分類できます。
対象は主にテキスト・画像で、改変有無があり、著作者であっても複数のホームページに同一コンテンツを掲載することでコピーコンテンツと判定される可能性があります。

コピー対象
種類改変
テキストあり
なし
画像あり
なし

その他、動画やプログラムなどもあります。

著作権者との関係
著作権者との関係利用許可著作権者の明示
同一人物--あり
なし
別人ありあり
なし
なし
(無断使用)
あり
なし

法律とコピーコンテンツ

  • 自ら作成した文章や画像などの創作物には、申請不要で著作権が与えられます。
  • 著作権者の了解を得ずに第三者が著作物(種類や改変有無を問わず)を利用すれば著作権の侵害になります。
  • 著作権者を明示し、改変をせず、その他のコンテンツとの区分けが明確で、また全体の中で主体とならなければ「引用」となります。

著作権が誰にでも与えられる権利であるのに対し、その侵害に関する法律は販売物(出版物や芸術作品)を対象にしているように見受けられ、誰でも著作物を公開できるネット時代には即していないように思われます。

検索エンジンとコピーコンテンツ

コピーコンテンツの問題は、検索エンジンという便利な道具に生じた歪みのようなものです。
検索エンジンが原因であり、これを正せるのは検索エンジンだけであり、問題を排除するために現在も努力を続けています。

検索エンジンにとってのオリジナル

検索エンジンでは、誰が著作権者であるかの判定が容易ではないため、基本的に最初にコンテンツが登場したホームページをオリジナルとして扱うようです。

コピーコンテンツの判断基準

著作権者が誰かではなく、「他に存在するか」に主眼が置かれています。
著作権者が著作物を複数の自分のホームページに設置した場合でも、コピーコンテンツと判断されるリスクがあります。

「皆様のお越しをこころよりお待ちしております」のようなありがちな文章がコピーコンテンツとなるならば、コピーだらけになってしまいますので、ありがちな言い回しや短文はコピーコンテンツにはならないと思われます。

コピーコンテンツの判断方法と精度

コピーかどうかの判定は、対象が膨大なため、コンピューターによる自動判定に依存しています。
ただし、コンピューターで怪しいケースを抽出し、最終決断は人力で行っている可能性もあります。

判定の精度には課題がありますが、日々改善していると思われます。今回の例のように、改変があってもある程度は検出されます。
検索エンジンの品質に関わる部分であり、今後も改善のためにリソースが割かれ、より良くなってくと思われます。

引用

ホームページ言語の起源が論文の共有であったり、Googleが「優れた論文は多く引用される」ことを順位算定のアルゴリズムに転用していたり、とホームページは引用に親和的なメディアです。Twitterやまとめサイトは引用を主体としたメディアとも言えるでしょう。
検索エンジンが引用を排除しようとしているとは思えません。
ホームページ言語に設けられている引用のためのルール(タグ)を利用したり、リンクを設置することで、引用であることを明示すればコピーコンテンツとは判断されないと思われます。しかし、自動判定を行っていることからも、リスクが伴うことを注意しましょう。

検索エンジンのコピーコンテンツ対策の必要性

検索エンジンの商品は検索結果であり、その品質は順位付けにあります。
役立つホームページを上位にランクし、検索に対する正答を提供することで、検索者の需要を満たします。
このとき、その役立つホームページがオリジナルかコピーかは、検索者にとっては関係ありません。

コピーがオリジナルを上回る逆転が起きると、オリジナルの作者は不利益を被ります。
努力が報われないとわかれば、クリエーターはその場を去り、やがて検索エンジンの品質低下にも繋がります。
そのため、検索エンジンとしてはオリジナルを優先し、オリジナルの作者に報い、秩序を守る必要がります。

わたしたちが気をつけるべきこと

誰でも情報を公開できる時代になり、Twitterやまとめサイトのような引用メディアが浸透し、著作権侵害やコピーコンテンツ問題は日常茶飯事となりました。
それでも、誰かが作成した創作物をコピーしてはいけない、という原則は常に忘れないようにしましょう。
ホームページで犯した違反への裁きは、法律により下されなくても、検索エンジンによって「ランクダウン」という形で下されます。
今はバレなくても、検索エンジンの精度は日々向上しており、いつかバレることになります。
コピーコンテンツはリスクが大きすぎる、ことを覚えておいてください。

2017/7/19