重複コンテンツ(Duplicate Contents)と低品質なコンテンツを混同して説明される場合がありますが、Googleの言う重複コンテンツとはシステム上、意図せず重複してしまう完全一致の異なるURL、同一の内容ページや複製盗用されたページを指します。実際のところ25~30%の重複は「一般的」であり、そうした意図しない重複を「あまり」気にする必要は無いとのことでした。
が!突き詰めていくと、気にした方が良いという結論に達します。
重複コンテンツに関する説明
ウェブ全体を見ると25%くらいは重複コンテンツが常に発生しているようです。そして、それらの重複と思われるコンテンツに関しても単純に「最も良質と思われるものを選定」しているだけで、「順位表示されない記事」は重複の問題では無いそうです。
「ある検索クエリで検索結果が一部のページに限定されるのは、複数のページを束ねるクラスタからの選択によるもので、そのコンテンツ群の中で適しているとGoogleが判断しているページを表示しているため」
● Googleからのビデオ解説
Googleの検索品質チームの責任者マット・カッツ氏がビデオで重複コンテンツに付いて説明しています。
このビデオに関する訳と解説は渡辺氏の記事で解説されています。
●各記事による説明
ほとんどが2008年頃に「Googleが話題にした」時に書かれています。決して新しくは無いメソッドです。
【参考】(2008/6)Google、重複コンテンツ(コピペサイト)の対処方法について解説 -SEMリサーチ
【参考】(2008/9)重複コンテンツはペナルティにはならない – グーグルが再説明 海外SEOブログ
重複コンテンツは程度の問題
上記の解説に有るとおり、重複コンテンツには幾つかのパターンあります。RSSなどとの重複、コンテンツの盗用、CMSのクエリ付きページ、同一の商品を2つのECショップで扱っている場合等。
何れも確かによくある事です。それを放置してよいかという、それは違う気もします。
世の中のSEOな人達がそんな事は理解した上で議論しているのは
世の中のSEOな人達がそんな事は百も承知で議論しているのは検索順位の下落の相関関係にある(と思われる)不確定要因を1つでも排除したいのだと思います。
大規模サイトの問題と言われても、順位に拘泥すればする程、気になるのは確かです。他の不確定要因が多すぎるだけに、目立つのが重複コンテンツです。
Googleの発言は大局であり枝葉のサイトで問題が発生していても気付いてくれないという経験によるものでしょう。Googleが信頼できない事を前提にした上で、監視する指標が絞れるので「下がった要因」「上がったポイント」がわかりやすくなります。
そもそもページの評価が意図しない形になるのも気持ちが悪い。
ペナルティでは無いが勿体ないケース
【参考】ECサイトで自社サイトと楽天ショップの重複コンテンツを防ぐ方法 海外SEOブログ
鈴木氏も指摘している通り複数のECポータルサイトに出店し商品コンテンツをコピペして量産するのは「よくあります」。それをやらないと、のれん店の出店は採算が取れなくなる場合が多いです。ましてや、デザインを作り直すのは大変です。
● 2つのEC店舗で同一の商品を、同一の内容で配信している。
「商品点数が多すぎて大変な場合でも、商品テキストを流し込む前に予め想定されるテキストを一括置換するなりして、工夫するのが最善だと思います。」
売り上げの問題で一方の撤退を余儀なくされる事も多くありますので、(私見ですが)無理に1つのコンテンツに纏めるより、評価が分断してた方が保険にはなるかと思います。(あくまで複数ポータル出店の場合です。)
● (同じショップ内で)ほぼ同一だが色だけが違う商品(1字だけ違うなど)
例えば「A商品:カラー白」と「A商品:カラー赤」が、そのまま異なるURLとなっている場合、各商品に付く「ソーシャル評価」は分散してしまいます。なので迷わずrel=”canonical” ですが挿入できない場合は、こちらも説明文を変更するのが妥当でしょうね。
盗用の問題
これはGoogleの検索アルゴリズムの問題では無く、著作権の問題ですね。盗用先が優先して表示された場合、何らかの対処が必要です。Wordpressの場合、PUSHプラグインを使うと爆速インデクスで公開が先か後かくらいは正しく認識してくれるかもしれません。
PUSHとは
pubsubhubbub(パブサブハブバブ)の略称です。舌を噛みそうなネーミングで、私は未だに巧く言えません。RSSの超高速バージョンです。
RSSは購読者(又はリーダー)が読みにくるまで待機状態です。サイト側から働きかける事ができません。対してPuSHは更新すると即座にHUBと呼ばれる通知サーバーからGoogleに通知されます。秒速で。
それ以外は「DMCA侵害」で排除するしかなさそうです。
DMCAとは
デジタルミレニアム著作権法(デジタルミレニアムちょさくけんほう、英: Digital Millennium Copyright Act; DMCA)は、アメリカ合衆国で1998年10月に成立し、2000年10月に施行された連邦法。米国著作権法(U.S. Code, Title 17)等の一部を改正する法律である。 -Wikipedia
【参考】著作権違反の全パクリサイトにDMCA侵害申し立てしたら12時間で処理された – パシのSEOブログ
WordPressの重複コンテンツは?
WordPressなどのnoindexに対する見解も、今回の延長線上にあると思います。重複にならないから「がんがんインデクスさせた方が良い」というのが基本路線ですがー
・日付ベースは構造が全く同じになる場合もあるので、その時はnoindexがいいかもです。
・投稿者が1名しか居ないなら、これも同じ構成になるので、その時はnoindexがいいかもです。
・見出し+書き出しの構成(続きを読む)を使っているなら、ほとんど考えなくても良いかも知れません。
・構造が全く同じにならないなら、ほかはindexでいいと思います。
・noindexをせずにGoogleに任せた方が良い場合も多いです。
(判断付かない時など。)
「むしろindexになっているか確認しとけ」という事でもありますが。
まとめ
・ペナルティにはならないが対策は考慮した方がいい。
・将来も見越して熟慮した結果「対策しない」はアリ。
・同一ドメイン内での評価の分断は避けた方がいい。
・盗用は自分のコンテンツより上位に行く前に芽を摘んだ方がいい。
と、カッツ氏の意図とは異なる結論になってしまいました。放置してよい事なんか、あんまりないじゃないか!