スクレイピング

読み :  スクレイピング

スクレイピングとはWEBサイトから必要な情報を抽出し、他のサイトでその情報を利用することを意味する。
他サイトから記事を抽出してそのまま転用すること、つまりはパクリである。
ウェブ・スクレイピング、ウェブ・クローラー、ウェブ・スパイダーと呼ばれることもあり、スクレイピングを行う者をスクレイパーと呼ぶ。
「scrape」は「削り取る」という意味の英単語で、「scraping」は「削ること」を意味する。
スクレイピングは手動によるコピー&ペーストから、PHPやPerlといったスクリプト言語を用いて抽出されることもあるが、いずれにしてもスクレイピングはWEB上ではマナー違反である。

有効なスクレイピング対策はあるのか?

スクレイピングサイトがオリジナルのサイトより検索結果で上位に表示されることがあり、スクレイピングはSEOに大きく関係している。
Googleは重複コンテンツを防ぐためにパンダアップデートというアルゴリズムを導入しており、最悪の場合はGoogleにオリジナルである自サイトがスクレイピングサイトであると判断され、順位を下げられることもある。
そうした悪質なスクレイピングを防ぐ確実な方法はまだないが、RSSを全文配信から部分配信に切り替えたり、Googleが導入しているPubSubHubbubを利用することでGoogleに自サイトの記事がオリジナルであると伝えることが有効な対策であるとされる。
PubSubHubbubについては別記事で詳しく解説→PubSubHubbub

また、Googleはスクレイピングサイトの情報を集める「Scraper Report」というページを設けており、オリジナル記事よりも上位に表示されているスクレイピングサイトの報告を受け付けている。
ただし、報告をしたからといって必ずスクレイピング問題が解決するわけではないので、あくまでも報告用として捉えておく方が良いだろう。




関連用語