Web Spam Taxonomy - 日々の勉強の航跡

Zoltan Gyongyi, Hector Garcia-Molina
Web Spam Taxonomy
In Proceedings of 1st International Workshop on Adversarial Information Retrieval on the Web
2005. May
論文の在処

概要

タイトル通りウェブスパムの分類をしている。
Term SpammingとLink Spammingと大きく二つに分けている。
スパム行為を隠すテクニックに関しても少し書いている。
他の３つの論文の３つのスパムに関するデータを用いて、スパムページの割合などを議論している。

1. Introduction

導入。
検索エンジンはWebの入り口。
検索結果に対してスパムは悪影響を。実際"Kaiser pharamcy"で検索したときの例を用いている。
次にスパムにより検索エンジンのインデックスが膨張し、processed queryにかかるコストが増えることを問題だとしている。

2. Definition

まず、relevanceとimportanceの定義。relevanceは特定のクエリに対する関連性で、importanceはクエリーに関係なくページの重要性。

spamming refers to any deliberate human action that is meant to trigger an unustifiably favorable relevance or importance for some web page, considering the page's true value.
spamという形容詞をspammingによって生み出されるウェブのコンテンツやリンクに対して使う。spammingをする人をspammerと呼ぶ。

いくつかのSEOはweb communityに利益をもたらすが、ほとんどをspammingとみなす。

web spamに関連したテクニックは二つのカテゴリに分けられる。一つはrelevanceやimportanceを大きくするテクニック。もう一つはその行為を隠すテクニック。

3. Boosting Techniques

検索結果を向上させるテクニックを紹介。

3.1 Term Spamming

Term Spammingとはページのテキストフィールドのコンテンツをいくつかのクエリに対してrelevanceを上げるために仕立てるテクニック。

3.1.1 Target Algorithms
TFIDF。

3.1.2 Techniques
まずspammingを行うテキストフィールドによって分類できる。

・Body spam：
シンプルにbodyで行う。

・Title spam：
今日の検索エンジンはtitleに大きく重みを与えるので、titleでのspammingは理にかなっている。

・Meta tag spam：
最近の検索エンジンはheavy spammingのためメタタグの重みを小さくしている。

・Anchor text spam：
titleと同じように検索エンジンはアンカーテキストに大きな重みを与えている。
他のページをいじらないとできないことに注意

・URL spam：
いくつかの検索エンジンはURLを分析してrelevanceを決定するのに利用している。スパマーは時々spam termの連続の長いURLを使う。

spammingテクニックは良く合わせて使われる。

別の分類の方法はテキストフィールドに追加されたtermsのタイプによって行われる。

・Repetition：
少ない数のクエリに対してrelevanceを大きくする。

・Dumping：
関係ないterms、often even entire dictionariesをdumpする。
たくさんの異なるクエリに対してrelevanceを大きくする。dumpingは比較的rareでobscureなtermを含むクエリに対して有効。そのようなクエリに対してrelevantなページは少ないので、spam pageがトップに出てきやすい。

・Weaving：
他のページ（ニュース記事など）のテキストをコピーして、その間にspam termsを埋め込む。オリジナルのテキストがrareなとき有効。spam termsの繰り返をばれにくくする効果もある。

・Phrase stitching：
ほかのページからsentencesやphrasesをコピーしてきてつなげる。

3.2 Link Spamming

ページのimportanceを大きくするためにリンク構造を作る。

3.2.1 Target Algorithms
まずspammerが以下の三つのタイプのページを利用できるモデルを考える。
1. Inaccessible pages：このページの出リンクはいじれない。
2. Accessible pages：他の人に管理されているが、出リンクを書くことができる。
3. Own pages：何でもできる。own pagesの集合をスパムファームと呼ぶ。スパマーはこのようなページをn個持てるとする。

このモデルを念頭において、HITSとPageRankについて議論する。

3.2.2 Techniques
spammingテクニックを、ポピュラーなページへの出リンクを増やすか、入リンクをtargetページやページの集合にに集めるかで分類する。

Outgoing linkes
良く知られたページに手動でリンクをはったり、DMOZ Open DirectoryやYahoo! directoryなどをコピーする。

Incoming links
以下のような戦略で特定のページにリンクを集める。

・Create a honey pot：
Unix documentation pagesのコピーなどの有用なリソースを与えるページの集合（honey pot）を作り、そこから特定のスパムページへのリンクを張る。honey potは人々を引きつけ他のページからのリンクを集め、間接的にtargetページのランキングを上げる。

・Infiltrate a web directory：
いくつかのweb directoriesはウェブの管理者に彼らのサイトへのリンクをディレクトリのtopicの下に貼ることを許している。このようなdirectoriesのeditorがリンクの追加を管理しきれないこともある。そのときスパマーはtargetページへのリンクをこのようなdirectoryに追加する。directoriesは高いPageRankとhub scoreを持っている傾向があるので、このspamming techniqueはPageRankとauthority score両方を上げる効果がある。

・Post links on blogs, unmoderated message boards, guest books, or wikis：
targetページへのリンクを他のブログのコメントなどに埋め込む。

・Participate in link exchange：
しばしばスパマーのグループがリンクを交換する構造をset upしているので、それに参加する。

・Buy expired domains：
期限の切れたドメインを買って、そこにスパムページを作り、そこに向かって張られていたリンクを利用してrelevanceとimportanceを高める。

・Create own spam farm：
自分でリンクファームを構成する。

4. Hiding Techniques

ウェブユーザや検索エンジン会社のeditorからスパム行為を隠すテクニック。

4.1 Content Hiding

・背景色と同じ色でテキストを書く
・1ピクセルのアンカーイメージを埋め込む
・visible属性をfalseにする

4.2 Cloaking

crawlerと通常のウェブブラウザに対して別々のページを与えるようにする。

4.3 Redirection

検索エンジンにindexされたページからユーザを自動的に他のURLにredirectする。

5. Statisctics

他の論文の３つのスパムに関する統計データに関して議論。

6. Conclusions

この論文ではさまざまな一般に使われているウェブspammingテクニックを示し、分類した。research communityのawarenessをあげるのにこのようなstructureされた議論は重要だと主張する。このspam taxonomyは対抗策の似たようなtaxonomyも自然に導く。検索エンジンがspamとの戦いに適用できる二つのアプローチの要点を以下に記す。

1. Identify instances of spam：特定のタイプのスパムを発見し、そのようなページのクロールあるいはインデクシングをやめる。検索エンジンは自動、半自動の専売特許のスパム発見アルゴリズムと、indexesからスパムページを特定し取り除くhuman editorsの専門技術をいつも利用する。例えば[3]に示されたテクニックは機械により生成された構造、コンテンツのスパムファームを特定するのに利用されている。

2. Prevent spamming：特定のspammingテクニックを防ぐ。例えばクローキングを避けるため検索エンジンのクローラが普通のウェブブラウザのように振る舞う。

3. Counterbalance the effect of spamming：今日の検索エンジンは基本的なランキングメソッドのバリエーションを使っている。これらの特徴はspamにたいする復元力。

一方で個々のspammingテクニックに関わらず、spammingの問題にまとめて取り組むことも可能。このアプローチはスパムページのいくつかの共通するfeaturesに頼る。
例えば[5]に示されているスパム発見メソッドは立派なnon-spamページのapproximate isolationを利用している。立派なページは滅多にスパムをささない。なので、適切なリンク解析アルゴリズムは立派なページをスパムページから切り離すことができる、それぞれのspammingテクニックを個々に扱うことなしに。