Google Analytics 4でリファラスパムを計測したので対策の設定を行ってみる

Google Analytics 4でリファラスパム(リファラースパム)に該当する流入データを見つけたので,対策をしてみました.

1.スパムの計測

Google Analytics 4(以下GA4)の計測結果を見ていると,いきなり流入が通常の3倍以上増えている日があるのを見つけました(図1参照).レポート機能で「集客 > ユーザー獲得」のレポートを見ると,図2のように2023年8月3日の「最初のユーザーのデフォルトチャネルグループ」のReferralが突然跳ね上がっています.

図1.異常なデータ

図1.異常なデータ

 

図2.Referralが突然増える

図2.Referralが突然増える

 

同じサイトを違うGA4で計測もしていたので,そちらを確認すると図3のように同日のデータには図2のような流入は計測されていません(ちなみに他のツールの計測でも図2のような流入は計測されていません).そこで,これはユニバーサルアナリティクスのときにもあったリファラスパムだなと思いました.つまり,実際の流入はなくGoogle Analyticsの測定IDを使ったスパム攻撃だと思いました.したがって,同じサイトを複数のGA4で計測しているのに,片方だけにこのようなおかしな流入が計測されます.

図3,同一サイトの他のGA4のデータ

図3,同一サイトの他のGA4のデータ

 

2.データ確認

ユニバーサルアナリティクスではこのようなリファラスパム対策として,記事「ユーザーエージェントの情報を利用したリファラスパム対策」に書いたようなことをしていました.

ですが,GA4でやれる対策が現状は限られている気がします.そのやれる対策は,該当する流入の参照元を除外設定することです.そこでまずは,流入元のデータを見てみます.ユーザー獲得のレポートで,図4の赤色枠内のように「ユーザーの最初の参照元/メディア」を選択して参照元の情報を調べます.今回は,図4の緑色枠内のように参照元が「urlumbrella.com」の流入がリファラスパムだとわかりました(これだけ流入があったのに,図4のように「エンゲージのあったセッション数」が「0」ということから明らかにスパムです.なお図4では見えませんが,「平均エンゲージメント時間」はゼロ秒でなく「9分34秒」となっていました.これからも参照元が「urlumbrella.com」の流入がおかしなデータだとわかります).

図4.ユーザーの最初の参照元が「urlumbrella.com」の流入がリファラスパム

図4.ユーザーの最初の参照元が「urlumbrella.com」の流入がリファラスパム

 

ちなみにその「urlumbrella.com」に該当する「セッションの参照元/メディア」の情報は,図5のように「(not set)」になっていました.

図5.「セッションの参照元/メディア」の情報は「(not set)」

図5.「セッションの参照元/メディア」の情報は「(not set)」

 

3.対策

「GA4の管理画面でプロパティにある「データストリーム」を選択します(図6参照).

図6.GA4管理画面

図6.GA4管理画面

 

該当するデータストリームを選びます(図7参照).

図7.データストリームの画面

図7.データストリームの画面

 

「ウェブ ストリームの詳細」で「Googleタグ」の「タグ設定を行う」を選びます(図8赤色枠内参照).

図8.ウェブ ストリームの詳細の画面

図8.ウェブ ストリームの詳細の画面

 

「Googleタグ」の「設定」の「すべて表示」をクリックします(図9赤色枠内参照).「Googleタグ」の「設定」の「もっと見る」をクリックします(投稿時から2ヶ月後に見ると表示変わっていました.図9赤色枠内参照).

図9.Googkeタグの項目をすべて表示させる

図9.Googkeタグの項目をすべて表示させる

 

すべての項目が表示になるので,「除外する参照のリスト」を選択します(図10赤色枠内参照).

図10.「除外する参照のリスト」を選択

図10.「除外する参照のリスト」を選択

 

マッチタイプを「参照ドメインが次を含む」で,除外したいドメインを入力します.今回の場合は「urlumbrella.com」を入力します(図11参照).そして右上の「保存」をクリックして設定が完了します.

図11.除外する参照のリストの情報を設定

図11.除外する参照のリストの情報を設定

 

これで,今回計測したリファラスパムへの対策は出来たはずです(具体的に確認していないというか,出来ないので検証のしようがないのです.毎日同じ所からリファラスパムが来ていれば止まったことが確認できますが,今回はまだ1日だけそのようなことがあっただけなので・・・).

 

4.追記

9月末にデータを確認すると参照元が「urlumbrella.com」のリファラスパムがまた計測されていたことに気付きました.上記で設定したフィルタが機能していないようです.

今回の計測は,前回と違い「新規ユーザー数」や「ユーザー数」などの指標ではそれほど多くの値で計測されていないアクセスでした.2023年9月25日と26日に「ユーザーの最初の参照元 / メディア」が「urlumbrella.com / referral」において,新規ユーザー(イベント「first_visit」)が「80」という計測がありました(図12参照).

 

図12.ユーザー獲得のレポート

図12.ユーザー獲得のレポート

 

今回は表示回数(イベント「page_view」)のイベントだけが異常に多くなるようなスパムになっていました(図13と図14参照).

図13.イベントレポートでのイベント「page_view」の異常値

図13.イベントレポートでのイベント「page_view」の異常値

 

図14.ページとスクリーンレポートで,TOPページに「ユーザーの最初の参照元 / メディア」が「urlumbrella.com / referral」のアクセスが異常に多いデータ

図14.ページとスクリーンレポートで,TOPページに「ユーザーの最初の参照元 / メディア」が「urlumbrella.com / referral」のアクセスが異常に多いデータ

 

標準レポートだけだと「urlumbrella.com / referral」に関連するイベントがわかりにくかったので,Looker Studioを使ってテーブルをつくりました(図15参照).このデータを見ていると,該当するスパムが「ユーザーの最初の参照元」が「urlumbrella.com」で「セッションの参照元」が「(not set)」であることがわかります.

 

図15.Looker Studioを作った「urlumbrella.com」に関連するイベントテーブル

図15.Looker Studioを作った「urlumbrella.com」に関連するイベントテーブル

 

他のデータを簡単に確認したところ「セッションの参照元」が「(not set)」であるようなアクセスは,ほぼこの「urlumbrella.com」のリファラスパムだけのようでした(数個ほど違う「ユーザーの最初の参照元」のもので「セッションの参照元」が「(not set)」のものがありましたが).

フィルタに「参照ドメインが次と完全一致」で「(not set)」を追加してみました(図16参照).これで様子見です.

図16.フィルタの再設定

図16.フィルタの再設定

 

そもそもこのフィルタの「参照ドメイン」とは,ディメンションの「ユーザーの最初の参照元」なのか「セッションの参照元」なのか「参照元」,それともすべてなのか・・・.

[GA4] 除外する参照を設定する

https://support.google.com/analytics/answer/10327750

 

5.追記2

10月末にデータを確認すると参照元が「urlumbrella.com」のリファラスパムがまた計測されていたことに気付きました.上記で設定した参照「urlumbrella.com」と「(not set)」を除外するフィルタが機能していないようです.

2023年10月14日に,「ユーザー最初の参照元 / メディア」の「urlumbrella.com / referral」で,ユーザー数「147」で,Topページのページビューが「4680」となっていました(図17参照).ここまで異常なページビューとなると他のページの値との差が大きすぎてグラフ表示がまともに機能しなく,苛つきます.

図17

図17

 

ググると,下記のリンク先で紹介されているようにGTMでReferrerの「urlumbrella.com」を除外するようなPage Viewのトリガーを作ってそれを関連するGA4のタグで使って除外できるようですが・・・.

Google Analytics 4でマシントラフィックを除外する

https://www.gainjp.com/exclude-machine-traffic-in-google-analytics-4.html

GA4の機能で場外するには現状でフィルタ以外に方法を思いつかなく,そしてそれが上述したように機能しないので最悪の状態です.

GA4のカスタムチャネルグループ機能を使って,「urlumbrella.com / referral」を単独のチャネル(例えば「スパム」)みたいのは作れると思いますが,それを除外設定などで表示しなくするようなことはできないと思われます.

追記(2024/3/7):上記のリンク先が「潜在的なセキュリティリスクあり」や「ウェブサイトは一定期間有効な証明書で同一性を証明します。www.gainjp.com の証明書は 2024/3/3 に期限が切れました。」となって通常ではアクセスできなくなっていました.

図18

 

上記の元ネタ?かもしれないサイトとして

排除Google Analytics 4裡的機器流量(3種方法)

https://www.haranhuang.com/exclude-machine-traffic-in-google-analytics-4.html

があります.GTMの設定の仕方(キャプチャの図)は同じ内容だと思います.タイトルからわかるように中国語のサイトです.Chromeの翻訳アドインなどを使うと,内容はだいたいわかると思います.

 

6.おわりに

GA4でのリファラスパム対策は,該当する参照元を上記のように1つ1つ設定して除外するしかいまのところないと思われます.

ユニバーサルアナリティクスでリファラスパムを計測し始めたときと同じような対策しか出来ない状況です(記事「ユーザーエージェントの情報を利用したリファラスパム対策」に書かれた対策は,いくらか時間がたって考え出された対策ですが,そのようなものがGA4でもできるようになるでしょうか).

ユニバーサルアナリティクスだと複数のビューを作れたので,このようなリファラスパム対策がちゃんと機能しているかを対策の設定をしたビューと設定しないビューを見比べることで確認しやすかったのですが,GA4ではそれも出来ません.

GA4ではそのフィルタが機能しているかの確認が非常にわかりにくいです.今回のような,毎日あるわけでもないがデータを非常に大きく狂わせるようなリファラスパス対策の場合は,非常にやっかいです.

GA4に対するリファラスパムがユニバーサルアナリティクスの時と同様に増えると,いまの参照元除外では非常に面倒であるのと,その対策の確認がやりにくいことからも心配になる出来事です.