Google Analytics 4でリファラスパム(リファラースパム)に該当する流入データを見つけたので,対策をしてみました.
目次
1.スパムの計測
Google Analytics 4(以下GA4)の計測結果を見ていると,いきなり流入が通常の3倍以上増えている日があるのを見つけました(図1参照).レポート機能で「集客 > ユーザー獲得」のレポートを見ると,図2のように2023年8月3日の「最初のユーザーのデフォルトチャネルグループ」のチャネル「Referral」が突然跳ね上がっています(2024年8月では「Referral」ではなく「Unassigned」がこのような跳ね上がるチャネルとなっています).
同じサイトを違うGA4で計測もしていたので,そちらを確認すると図3のように同日のデータには図2のような流入は計測されていません(ちなみに他のツールの計測でも図2のような流入は計測されていません).そこで,これはユニバーサルアナリティクスのときにもあったリファラスパムだなと思いました.つまり,実際の流入はなくGoogle Analyticsの測定IDを使ったスパム攻撃だと思いました.したがって,同じサイトを複数のGA4で計測しているのに,片方だけにこのようなおかしな流入が計測されます.
GA4のリファラスパムに関する新しい記事を書きました(2024年8月).
注:本記事の「3.対策」と「4.追記」で紹介している,GA4の設定の「除外する参照リスト」を行っても対策でもうまくいかない場合は,新しく書いた下記の記事が参考になるかもしれません
2.データ確認
ユニバーサルアナリティクスではこのようなリファラスパム対策として,記事「ユーザーエージェントの情報を利用したリファラスパム対策」に書いたようなことをしていました.
ですが,GA4でやれる対策が現状は限られている気がします.そのやれる対策は,該当する流入の参照元を除外設定することです.そこでまずは,流入元のデータを見てみます.ユーザー獲得のレポートで,図4の赤色枠内のように「ユーザーの最初の参照元/メディア」を選択して参照元の情報を調べます.今回は,図4の緑色枠内のように参照元が「urlumbrella.com」の流入がリファラスパムだとわかりました(これだけ流入があったのに,図4のように「エンゲージのあったセッション数」が「0」ということから明らかにスパムです.なお図4では見えませんが,「平均エンゲージメント時間」はゼロ秒でなく「9分34秒」となっていました.これからも参照元が「urlumbrella.com」の流入がおかしなデータだとわかります).
ちなみにその「urlumbrella.com」に該当する「セッションの参照元/メディア」の情報は,図5のように「(not set)」になっていました.
3.対策
「GA4の管理画面でプロパティにある「データストリーム」を選択します(図6参照).
該当するデータストリームを選びます(図7参照).
「ウェブ ストリームの詳細」で「Googleタグ」の「タグ設定を行う」を選びます(図8赤色枠内参照).
「Googleタグ」の「設定」の「すべて表示」をクリックします(図9赤色枠内参照).「Googleタグ」の「設定」の「もっと見る」をクリックします(投稿時から2ヶ月後に見ると表示変わっていました.図9赤色枠内参照).
すべての項目が表示になるので,「除外する参照のリスト」を選択します(図10赤色枠内参照).
マッチタイプを「参照ドメインが次を含む」で,除外したいドメインを入力します.今回の場合は「urlumbrella.com」を入力します(図11参照).そして右上の「保存」をクリックして設定が完了します.
これで,今回計測したリファラスパムへの対策は出来たはずです(具体的に確認していないというか,出来ないので検証のしようがないのです.毎日同じ所からリファラスパムが来ていれば止まったことが確認できますが,今回はまだ1日だけそのようなことがあっただけなので・・・).
4.追記
9月末にデータを確認すると参照元が「urlumbrella.com」のリファラスパムがまた計測されていたことに気付きました.上記で設定したフィルタが機能していないようです.
今回の計測は,前回と違い「新規ユーザー数」や「ユーザー数」などの指標ではそれほど多くの値で計測されていないアクセスでした.2023年9月25日と26日に「ユーザーの最初の参照元 / メディア」が「urlumbrella.com / referral」において,新規ユーザー(イベント「first_visit」)が「80」という計測がありました(図12参照).
今回は表示回数(イベント「page_view」)のイベントだけが異常に多くなるようなスパムになっていました(図13と図14参照).
標準レポートだけだと「urlumbrella.com / referral」に関連するイベントがわかりにくかったので,Looker Studioを使ってテーブルをつくりました(図15参照).このデータを見ていると,該当するスパムが「ユーザーの最初の参照元」が「urlumbrella.com」で「セッションの参照元」が「(not set)」であることがわかります.
他のデータを簡単に確認したところ「セッションの参照元」が「(not set)」であるようなアクセスは,ほぼこの「urlumbrella.com」のリファラスパムだけのようでした(数個ほど違う「ユーザーの最初の参照元」のもので「セッションの参照元」が「(not set)」のものがありましたが).
フィルタに「参照ドメインが次と完全一致」で「(not set)」を追加してみました(図16参照).これで様子見です.
そもそもこのフィルタの「参照ドメイン」とは,ディメンションの「ユーザーの最初の参照元」なのか「セッションの参照元」なのか「参照元」,それともすべてなのか・・・.
https://support.google.com/analytics/answer/10327750
GA4のリファラスパムに関する新しい記事を書きました(2024年8月追記).
注:本記事の「3.対策」と「4.追記」で紹介している,GA4の設定の「除外する参照リスト」を行っても対策でもうまくいかない場合は,新しく書いた下記の記事が参考になるかもしれません
5.追記2
10月末にデータを確認すると参照元が「urlumbrella.com」のリファラスパムがまた計測されていたことに気付きました.上記で設定した参照「urlumbrella.com」と「(not set)」を除外するフィルタが機能していないようです.
2023年10月14日に,「ユーザー最初の参照元 / メディア」の「urlumbrella.com / referral」で,ユーザー数「147」で,Topページのページビューが「4680」となっていました(図17参照).ここまで異常なページビューとなると他のページの値との差が大きすぎてグラフ表示がまともに機能しなく,苛つきます.
ググると,下記のリンク先で紹介されているようにGTMでReferrerの「urlumbrella.com」を除外するようなPage Viewのトリガーを作ってそれを関連するGA4のタグで使って除外できるようですが・・・.
Google Analytics 4でマシントラフィックを除外する
https://www.gainjp.com/exclude-machine-traffic-in-google-analytics-4.html
GA4の機能で場外するには現状でフィルタ以外に方法を思いつかなく,そしてそれが上述したように機能しないので最悪の状態です.
GA4のカスタムチャネルグループ機能を使って,「urlumbrella.com / referral」を単独のチャネル(例えば「スパム」)みたいのは作れると思いますが,それを除外設定などで表示しなくするようなことはできないと思われます.
追記(2024/3/7):上記のリンク先が「潜在的なセキュリティリスクあり」や「ウェブサイトは一定期間有効な証明書で同一性を証明します。www.gainjp.com の証明書は 2024/3/3 に期限が切れました。」となって通常ではアクセスできなくなっていました.
上記の元ネタ?かもしれないサイトとして
排除Google Analytics 4裡的機器流量(3種方法)
https://www.haranhuang.com/exclude-machine-traffic-in-google-analytics-4.html
があります.GTMの設定の仕方(キャプチャの図)は同じ内容だと思います.タイトルからわかるように中国語のサイトです.Chromeの翻訳アドインなどを使うと,内容はだいたいわかると思います.
追記(2024/8/22):この5節の内容の対策は,リンク元が有効でないようなことを書いている(そのように書き直した)ようです.
6.おわりに
GA4でのリファラスパム対策は,該当する参照元を上記のように1つ1つ設定して除外するしかいまのところないと思われます.
ユニバーサルアナリティクスでリファラスパムを計測し始めたときと同じような対策しか出来ない状況です(記事「ユーザーエージェントの情報を利用したリファラスパム対策」に書かれた対策は,いくらか時間がたって考え出された対策ですが,そのようなものがGA4でもできるようになるでしょうか).
ユニバーサルアナリティクスだと複数のビューを作れたので,このようなリファラスパム対策がちゃんと機能しているかを対策の設定をしたビューと設定しないビューを見比べることで確認しやすかったのですが,GA4ではそれも出来ません.
GA4ではそのフィルタが機能しているかの確認が非常にわかりにくいです.今回のような,毎日あるわけでもないがデータを非常に大きく狂わせるようなリファラスパス対策の場合は,非常にやっかいです.
GA4に対するリファラスパムがユニバーサルアナリティクスの時と同様に増えると,いまの参照元除外では非常に面倒であるのと,その対策の確認がやりにくいことからも心配になる出来事です.
GA4のリファラスパムに関する新しい記事を書きました(2024年8月追記).
注:本記事の「3.対策」と「4.追記」で紹介している,GA4の設定の「除外する参照リスト」を行っても対策でもうまくいかない場合は,新しく書いた下記の記事が参考になるかもしれません