Google Analytics 4の「urlumbrella.com」に関連するリファラスパムの対策を再考(前編)

Googleアナリティクス4(以下,「GA4」)の収集データにあるリファラスパムに関する対策を考え直してみました.このリファラスパムの多くは,「ユーザーの最初の参照元」の値が「urlumbrella.com」です.ただ詳しくデータを見てみると,「ユーザーの最初の参照元」の値が「direct」でもやはり「urlumbrella.com」に関係しているものがあり,それはセッションの値が「0」で,「総ユーザー数」や「表示回数」などの指標が大きい値として記録されて,データを汚している原因となっていました.

1.チャネル「Unassigned

記事「Google Analytics 4でリファラスパムを計測したので対策の設定を行ってみる」の執筆した段階では,問題となっているディメンション「ユーザーの最初の参照元」の値が「urlumbrella.com」に該当するデータ(「総ユーザー数」や「表示回数」などの指標の値を極端に狂わすデータ)は,GA4のデフォルトのチャネル グループでチャネル「Referral」に分類されていました.ですが,現在は「セッションのデフォルトのチャネル グループ」や「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」において,チャネル「Unassigned」に分類されています(カスタムチャネルグループを設定していない場合は,「メインのチャネルグループ」と「デフォルトチャネルグループ」が同一です.本記事のGA4は同一となっています.ななお2024年8月時点で,「urlumbrella.com」はGA4の「レポート」機能やLooker Studioではチャネル「Unassigned」に分類されていましたが,GA4の「探索」機能ではチャネル「Referral」に分類されていることに気付きました).これは,GA4のチャネル グループの分類方法が変更されたからです.その分類方法は

[GA4] デフォルト チャネル グループ

https://support.google.com/analytics/answer/9756891?hl=ja&sjid=4944204386642267843-AP

を参照してください.上記のページには

「unassigned」は、イベントデータに一致するその他のチャネルルールがない場合に使用される値です。

と書かれています.

 

2.リファラスパムを計測させない方法は・・・

記事「Google Analytics 4でリファラスパムを計測したので対策の設定を行ってみる」で紹介したGA4の「除外する参照のリスト」に「urlumbrella.com」や「(not set)」を追加してみる方法ですが,記事でも書いていますが機能していないと思います.「思います」というのは,除外リストに追加したリファラスパムに該当するデータがGA4で計測されているからです.また,ユニバーサルアナリティクスのように一つの計測IDに複数のビューを作ることができ,それぞれのビューに除外するフィルタを設置する・しないなどのようなことがGA4ではできないので,不定期に計測されているこのリファラスパムが本当にこれだけなのかはわかりません.

なお,記事「Google Analytics 4でリファラスパムを計測したので対策の設定を行ってみる」の「5.追記2」で紹介した「Google Analytics 4でマシントラフィックを除外する」は試していません(そのサイトを再度確認すると,その方法自体が「無効である」ようなことが書き加えられていました).

現状,参照元の値が「urlumbrella.com」に関連する(ディメンション「ユーザーの最初の参照元」の値が「urlumbrella.com」である,もしくはそれに関連していると思われるリファラスパム)のデータが,GA4に記録されないようにする方法はないと思われます(追記:後編の「追記1:GTMで除外用(例外)トリガーの設定」に,本記事作成後に知ったGTMのトリガーの例外を用いることで除外する設定に関することを加えました.現在検証中です.とにかく設定を知りたい方はその追記を見てもらえば思います.ですが,今後それだけではおそらく解決しないのではと考えています.その理由などは,この記事の前編と後編と見てもらえばと思います).

そもそも参照元の値が「urlumbrella.com」に関連するアクセス(例えば,ボットなどを用いたサイトへのアクセス)自体が実際にはないと思います.このことは1つのサイトにGA4を複数設置して計測していると気づけたりします.例えば,本サイトは複数のGA4を導入していますが,参照元の値が「urlumbrella.com」に関連するデータがあるGA4と,そのデータが全くないGA4(除外のための対策とかをこのGA4はもちろんしていません)があることを確認しています.これは,参照元の値が「urlumbrella.com」に関連するデータ自体が,GA4の計測IDを使ったスパム攻撃だと思われます.

したがって,どうしても参照元の値が「urlumbrella.com」に関連する流入のデータを無くしたいのであれば,新しくGA4を追加する(複数で計測するようにして新しい方に切り替える)しかない気がしています.古い計測IDのものほどこのスパムの影響を受けるのではと思っています.

とはいえ,データの継続性や設定をやり直す作業の問題で,新しいGA4に乗り換えることも簡単にできない場合も多いと思います.そこで,レポート上から参照元の値が「urlumbrella.com」に関連するデータをフィルタなどで除去して見えなくする方法を考えることが(現状では)生産的だと思いました

 

3.GA4の「レポート」機能のフィルタを活用する

GA4の「レポート」機能で,もっとも簡単に除去する方法は,「セッションのデフォルトのチャネル グループ」や「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」で「Unassigned」であるものを除外するフィルタや,「ユーザーの最初の参照元」で「urlumbrella.com」を除外するフィルタなどを作って使うことです.

図1.GA4の「レポート」の「ライフサイクル > 集客 > トラフィックの獲得」のレポートで2024年7月30日にチャネル「Unassigned」のセッションの値が異常に跳ね上がっていることを確認.

図1.GA4の「レポート」の「ライフサイクル > 集客 > トラフィックの獲得」のレポートで2024年7月30日にチャネル「Unassigned」のセッションの値が異常に跳ね上がっていることを確認.

 

図1はGA4の「レポート」の「ライフサイクル > 集客 > トラフィックの獲得」で表示されるレポートです.レポート内のグラフを見ると,2024年7月30日にチャネル「Unassigned」のセッションの値が異常に跳ね上がっているのが確認できます.そこで,画面上の「フィルタを追加(図1の赤色枠内参照)」をクリックして,

“ディメンションで「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」を選択し,マッチタイプで「完全一致しない」を選択し,値で「Unassigned」を選択(図2参照)”

をして「適用」を押すと,「Unassigned」に該当するデータがすべて除外されます(図3参照).

図2.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」の値が「Unassigned」であるものを除外するフィルタの設定).

図2.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」の値が「Unassigned」であるものを除外するフィルタの設定).

 

図3.チャネル「Unassigned」のセッションが除外された「トラフィック獲得」のレポート.

図3.チャネル「Unassigned」のセッションが除外された「トラフィック獲得」のレポート.

 

ただし,このフィルタは保存できないので,表示しているレポートから違うレポートに移動し,再度戻って来たときにはフィルタがない元のレポートが表示されます.フィルタをずっと有効にしたい場合は右上にある「レポートをカスタマイズ(図4の赤色枠内参照)」を使います.「レポートをカスタマイズ」をクリックすると図5のような画面になるので,「レポートのフィルタ(図5の赤色枠内参照)」を使って上記(図2)と同様のフィルタを作成し「適用」を押すと図6のようになるので,「保存(図6の赤色枠内参照)」を押します.

 

図4.レポートをカスタマイズする

図4.レポートをカスタマイズする

 

図5.レポートカスタマイズの画面でフィルタを設定.

図5.レポートカスタマイズの画面でフィルタを設定.

 

図6.レポートカスタマイズの画面でフィルタを適用した状態.

図6.レポートカスタマイズの画面でフィルタを適用した状態.

 

すると,図7のように「現在のレポートへの変更を保存する」と「新しいレポートとして保存」という2つの選択肢が現れます.

図7.カスタマイズしたレポートをどう保存するかの選択肢のダイアログ.

図7.カスタマイズしたレポートをどう保存するかの選択肢のダイアログ.

 

「新しいレポートとして保存」を選択すると,図8のように「レポートを新規として保存」というウィンドウズが現れます.必要に応じて「レポート名」の修正や「報告に関する説明」を入力し,ウィンドウ右下の「保存」を押します.ウィンドウズが閉じるので,画面右上の「戻る(図6の緑色枠内参照)」を押します.画面には保存したレポートが表示されます.このレポートは,「ライブラリ」の中に保存されています(図9参照)

図8.「レポートを新規として保存」を選択した場合に表示されるウィンドウ.

図8.「レポートを新規として保存」を選択した場合に表示されるウィンドウ.

 

図9.レポートが保存されたライブラリ.

図9.レポートが保存されたライブラリ.

 

一方で,「現在のレポートへの変更を保存する」を選択すると,図10のようなウィンドウズが現れるので右下の「保存」をクリックします.ウィンドウズが閉じるので,画面右上の「戻る(図6の緑色枠内参照)」を押します.画面には保存したレポートが表示されます.この例ですと,「トラフィック獲得」のレポートが表示されます.このように保存すると,GA4のレポートのデフォルトが図2のフィルタがデフォルトで適用されているレポートとなります.

図10.「現在のレポートへの変更を保存する」を選択した場合に表示されるウィンドウ.

図10.「現在のレポートへの変更を保存する」を選択した場合に表示されるウィンドウ.

 

すべてのレポートでこのようなリファラスパムのデータを除外した表示をデフォルトにするには,個々のレポートに同様の設定を行う必要があります.なおオリジナルのレポートに戻すには,同様に「レポートをカスタマイズ」を使って追加したフィルタなどをすべて削除して,「現在のレポートへの変更を保存する」を行います.

 

4.GA4の「レポート」機能のフィルタの問題点

GA4の「レポート」機能のフィルタは,最大5個までディメンションに関係した条件を「and(かつ)」つなぎで与えられますが,異なるディメンションの条件を満たす場合取り出して除外するというようなことができません.例えば,

『「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」の値が「Unassigned」であり,かつ「ユーザーの最初の参照元」の値が「(not set)」である』

場合を除外する

とかできません.

「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」の値が「Unassigned」に該当するユーザーのすべてが「ユーザーの最初の参照元」の値が「(not set)」であれば,上記のフィルタでも問題ありません(余分な条件がありますが).ですが,実際はほとんどの場合でそうでないと思います.

なお,「セッションの参照元」と「ユーザーの最初の参照元」の違いがわからない方は,例えば,アユダンテさんのコラム

[GA4]レポートを作るときに選択する「参照元/メディア」はどれ?

https://ayudante.jp/column/2024-06-28/15-00/

などを参照してください.

上記の『ディメンションで「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」を選択し,マッチタイプで「完全一致しない」を選択し,値で「Unassigned」を選択(図2参照)』としたフィルタだと,かなり大雑把な条件なのでリファラスパム以外の流入も除外してしまう可能性も高いです(データを調べてみて,リファラスパム以外のものも除外していいという判断ならば,もちろんそれでOKです).

リファラスパムは,「ユーザーの最初の参照元」の値が「urlumbrella.com」であるデータだと明確で,このリファラスパムだけを除外したいのであれば,GA4の「レポート」機能のフィルタは

“ディメンションで「ユーザーの最初の参照元」を選択,マッチタイプで「完全一致しない」を選択,値で「urlumbrella.com」を選択(図11参照)”

としたフィルタを使えばいいと考えられます.

図11.GA4の「レポート」機能で「ユーザーの最初の参照元」の値が「urlumbrella.com」である場合を除外するフィルタの設定.

図11.GA4の「レポート」機能で「ユーザーの最初の参照元」の値が「urlumbrella.com」である場合を除外するフィルタの設定.

 

ですが,本サイトの2024年7月のデータを確認したところ「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパムのデータもかなりあるとわかりました.このリファラスパムは,図11のフィルタでは除外できません(図12参照).

図12.「ユーザーの最初の参照元」の値が「urlumbrella.com」である場合を除外するフィルタでは取り除けない「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパム.

図12.「ユーザーの最初の参照元」の値が「urlumbrella.com」である場合を除外するフィルタでは取り除けない「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパム.

 

大分長くなったので,本記事はここで終わりとします.

続きの「後編」にて,「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパムとは(どうして「urlumbrella.com」に関連しているとわかったのか)や,そのためのフィルタなどを考えたいと思います.