Google Analytics 4の「urlumbrella.com」に関連するリファラスパムの対策を再考(後編)

この記事は,GA4の「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパムについての調査や対応(レポートでのフィルタやセグメントの条件に関する考察)について書いています.なお,「前編」を読んでいることを前提に進めますので,まだの方はまずは「前編」を読んでください.

5.「ユーザーの最初の参照元」の値が「direct」であるが「urlumbrella.com」に関連しているリファラスパムの出現

「ユーザーの最初の参照元」の値が「direct」であるものに「urlumbrella.com」に関連しているものがあるとなぜわかったかというと,設定していたあるカスタムディメンションのデータを合わせて見たからです.

そのカスタムディメンションは,イベントパラメータ「page_referrer」を見るためのもので,ディメンション名も「page_referrer」として設定していました(図13参照.範囲「イベント」でイベントパラメータ「page_referrer」としています).このイベントパラメータ「page_referrer」は,1つ前のページのURLを取得します.例えば,Googleの検索からの流入だと「https://www.google.com/」のようなものが得られます.ただし,完全な情報ではありませんし,不明で「(not set)」となる場合もあります.

パラメータ「page_referrer」はイベントで自動計測されているのですが,デフォルトのディメンションにその値を見られるモノがないと思われます(←間違っていました.ディメンション「ページの参照元URL」の値がイベントパラメータ「page_referrer」に該当していました.ディメンション「ページの参照元URL」は,GA4の「探索」機能やLooker Studioで使用ができますが,GA4の「レポート」機能では使えないと思われます.また,図13のカスタムディメンション「page_referrer」の値が「(not set)」の場合,「ページの参照元URL」の値は空欄になっているのを確認しました.この記事を書くのに使った「2024年1月1日~2024年7月31日」の期間のデータで,図13のカスタムディメンション「page_referrer」の値とディメンション「ページの参照元URL」の値が異なっていたのは,図13のカスタムディメンション「page_referrer」の値が「(not set)」の場合のみでした.図13のカスタムディメンション「page_referrer」とディメンション「ページの参照元URL」は,どちらもイベントパラメータ「page_referrer」の値ですが,値が「(not set)」の場合の表示での処理が異なると思われます).

図13.イベントパラメータ「page_referrer」を見るためのカスタムディメンション.

図13.イベントパラメータ「page_referrer」を見るためのカスタムディメンション.

 

リファラスパムを調べるためにGA4をLooker Studioに接続して,ディメンションに「セッションのメインのチャネル グループ,セッションの参照元,ユーザーの最初の参照元,page_referrer」を選択し,指標に「セッション,総ユーザー数,表示回数」を選択したテーブル(図14参照)を作りました(対象サイトは,本サイトです).

図14.Looker Studioで調査のためのテーブルを作る.

図14.Looker Studioで調査のためのテーブルを作る.

 

「2024年1月1日~2024年7月31日」の間に,チャネル グループ「Unassigned」のユーザー(総ユーザー数)が異常に跳ね上がる日が4回ありました(2024年1月5日,4月4日,6月2日,7月30日).図15は,GA4の「レポート」機能の「トラフィック獲得」のレポートのグラフです.図16は,GA4の「レポート」機能の「ページとスクリーン」のレポートのグラフです.チャネル グループ「Unassigned」のユーザー(総ユーザー数)が異常に跳ね上がるのと同時に,表示回数が異常に跳ね上がっているのが確認できます(表示回数のほうがこのスパムの影響が大きいとわかります).

図15.GA4の「レポート」機能の「トラフィック獲得」のレポートのグラフとテーブル.

図15.GA4の「レポート」機能の「トラフィック獲得」のレポートのグラフとテーブル.

 

図16.GA4の「レポート」機能の「ページとスクリーン」のレポートのグラフ.

図16.GA4の「レポート」機能の「ページとスクリーン」のレポートのグラフ.

 

図17は,Looker Studioで作ったテーブルのデータ(期間「2024年1月1日~2024年7月31日」)を出力してExcelで処理し,「セッションのメインのチャネル グループ」の値が「Unassigned」だけにしたものです.データエラーなどで「Unassigned」になった場合もそれなりにあるように見えます.チャネル「Unassigned」に該当する「セッション」などの値はすべて無視していいという判断をしたならば,GA4の「レポート」機能の各レポートでチャネルが「Unassigned」であるもの(前編の図2参照)を除外するフィルタでいいと思います(ご自分のサイトではどうなのかを判断するためにも「page_referrer」も含めた複数のデータを取得し出力して調べることをお薦めします)

図17.「セッションのメインのチャネル グループ」の値が「Unassigned」に絞ったテーブル.

図17.「セッションのメインのチャネル グループ」の値が「Unassigned」に絞ったテーブル.

 

無視しない・したくない場合は,「セッション」の値が「0」であるものがリファラスパムと考えてそれを除外できるようにしたいと考えるのがいいでしょう.図18は,同じExcelファイルで今度は「セッション」の値がが「0」だけにしたものです.この図18を見ると,「セッション」の値が「0」の場合が4つがあるとわかります(これらの「セッションの参照元」はすべて「(not set)」であると確認できます).

図18.「セッション」の値が「0」である4つの場合.

図18.「セッション」の値が「0」である4つの場合.

 

図18の4つ内の2つの場合は「総ユーザー数」の値が「591」と共通の値を持ち,

『「ユーザーの最初の参照元」の値が「urlumbrella.com」である』

と確認できます.

残りの2つの場合は「総ユーザー数」の値が「97」と共通の値を持ちます,そのうち1つは,

『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』

と確認できます.つまり,これも参照元の値が「urlumbrella.com」に関連するリファラスパムのデータだと推測できます.残りの1つは,

『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』

と確認できました.

最後の『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』場合は,『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』の場合で使ったデータをなにかしら利用したので,「page_referrer」の値が「https://index-lab.jp/」と本サイト(GA4の計測対象サイト)のTOPのURLになったのではないかと思いました.理由は,計測日が同じで,「総ユーザー数」の値も同じだからです(「ユーザーの最初の参照元」の値が「urlumbrella.com」の2つの場合も「総ユーザー数」の値が同じという性質があり,これと同様にペアの関係になっているように見えます).

この「総ユーザー数」の値が「97」の2つの場合に関して,「新規とリピーター」などのデータを追加して確認してみましたが,ほぼすべてが「new(新規ユーザー)」で1つだけ「(not set )」でした.また,「日時(YYYYMMDDHH)」を利用してみましたが,時間に関する偏りはそれほどないようでした.

決定的な証拠はありませんが,『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』場合は『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』場合と同じ発信元のリファラスパムと判断していいだろうと考えました.

なお,『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』場合と『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』場合のリファラスパムは2024年7月30日だけに含まれていました

もしもこのリファラスパム攻撃者が“『「ユーザーの最初の参照元」の情報が「urlumbrella.com」である』ということが広く認知されてきたようなので「ユーザーの最初の参照元」の情報から「urlumbrella.com」を無くしてやろう”というようなことをし始めたのなら,本当にタチが悪いです.

 

6.フィルタやセグメントで除外する

この7ヶ月間のデータを見ると,デフォルトのディメンションのみを用いるならば

”『「ユーザーの最初の参照元」の値が「(direct) もしくは urlumbrella.com」であり,かつ「セッションの参照元」の値が「(not set)」である』

場合を除外する”

という条件で,問題となる図18の「セッション」の値が「0」である4つの場合を除外することが良さそうです.

ですが,『「ユーザーの最初の参照元」の値が「(direct)」で,かつ「セッションの参照元」の値が「(not set)」である』場合の中には,例えば『「page_referrer」の値が「https://www.google.com/」』である場合(「セッション」の値が「19」)などもあることを確認しています(図17参照).つまり,リファラスパムではなくエラーなどのために条件に当てはまってしまったアクセスも存在しています(当然,これらのチャネルは「Unassigned」です).したがって,それらもリファラスパムと一緒に除外されてしまいます.

より確実に図18の「セッション」の値が「0」である4つの場合のみになるように除外するには,「page_referrer」の値を使うしかない気がしますしたがって,「page_referrer」を取得していることを前提にその条件を考えてみます.

本サイトの場合だと,

“『「ユーザーの最初の参照元」の値が「urlumbrella.com」である』

場合,もしくは

『「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』

場合,もしくは

『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「セッションの参照元」の値が「(not set)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』

場合を除外する”

というような条件を持つモノが作れれば良いだろうと考えました(とりあえず,現状のデータでは上記の場合に当てはまるものは図18の4つの場合のみです.上記の3つめの場合に該当する中に実際はリファラスパムではないものが含まれる可能性は当然残っていますが,それは限りなくゼロであると期待することにしました).

なお,上記の3つめの場合の“「page_referrer」の値が「https://index-lab.jp/」である”は,計測対象が本サイトなので「https://index-lab.jp/」としています(これはあくまでも本サイトで計測したGA4のデータで,「page_referrer」の値がサイトのTOPのURLになっていたと確認したからです).ご自身のサイトで同様なフィルタやセグメントを作って除外しようとする場合はちゃんとデータを確認してください.

以上の考察から,GAの「探索」機能にあるセグメント機能を利用したとき,そのセグメントの条件を図19のような内容にすることで,図18の「セッション」の値が「0」である4つの場合のみを除外できました.

図19.GAの「探索」機能で図18の「セッション」の値が「0」である4つの場合を除外するセグメント.

図19.GAの「探索」機能で図18の「セッション」の値が「0」である4つの場合を除外するセグメント.

 

GA4の「レポート」機能で,図18の「セッション」の値が「0」である4つの場合のリファラスパムのみを集めるフィルタは,GA4の「レポート」機能のフィルタの設定ならば,例えば,

“ディメンションで「セッションの参照元」を選択,マッチタイプで「次を含む」を選択,値で「(not set」と入力し,「かつ」でつないで,ディメンションで「ユーザーの最初の参照元」を選択,マッチタイプで「完全一致」を選択,値で「(direct)」と「urlumbrella.com」を選択し,「かつ」でつないで,ディメンションで「page_referrer」を選択,マッチタイプで「完全一致」を選択,値で「https://index-lab.jp/」と「https://urlumbrella.com/site/index-lab.jp」を選択(図20参照)”

とすればいいと思います.

図20.GA4の「レポート」機能で図18の「セッション」の値が「0」である4つの場合のリファラスパムのみを集めるフィルタ.

図20.GA4の「レポート」機能で図18の「セッション」の値が「0」である4つの場合のリファラスパムのみを集めるフィルタ.

 

ですが,上記とは逆となる図18の「セッション」の値が「0」である4つの場合のリファラスパムのみを除外するのはGA4の「レポート」機能やLooker Studioのフィルタでは無理だと思います(現在,Looker Studioはセグメントが使えず,フィルタのみが使える状況で,いろいろ制限があります).

リファラスパムが『「ユーザーの最初の参照元」の値が「urlumbrella.com」である』だけならば,

『「ユーザーの最初の参照元」の値が「urlumbrella.com」であるのを除外

でいいので,GA4の「レポート」機能のフィルタの設定ならば,すでに示した

“ディメンションで「ユーザーの最初の参照元」を選択,マッチタイプで「完全一致しない」を選択,値で「urlumbrella.com」を選択(前編の図11参照)”

で良いと思います.

また,リファラスパムが『「ユーザーの最初の参照元」の値が「urlumbrella.com」である』か『(「ユーザーの最初の参照元」の値が「urlumbrella.com」でない)「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』のどちらかに該当すると判明しているならば,GA4の「レポート」機能やLooker Studioのフィルタでは,

『「ユーザーの最初の参照元」の値が「urlumbrella.com」であるのを除外

で,かつ

『「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」であるのを除外

とすればよく,GA4の「レポート」機能のフィルタの設定ならば,

“ディメンションで「ユーザーの最初の参照元」を選択,マッチタイプで「完全一致しない」を選択,値で「urlumbrella.com」を選択し,「かつ」でつないで,ディメンションで「page_referrer」を選択,マッチタイプで「完全一致しない」を選択,値で「https://urlumbrella.com/site/index-lab.jp」を選択(図21参照)”

とすればいいいでしょう(これはもちろん「page_referrer」を取得していることが前提です).

図21.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「ユーザーの最初の参照元」の値が「urlumbrella.com」であるものを除外し,かつ「page_referrer」が「https://urlumbrella.com/site/index-lab.jp」であるものを除外するフィルタの設定).

図21.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「ユーザーの最初の参照元」の値が「urlumbrella.com」であるものを除外し,かつ「page_referrer」が「https://urlumbrella.com/site/index-lab.jp」であるものを除外するフィルタの設定).

 

ですが,『(「ユーザーの最初の参照元」の値が「urlumbrella.com」でない)「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』場合が計測されたとき,おそらく本サイトのように『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「セッションの参照元」の値が「(not set)」で,かつ「page_referrer」の値が「https://index-lab.jp/(注:この値は計測サイトに依存して変化)」である』場合が同時に計測される気がします.

この『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「セッションの参照元」の値が「(not set)」で,かつ「page_referrer」の値が「https://index-lab.jp/」である』場合のみを除外することは,現状のGA4の「レポート」機能やLooker Studioのフィルタではできません

例えば,フィルタだと

『「ユーザーの最初の参照元」の値が「(direct)」であるのを除外

で,かつ

『「page_referrer」の値が「https://index-lab.jp/」であるのを除外

というふうにしか設定できません.この内容だと,『「page_referrer」の値が「https://index-lab.jp/」でない「ユーザーの最初の参照元」の値が「(direct)」である』場合も除外してしまいます.

また,フィルタで

『「ユーザーの最初の参照元」の値が「(direct)」と完全一致(や「含む」など)

で,かつ

『「page_referrer」の値が「https://index-lab.jp/」であるのを除外

というふうに設定すると,それは,『「page_referrer」の値が「https://index-lab.jp/」以外の「ユーザーの最初の参照元」の値が「(direct)」である』場合を表示します.

フィルタで

『「page_referrer」の値が「https://index-lab.jp/」であるのを除外

と設定すると,チャネル「Organic」に該当した『「ユーザーの最初の参照元」の値が「google」で,かつ「セッションの参照元」の値が「google」である』場合や,チャネルDirectに該当した『「ユーザーの最初の参照元」の値が「(direct)」で,かつ「セッションの参照元」の値が「(direct)」である』場合などが除外されたりします(実際の計測データに『「page_referrer」の値が「https://index-lab.jp/」である』がリファラスパムに該当しない流入はけっこうあることが確認しています).

したがって,『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/(注意:これはあくまでも本サイトで計測した場合の値)」である』場合のリファラスパムも存在すると,それらのみを除外するようなことは,フィルタでは困難だろうというのが結論です.

現状としては,『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』場合や『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」である』場合のリファラスパムが多数ある場合は,GA4の「レポート」機能やLooker Studioのフィルタは,

『「セッションの参照元」の値が「(not set)」であるのを除外

の設定を使うのが一番良いように見えました(本サイトの7ヶ月間のデータを見た限りでは,この条件の場合がリファラスパム以外のデータが除外される影響を一番抑えられると思われました.他のサイトだと当然状況が違うと思うので,それぞれで同様に確認した方がいいと思います).

したがって,GA4の「レポート」機能のフィルタならば

“ディメンションで「セッションの参照元」を選択,マッチタイプで「次を含まない」を選択,値で「(not set」を選択(図22参照)”

と設定することになります(マッチタイプを「次を含まない」にしたのは,「完全一致しない」にすると「(not set)」が選択肢と現れず使えないからです).

図22.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「セッションの参照元」の値が「(not set)」であるものを除外するフィルタの設定).

図22.GA4の「レポート」機能のフィルタの設定(GA4の「レポート」機能で「セッションの参照元」の値が「(not set)」であるものを除外するフィルタの設定).

 

上記のフィルタで除外されるものは,計測サイトによっては,

“ディメンションで「セッションのメインのチャネル グループ(デフォルトのチャネル グループ)」を選択し,マッチタイプで「完全一致しない」を選択し,値で「Unassigned」を選択(前編の図2参照)”

とほぼ同じです.本サイトだと7ヶ月間の間にチャネル「Unassigned」の中で図22のフィルタに該当しないアクセスが,2つ(「セッション」の値が「2」)だけありました(図17参照).

 

7.おわりに

現状は,「urlumbrella.com」という情報が隠されるようなスパムが増えているようにも見えるので,非常にやっかいです.

どれがスパムか調べられるようにするためにも,イベントパラメータ「page_referrer」を取得するディメンションを設定することを再度お薦めしておきます.

[GA4] カスタム ディメンションとカスタム指標について

https://support.google.com/analytics/answer/14240153?visit_id=638588628773799936-3143884738&rd=1

 

補足

「https://urlumbrella.com/site/index-lab.jp」というURLのページは存在することを確認しました.もしかしたら,「https://urlumbrella.com/site/XXXXXX」というページがある場合は,その「XXXXXX」の部分のURLのサイトのGA4がこのリファラスパムの攻撃対象として登録されているサイトかもしれません.あまりお薦めしませんが,参照元の値が「urlumbrella.com」に関連するデータがあるサイトは自分のURLのページがあるかを調べてみると,見つかるかも?

ただ,上述したようにこの参照元の値が「urlumbrella.com」に関連するデータに関しては,実際にサイトにボットなどが訪れているのではなく,GA4の計測IDの情報を利用したスパム攻撃だと思います.

 

追記:GTMで除外用(例外)トリガーの設定

小川卓氏のX(旧Twitter)に,GTM(Googleタグマネージャー)のトリガーを使った参照元の値が「urlumbrella.com」を除外する方法が紹介されていました.GA4をGTMで導入している方なら試す価値がありそうです(実際に私も実装してみました).

小川卓氏の該当ポストを見てもらえば事足りると思いますが,その設定を真似したので下記で紹介しておきます.

まず,GTMのトリガー画面を開いて左上の「新規」をクリックし,「無題のトリガー」の「トリガー設定」をクリックし,「ページビュー」を選択します(図23赤枠内参照).

図23.新しいトリガーの作成.

図23.新しいトリガーの作成.

 

この「ページビュー」のトリガーの「このトリガーの発生場所」を「一部のページビュー」を選択し,図24のようにイベント発生時の条件として,「Referrer」を選択,「含む」を選択,「urlumbrella.com」と入力します.そして,このトリガーに名前を付けて保存します(図24では『計測除外参照元「urlumbrella.com」』と名付けています).

図24.「urlumbrella.com」のトリガー作成.

図24.「urlumbrella.com」のトリガー作成.

 

次に,GTMのタグ画面に移動し,GA4の計測タグを開きます.そこで,このタグのトリガーに先ほど作ったトリガーを「例外」として図25のように追加し保存します(注:誤って「配信トリガー」に追加しないですください).

GTMを公開します.

図25.GA4の計測タグ設定.

図25.GA4の計測タグ設定.

 

図26はGTMのプレービュー機能の「Variables」の画面です.上記の例外条件のトリガーは,図26の赤枠内の「Referrer」に「urlumbrella.com」が含まれると例外に当てはまるので,ページビューが計測されないようになるのだと思います.

図26.GTMのプレービュー機能.

図26.GTMのプレービュー機能.

 

小川氏も書いていますが,もちろん過去データには反映されません.また,他のイベントで同様なスパムが影響している場合は,各イベントで同様の例外とするためのトリガーを追加する必要があります.

ただしこのGTMの設定で,参照元の値が「urlumbrella.com」に関連するデータのリファラスパムが全部解決しないのでは考えましたその理由は,この記事で紹介した“図18の「セッション」の値がゼロで参照元の値に「urlumbrella.com」が含まれない”ようなリファラスパムが登場したからです.7月以前や7月のリファラスパムの大半は,「ユーザーの最初の参照元」の値が「urlumbrella.com」であったり,「page_referrer」の値が「https://urlumbrella.com/site/index-lab.jp」あったりと,Referrer関連の値に「urlumbrella.com」含んでいました.ですから,上記のGTMの除外条件の設定でそれらは防げる可能性が高いと思います(期待しています).

ですが,図18で

『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』

場合は,referrer関連の情報に「urlumbrella.com」を含むような情報がそもそもないのではと思います(注意:上記の“「page_referrer」の値が「https://index-lab.jp/」である”は,あくまでも本サイトで計測した場合の値です.詳しくは記事を読んでください).したがって,このリファラスパムは,上記のGTMの設定でも除外できないのではと考えました(上記で書いたようにこのリファラスパム自体は「urlumbrella.com」に関連していると推測しています.そして,やっかいなことに「表示回数」の値をけっこう大きく狂わしているのが計測されています).

もしも

『「ユーザーの最初の参照元」の値が「(direct)」であり,かつ「page_referrer」の値が「https://index-lab.jp/」である』

であるようなリファラスパムが推測通りこのGTMの設定で防げないと,この記事で紹介したようなレポートのフィルタやセグメントを使ってそれらを表示させないようにするしかないです.また,referrer関連の情報に「urlumbrella.com」は防げて,この「urlumbrella.com」に関連していると推測したがreferrer関連の情報に「urlumbrella.com」を含まないリファラスパムだけが計測される状況になると,現状は「セッション」の値がゼロであるを頼りにリファラスパムかどうかを判断することになりそうです.

ともかく,実際にどうなるかは今後の計測結果を見てみるしかないと思います.

 

追記2:パラメータ「page_title」の値を使ったスパム除外方法

本サイトのGA4のリファラスパムの一連の記事を見てくれた方から,リファラスパムの除外対策にパラメータ「page_title」の値が(リファラスパムの場合,この値が「(not set)」になっているようなので)使えるのではないかという情報を頂きました.

この記事作成で使った「2024年1月1日~2024年7月31日」の間のデータで調べてみました.なお,イベントパラメータ「page_title」の値は,GA4のデフォルトのディメンションだと「ページ タイトル」で見ることができます.本サイトのリファラスパムを計測したGA4では,図27のようにカスタムディメンション「page_title」(ディメンション名「page_title」,範囲「イベント」,イベントパラメータ「page_title」の設定)を作って計測もしていました(これは,当初のGA4で「page_title」の値を見るために,このようなディメンションを作ることが推奨されていたので作っていました).

図27.カスタムディメンション「page_title」の設定.

図27.カスタムディメンション「page_title」の設定.

 

データを確認しやすいようにLooker Studioでテーブルを作って,そのデータをcsvでエクスポートし,Excelで処理した結果が図28です.図28は,図18と同様に「セッション」の値が「0」である場合に絞った結果です.図18と同様に4つの場合がありますが,図27のカスタムディメンション「page_title」とディメンション「ページ タイトル」の値が,たしかに「(not set)」でした.

図28.「セッション」の値が「0」である場合のpage_title」の値.

図28.「セッション」の値が「0」である場合のpage_title」の値.

 

この記事作成で使った「2024年1月1日~2024年7月31日」の間のデータで,イベントパラメータ「page_title」の値が「(not set)」であったのは,図28の「セッション」の値が「0」である場合(つまり,「urlumbrella.com」に関連するリファラスパムの場合)だけでした.

どうやら,この「urlumbrella.com」に関連するリファラスパムに該当するものは,「ページパス」の値(本サイトだと,Topページの「/」という値)は存在するが,そのページのタイトル(イベントパラメータ「page_title」)の値は存在しないデータとなるようです(このスパムが実際に流入しているようなものではないとは言え,ページパスのデータが存在するからページタイトルも当然あるだろうと思って確認していませんでした).

イベントパラメータ「page_title」の値が「(not set)」であれば必ずリファラスパムとは限らないのですが(エラーや何かしらの影響で「(not set)」となる場合もあるでしょうし),これは確かに使えそうです.

注意としては,GA4の「レポート」機能におけるフィルタのディメンションで「ページ タイトル」が現状使えません(選択肢として表示されません.図29参照).したがって,図27のようなカスタムディメンション「page_title」を設定しておかないと,GA4の「レポート」機能でフィルタではパラメータ「page_title」の値を使った対策方法は現状使えないと思います.なお,GA4の「探索」機能ではセグメントにてディメンションで「ページ タイトル」は使えるので,それで除外することができると思います.

図29.「レポート」機能でフィルタのディメンションで「ページ タイトル」が使えない.

図29.「レポート」機能でフィルタのディメンションで「ページ タイトル」が使えない.

 

また,GA4の計測対象のページにはタイトルを必ず付ける,タイトルの文言の中に「(not set)」を使わないようにするなどの注意が必要です(フィルタ機能のマッチタイプで「(not set)」を「完全一致しない」として選択できません,したがって「次を含まない」や「先頭が一致しない」などを使うことになるため).

したがって,GA4の「レポート」機能では,6節の図22でしたフィルタの代わりとして,例えば

“ディメンションでカスタムディメンション「page_title」を選択,マッチタイプで「先頭が一致しない」を選択,値で「(not set」を選択(図30参照)”

と設定したフィルタを用いるのもリファラスパム対策の一つの案となります(ただし,上述したようにGA4の「レポート」機能では,パラメータ「page_title」の値であるデフォルトのディメンション「ページ タイトル」が現在使えないので,図27のようなカスタムディメンションを作って計測しておく必要があります).

図30.GA4の「レポート」機能のフィルタの設定例(GA4の「レポート」機能で「page_title」の値の先頭が「(not set」と一致するものを除外するフィルタの設定)

図30.GA4の「レポート」機能のフィルタの設定例(GA4の「レポート」機能で「page_title」の値の先頭が「(not set」と一致するものを除外するフィルタの設定)

 

なお,Looker Studioのフィルタではディメンションで「ページ タイトル」が使えるので,例えば図31のようなフィルタ作って,これを使うことでリファラスパム対策ができると思います.

図31.Looker Studioでのフィルタの設定例.

図31.Looker Studioでのフィルタの設定例.