O spam no Google Analytics (GA) está se tornando um problema sério. Devido a um dilúvio de referral spams a partir de botões sociais, sites adultos, e muitas, muitas outras fontes, as pessoas estão começando a ficar oprimidas por todos os filtros que estão tendo que usar para gerenciar os dados inúteis que estão recebendo.
A boa notícia é que não há necessidade de pânico. Neste artigo, vou focar nos erros mais comuns que as pessoas cometem quando lutam contra spam no GA e explicar uma maneira eficiente de evitá-lo.
Mas, primeiro, vamos ter certeza de que entendemos como funciona o spam. Alguns meses atrás, Jared Gardner escreveu um excelente artigo explicando o que é o referral spam, incluindo a sua finalidade. Ele também apontou alguns grandes exemplos de referral spams.
Tipos de spam
O spam no Google Analytics pode ser categorizado em dois tipos: ghosts e crawlers.
Ghosts
A grande maioria dos spams é deste tipo. Eles são chamados de ghosts porque nunca acessam o seu site. É importante manter isso em mente, pois é a chave para criar uma solução mais eficiente para o gerenciamento de spam.
Tão incomum quanto parece, este tipo de spam não tem qualquer interação com seu site. Você pode se perguntar como isso é possível, já que um dos principais objetivos do GA é rastrear visitas aos nossos sites.
Eles fazem isso utilizando o protocolo de medição, que permite que as pessoas enviem dados diretamente para os servidores do Google Analytics. Usando esse método, os códigos de controle provavelmente são gerados aleatoriamente (UA-XXXXX-1), bem como os spammers deixam uma marca da “visita” com dados falsos, sem sequer saber que eles estão marcando essas informações.

Crawlers

Este tipo de spam, o oposto do ghost spam, acessa seu site. Como o nome indica, estes spam bots rastreiam suas páginas, ignorando as regras como as encontradas em robots.txt, que são supostamente criados para impedi-los de ler o seu site. Quando saem do seu site, eles deixam um registro em seus registros que são muito semelhantes a uma visita legítima.
Crawlers são mais difíceis de identificar porque eles sabem suas metas e utilizam dados reais. Mas também é verdade que novos spams raramente aparecem. Então, se você detectar uma referência em sua análise que pareça suspeita, pesquise-a no Google ou verificar suas referências contra nesta lista poderá ajudá-lo a responder à questão de saber se é ou não spam.
A maioria dos erros comuns ao lidar com spam no GA
Eu tenho acompanhado de perto essa questão nos últimos meses. De acordo com os comentários que pessoas fizeram em meus artigos e conversas que eu encontrei em fóruns de discussão, existem basicamente três erros que as pessoas cometem quando se trata de spam no Google Analytics.
Erro # 1. Bloqueio de ghost spam no arquivo .htaccess
Um dos maiores erros que as pessoas comentem é tentar bloquear os ghost spam no arquivo .htaccess.
Para aqueles que não estão familiarizados com esse arquivo, uma de suas principais funções é a de permitir/bloquear o acesso ao seu site. Agora que sabemos que os ghosts nunca alcançam seu site, adicioná-los aqui não terá qualquer efeito e só vai acrescentar linhas inúteis ao seu arquivo .htaccess.
Ghost spams geralmente aparecem por alguns dias e depois desaparecem. Como resultado, às vezes as pessoas pensam que bloquearam com sucesso os spams a partir dali, quando na verdade é apenas uma coincidência de calendário.
Então, quando os spammers retornam mais tarde, o dono do site fica preocupado porque a solução não está funcionando mais, e acha que o spammer de alguma forma contornou as barreiras que configurou.
A verdade é que o arquivo .htaccess só pode efetivamente bloquear crawlers, como endereços diretos e outros, uma vez que estes acessam seu site. A maioria dos spams não pode ser bloqueada usando esse método, portanto, não há outra opção a não ser usar filtros para excluí-los.
Erro # 2. Usar a lista de exclusão de referral para parar spam
Outro erro é tentar usar a lista de exclusão de referral para parar o spam. O nome pode confundi-lo, mas essa lista não pretende excluir referências no caminho que queremos para o spam. Ela tem outras finalidades.
Por exemplo, quando um cliente compra algo, às vezes eles é redirecionado para uma página de terceiros para pagamento. Depois de fazer um pagamento, o cliente é redirecionado de volta para seu site, e o GA registra isso como uma nova referência. É conveniente usar a lista de exclusão de referral para impedir que isso aconteça.
Se você tentar usar a lista de exclusão de referral para gerenciar spam, no entanto, a parte de referência será desperdiçada, pois não há registro preexistente. Como resultado, uma visita direta será registrada, e você terá um problema maior do que o que tinha originalmente. Você ainda terá spam, e as visitas diretas serão mais difíceis de controlar.
Erro # 3. Preocupar-se que as alterações na bounce rate vão afetar os rankings
Quando as pessoas veem que a bounce rate muda drasticamente por causa do spam, eles começam a se preocupar com o impacto que isso terá sobre os seus rankings no SERPs.

Esse é outro erro comumente cometido. Com ou sem spam, o Google não leva em consideração as métricas do Google Analytics como um fator de classificação. Aqui está uma explicação de Matt Cutts sobre isso, o ex-chefe da equipe de spam do Google na web.
E se você pensar sobre isso, a explicação de Cutts faz sentido; porque, embora muitas pessoas tenham GA, nem todo mundo usa.
Supor que seu site foi hackeado
Outra preocupação comum, quando as pessoas veem landing pages estranhas vindo de spams em seus relatórios, é que elas foram hackeadas.

A página que o spam mostra nos relatórios não existe e, se você tentar abri-la, terá uma página 404. Seu site não foi comprometido.
Mas você tem que se certificar de que a página não existe. Porque há casos (não spam) em que alguns sites têm uma falha de segurança e são injetados com páginas cheias de palavras-chave ruins para difamar o site.
Com o que você deve se preocupar?
Agora que nós descartamos problemas de segurança e seus efeitos sobre rankings, a única coisa com que precisamos nos preocupar são seus dados. A trilha falsa que o spam deixa polui seus relatórios.
Isso pode ter maior ou menor impacto, dependendo do tráfego do site, mas todos são suscetíveis ao spam.
Sites pequenos e médios são mais facilmente afetados – não apenas porque uma grande parte do seu tráfego pode ser spam, mas também porque geralmente esses sites são autogerenciados e, por vezes, não têm o apoio de um analista ou um de webmaster.
Grandes sites com muito tráfego também podem ser afetados por spam e, embora o impacto possa ser insignificante, o tráfego inválido significa relatórios imprecisos, não importa o tamanho do site. Como analista, você deve ser capaz de explicar o que está acontecendo mesmo nos relatórios mais detalhados.
Você só precisa de um filtro para lidar com ghost spam

Normalmente, recomenda-se adicionar o referral para um filtro de exclusão depois de ser descoberto. Embora isso seja útil como uma ação rápida contra o spam, ele tem três grandes desvantagens.

Fazer filtros a cada semana para cada novo spam detectado é tedioso e demorado, especialmente se você gerenciar muitos sites. Além disso, pelo tempo que você aplicar o filtro, e ele começar a funcionar, você já tem alguns dados afetados.
Alguns dos spammers usam visitas diretas, juntamente com referrals.
Esses ataques diretos não serão interrompidos pelo filtro, então, mesmo que você estiver excluindo a referral, você ainda receberá o tráfego inválido, o que explica por que algumas pessoas têm visto um aumento excepcional no tráfego direto de dados.

Felizmente, há uma boa maneira de evitar todos esses problemas. A maioria dos spams (ghosts) trabalha marcando dados aleatórios de rastreamento-IDs do GA, ou seja, o infrator não sabe realmente quem é o alvo, e por isso quer o nome do host que não está definido ou usa um falso (veja relatório abaixo).

Você pode ver que eles usam alguns nomes estranhos ou não se incomodam mesmo em definir um. Embora existam alguns nomes conhecidos na lista, eles podem ser facilmente adicionados pelo spammer.
Por outro lado, o tráfego válido sempre usará um nome de host real. Na maioria dos casos, ele será o domínio. Mas também pode resultar em serviços pagos, serviços de tradução, ou qualquer outro lugar onde você inseriu o código de tracking do GA.

Com base nisso, podemos fazer um filtro que vai incluir apenas os acessos que usam nomes de máquinas reais. Isso vai excluir automaticamente todos os acessos a partir do ghost spam, se ele se mostra como uma referral, palavra-chave ou visualização de página; ou mesmo como uma visita direta.
Para criar esse filtro, você terá que encontrar o relatório de nomes de host. Veja como:

Vá para a guia Relatórios no GA.
Clique em Audiência, no painel esquerdo.
Expanda Tecnologia e selecione Rede.
Na parte superior do relatório, clique no nome do host.

Você verá uma lista de todos os nomes de host, incluindo os hosts que o spam usa. Faça uma lista de todos os nomes de host válidos que você encontrar, como segue:

yourmaindomain.com
blog.yourmaindomain.com
es.yourmaindomain.com
payingservice.com
translatetool.com
anotheruseddomain.com

Para sites pequenos e médios, essa lista de nomes de host provavelmente vai consistir no domínio principal e em alguns subdomínios. Após certificar-se de que você tem todos eles, crie uma expressão regular semelhante a esta:

yourmaindomain.com|anotheruseddomain.com|payingservice.com|translatetool.com

Você não precisa colocar todos os seus subdomínios na expressão regular. O principal domínio vai corresponder a todos eles. Se você não tem uma visualização criada sem filtros, crie uma agora.
Em seguida, crie um filtro personalizado.
Certifique-se de selecionar Incluir, em seguida, selecione “Nome” no campo de filtro, e copie a sua expressão na caixa de Padrão de filtro.

Você pode querer verificar o filtro antes de salvar para verificar se tudo está bem. Assim que estiver pronto, configure-o para salvar e aplicar o filtro a todos as visualizações que você quer (exceto a visualização sem filtros).
Esse único filtro vai se livrar de futuras ocorrências de ghost spams que usam nomes de host inválidos, e ele não exige muita manutenção. Mas é importante que cada vez que você adicionar o código de acompanhamento a qualquer serviço, você deve adicioná-lo até o fim do filtro.
Agora você só precisa cuidar dos crawler spams. Como crawlers acessam seu site, você pode bloqueá-los, adicionando estas linhas no arquivo .htaccess:

STOP REFERRER SPAM
RewriteCond %{HTTP_REFERER} semalt.com [NC,OR]
RewriteCond %{HTTP_REFERER} buttons-for-website.com [NC]
RewriteRule .* – [F]
É importante notar que esse arquivo é muito sensível, e perder um único caractere pode derrubar todo o seu site. Portanto, certifique-se de criar uma cópia de backup de seu arquivo .htaccess antes de editá-lo.
Se você não se sentir confortável em brincar com seu arquivo .htaccess, você pode, alternativamente, fazer uma expressão com todos os crawlers, e adicioná-los a um filtro de exclusão por fonte da campanha.
Implemente essas soluções combinadas, e você vai se preocupar muito menos com o spam contaminando seus dados do Google Analytics. Isso terá a vantagem de liberar mais tempo para você passar realmente analisando seus dados válidos.
Depois de parar o spam, você também pode obter relatórios limpos a partir dos dados históricos usando as mesmas expressões do Segmento Avançado para excluir todos os spams.
Recursos bônus para ajudar você a gerenciar o spam
Se você ainda precisa de mais informações para ajudá-lo a entender e lidar com o spam nos seus relatórios GA, você pode ler o meu principal artigo sobre o assunto aqui: http://www.ohow.co/what-is-referrer-spam-how -stop-it-guia /.
Informações adicionais sobre a forma de parar o spam podem ser encontradas nestas URLs:

http://viget.com/advance/removing-referral-spam-from-google-analytics
http://www.cucumber.co.nz/blog/2015/january/14/ghost-referrals/

***
Carlos Escalera faz parte do time de colunistas internacionais do iMasters. Você pode o original em https://moz.com/blog/stop-ghost-spam-in-google-analytics-with-one-filter. Esta tradução foi feita com permissão. Moz não tem qualquer afiliação com este site.

Mensagem do anunciante:

KingHost lança a ferramenta de SEO: SEO Certo.
Deseja saber como está o SEO do seu site? Clique aqui e descubra gratuitamente!

Source: IMASTER