Total Pageviews

Blog Archive

Procura neste Blog

ITO-NeTthings. Com tecnologia do Blogger.

10% das contas ativas do Twitter estão a postar conteúdo de spam, diz GlobalData

10% das contas ativas do Twitter estão a postar conteúdo de spam, diz GlobalData
Share it:
Um modelo matemático desenvolvido pela GlobalData estimou que cerca de 10% das contas ativas do Twitter estão a postar conteúdo de spam. A empresa líder de dados e análise observa que isso é o dobro do valor relatado pelo Twitter - provavelmente devido a uma diferença nos critérios sobre o que conta como 'spam'.

Sidharth Kumar, cientista de dados sênior da GlobalData, comenta: “ O que é ou não spam é de repente um importante ponto de discussão para a plataforma de mídia social, já que a tentativa de Elon Musk de assumir o Twitter está agora suspensa devido a um desacordo sobre a proporção de contas de spam na plataforma. O Twitter afirma que as contas de bot/spam no Twitter representam menos de 5% das contas, enquanto a equipe de Elon Musk pensa o contrário.

“A proporção exata de contas de spam é difícil de calcular, pois é quase impossível confirmar a identidade da entidade por trás de um identificador de tweet. Além disso, a definição de uma 'conta de spam pode ser diferente para todos. Tweets incessantes de conteúdo não original podem ser considerados spam, mas alguns podem optar por vê-lo como um utilizador muito ativo a partilhar artigos/opiniões.”
Tendo tudo isso em mente, o modelo matemático da GlobalData estimou o número de contas de spam a usarem vários parâmetros para fornecer uma pontuação ponderada, que foi então usada para determinar a classificação de 'spam' ou 'não-spam'. A GlobalData decidiu por esses parâmetros concentrando-se nas diferenças de atividade entre contas de spam típicas e a de um utilizador médio do Twitter. As contas com desempenho insatisfatório em muitos parâmetros receberam uma pontuação mais alta, indicando uma maior probabilidade de serem spam. Os analistas da GlobalData então observaram independentemente os identificadores em diferentes níveis de pontuação e decidiram o ponto de corte para a classificação ('spam' ou 'não-spam') por consenso. Os parâmetros usados ​​no modelo foram os seguintes:
  • O identificador do tweet é verificado? É improvável que os identificadores verificados cedam ao spam
  • Um tweet vem de avenidas de terceiros? Tweets provenientes de aplicativos de terceiros provavelmente produzirão spam. As aplicações privadas baseados na API do Twitter são frequentemente usados ​​para postar conteúdo de spam
  • Qual é o número de Tweets históricos que a alça produziu, dividido pelos dias desde sua criação? Normalmente, as contas de spam têm um número muito alto de tweets por dia ao longo da vida
  • Qual foi a frequência dos últimos 200 tweets? Um número muito alto de Tweets publicados em um curto período de tempo é mais provável de ser spam
  • Qual é a proporção de retweetts nos últimos 200 tweets? Algumas contas de spam apenas retweetam determinadas contas/tópicos de destino regularmente
  • Dos últimos 200 Tweets, quantos não continham hashtags ou links? É improvável que contas de spam tenham conteúdo de texto simples. Eles normalmente promovem determinado link, tweet ou hashtag.
  • Qual é o desvio padrão no comprimento típico de um tweet? Algumas contas de spam continuam postando mensagens semelhantes em alta frequência e não apresentam grande variação no conteúdo ou no comprimento
  • Qual é o tempo médio entre dois tweets? As contas que não são bot normalmente têm um tempo médio de tweet mais alto entre os tweets
  • Qual é o comprimento da descrição no perfil? Normalmente, contas ativas sem bots têm biografias mais detalhadas
  • Dos últimos 200 Tweets, qual é a proporção de links cpartilhados? Contas de spam têm mais tendência a partilhar links de lotes no Twitter

Kumar continua: “Houve algumas pesquisas publicadas anteriormente na mídia analisando os seguidores de certos identificadores para estimar as proporções de spam ou bot. Achamos que a abordagem correta seria analisar amostras de transmissões ao vivo, pois isso é mais indicativo da atividade do Twitter. A nossa estimativa é conservadora, pois queríamos ter certeza de que estávamos identificando corretamente as contas como spam. É importante notar que esta ainda é uma estimativa. Não há uma maneira conclusiva de saber se uma determinada conta é um bot ou spam.”

O gráfico a seguir mostra os valores médios para contas de spam/não spam para os parâmetros usados ​​pelo modelo.


A pesquisa da GlobalData foi realizada como parte de sua Social Media Analytics Platform, que rastreia a atividade mais relevante dos influenciadores do setor no Twitter e no Reddit.
Share it:

info

Post A Comment:

0 comments: