Blogging
A Região Norte e a Internet Móvel
Tenho trabalhado em um paper sobre os protestos no Brasil (aka Vinegar) e acabei me vendo obrigado a calcular alguns dados demográficos para entender melhor a distribuição de mensagens no território nacional. Uma coisa que eu ainda não tinha visto é a distribuição de clientes do Twitter pelo território nacional. O legal desse dataset que estou usando é que ele é bastante amplo (cerca de 4 milhões de mensagens) e representativo em termos de distribuição demográfica por unidades federativas (todas as mensagens apresentam localização geográfica). O plot abaixo mostra a porcentagem de mensagens enviadas pelos dez clientes de Twitter mais utilizados no território nacional. A importância da plataforma Web não é novidade -- eu e a Gabi Zago já havíamos nos deparado com esse dado em um estudo que fizemos e que deve sair nesse mês pela Sage Open. Mas mesmo nesse departamento há algumas surpresas, como a importância significativamente mais baixa da plataforma web na região norte, que também apresenta uma incidência significativamente maior de tweets postados com smartphones via Twitter Mobile Web e pela plataforma Android da Google. Os smartphones Android oferecem conectividade à internet com uma relação custo/benefício superior aos aparelhos da Apple. Os dispositivos da Apple, diga-se, tem uma distribuição equilibrada no território nacional, embora as regiões norte (uma vez mais) e centro-oeste apresentem uma incidência superior de tweets enviados por iPhones em comparação com as demais regiões. |
Protestos no Brasil esfriam após 19 de junho
A tag "protesto" agrupa todas as hashtags relacionadas com os movimentos (i.e. protestosp, protestorj, etc.), então o volume de dados nesse info stream é bem maior. Veja a comparação com as demais hashtags: Aproveitei para incluir um plot dos tuítes com geolocalização para indicar o crescimento do movimento. É interessante ver como o movimento se espalhou para o país inteiro. As primeiras mensagens datam do dia 13 de junho e seguem até a semana seguinte (24/06/13). O comparativo inclui apenas tuítes com geolocalização (N=10K). O primeiro mapa é do dia 14 e o segundo do dia 24 de junho. Também vale a pena dar uma olhada no uso de hashtags associadas aos protestos ao longo do período. Embora o volume de hashtags diminua significativamente depois do dia 20 (e não dia 17 como dito antes), o uso dessas palavrinhas mágicas para organizar os protestos continua relativamente alto até o dia de hoje (24/06/13). |
European General Strike: #14n on Facebook and Twitter
I took the chance I was in Lisbon last November 14 to follow the events related to the European General Strike. I scrapped Facebook groups EuropeanStrike and 14n-Huelga and archived tweets with the hashtags #14n and #EuropeanStrike. I thought this was an interesting opportunity to compare how protestors use the two social media platforms, and here's some interesting contrasts between Facebook and Twitter usage during this particular time of political unrest. What follows is Twitter information stream #14n and Facebook information stream EuropeanStrike. I adjusted the timeline so both plots refer to the same time frame. It's clear that Twitter hashtag activity is far more intense than Facebook pages. Twitter API provides information regarding the language Twitter users posted their messages. This is not a particularly reliable metric, but #EuropeanStrike shows a much higher-than-average number of languages. Facebook Graph API does not provide as much information as Twitter API, but it does give you the exact number of "likes" and "comments" of any given post . The figures below show the diversity of Twitter languages and Facebook posts. Twitter conversation has a lot more text than Facebook's. Twitter dataset is about 50 times larger than Facebook's, probably because Facebook users post and comment within their social network. The last two plots are word clouds from the datasets. |
Mapeando a Twittersfera Brasileira
Tenho calculado a distribuição de usuários brasileiros que identificaram a cidade natal (ou de residência) no Twitter e a distribuição é excessivamente concentrada em São Paulo (além de outros indicadores suspeitos). Vou dar uma revisada nas rotinas de identificação e na base de dados de cidades brasileiras extraída do IBGE. Isso está bem esquisito.
Acabei de descobrir que há pelo menos um indicador em que o estado de São Paulo representa um terço da população. Enquanto minha pesquisa claramente precária acusa que 33% dos usuários do Twitter são do estado de São Paulo, uma pesquisa do Inpad identificou que 34% dos indivíduos que usaram cocaína inalada ou fumada no Brasil entre 2011 e 2012 estão no Estado de São Paulo. Confirmamos com isso que o Twitter é efetivamente uma droga. |
Review & Resubmit
O processo de reedição de uma pesquisa já realizada, com cálculos prontos e texto escrito, tende a me cansar mais do que o desafio inicial de desenho da pesquisa original. É um trabalho um pouco mais chato, já que há poucas novidades no caminho. Abaixo seguem dois gráficos de correlações de algumas variáveis de tópicos noticiosos retirados do Twitter. Cada tópico é composto de um conjunto de 9 hashtags sobre temas noticiosos. O primeiro gráfico, utilizado na apresentação da pesquisa no SocMedNews do ICWSM, inclui 12 tópicos e a correlação Pearson (p<0.001) de 17 variáveis. O segundo gráfico inclui 14 tópicos noticiosos no Twitter e um conjunto menor de variáveis, já que pretendemos enxugar um pouco a análise de correlações na versão revista. |
Bipartite das Acampadas
Também em 2011 conversei com o Rafael Raimundo sobre o uso de hashtags como um fator importante para a emergência de movimentos políticos no Twitter. A hipótese era de que tweets com mais hashtags têm maiores taxas de replicação. A questão é especialmente interessante em movimentos como o Indignados na Espanha ou o Occupy nos EUA, que concentram um vasto número de hashtags ao redor de tags amplamente retuitadas, como #spanishrevolution e #ows. Mas a hipótese de que o volume de RTs pode ser explicado pelo número de hashtags nas mensagens não corresponde com os dados. A correlação não é, de todo modo, estatisticamente significante (r=0.00027, p<0.001). Pensamos então em uma segunda hipótese. Talvez existam combinações especificas de hashtags que ajudem a impulsionar as taxas de replicação, o que pode ser descrito com uma rede bipartida tweets x hashtags. O plot abaixo inclui 35 hashtags relacionadas com o movimento Indignados, que eclodiu na Espanha em maio de 2011 e atingiu 58 cidades espanholas. No pé do grafo estão indicadas as mensagens pelo ID. No topo as hashtags citadas. |
Rede de Replies da Lista Compós
Em 2011 eu e fiz alguns experimentos com PCA de algumas listas de discussão e não encontrei nenhum pacote eficiente para localizar mensagens enviadas e respostas recebidas nas listas de discussão do Yahoo!. Escrevi então um pequeno script para grafar a rede da compos@yahoogroups, que ainda está disponível neste endereço: Esse é um plot de todas as mensagens que receberam reply na lista. A primeira mensagem foi de Milton José Pinto no dia 06.06.2000 e o primeiro reply foi de Albino Rubim no dia seguinte (em resposta a Jose Luiz Aidar Prado). O tamanho do nó é proporcional ao volume de mensagens recebidas como resposta. A espessura dos edges pe proporcional às mensagens enviadas. O layout é ForceAtlas II e as cores deveriam indicar comunidades internas. Algumas observações a partir do plot: 1. O Juremir é o rei dos replies. Não há mensagem enviada pelo Juremir que não tenha gerado uma mensagem-reply. 2. Redes sociais exibem um alto coeficiente de clusterização. A lista/comunidade da Compós não é exceção. 3. A lista está segmentada em uma minoria que alimenta o grupo com informações e uma maioria que alimenta a lista com perguntas. Encontrei alguns problemas na análise dos dados porque o Yahoo! não disponibiliza as mensagens no formato MIME. Além dessa limitação, o plot também não mostra: 1. Uma quantidade desanimadora de mensagens-reply que não configuram perguntas embora tenham efeito cascata. Tratam-se das mensagens institucionais de congratulação. Ainda não consegui filtrar essa interação que não configura conversa. 2. Cerca de 700 mensagens-reply cujos usuários não foram reconhecidos (NA). O dataset conta com cerca de 12000 mensagens das quais 5000 são mensagens-reply. 3. Alguns usuários postaram mensagens na lista com emails diferentes. Meus scripts não são espertos o suficiente para fazer uma match perfeito de cada user/account. 4. Alguns usuários mudaram o display name ao longo dos anos. Exemplo: Denilson Lopes / Denilson Lopes Silva. O script mapeia cada screenname como um usuário independente. A análise da rede foi feita com R e o plot com Gephi. Quem quiser brincar com os dados pode baixar o dataset aqui (http://www.eca.usp.br/netclustering/mtblYgr_compos.xlsx). |
Tarde on smoking, drinking and clothing
The desire to smoke, to drink tea or coffee, etc., did not appear until after the discovery of tea, or coffee, or tobacco. Here is another example among a thousand. "Clothing does not result from modesty," M. Wiener justly observes (Le Perou); "on the contrary, modesty appears as a result of clothing, that is to say, the clothing which conceals any part of the human body makes the nakedness of the part which we are accustomed to see covered, appear indecent." In other words, the desire to be clothed, in so far as it is a social desire, is due to the discovery of clothing, of certain kinds of clothes. Inventions are far from being, then, the simple effects of social necessities; they are their causes. |
Kittler against McLuhan
"That the media influence bodies through emergence and immersion, on that point we both agree. However, I don't believe in the old thesis that thus the media are prostheses of the body, which amounts to saying, in the beginning was the body, then came the glasses, then suddenly television, and from the television, the computer. The mythology is that everything frees itself from the body, dissolves and submerges in it again, in the sense of emergence and immersion, virtual reality, cinemascope, and hallucination. Your theory may be true for some of the entertainment media, but I think to be able to describe a general media history, it would be better to work, like Luhmann, systematically from the independent histories of the technological media. The media don't emerge from the human body, rather you have, for example, the book, and the military generals in considering how they can subvert the book or the written word, come up with the telegraph, namely, the telegraph wire; and then to offset the military telegraph, they come up with the wireless radio, which Hitler builds into his tanks. In England Alan Turing or Churchill ponder a way to beat Germany's radio war, and they arrive at the computer to crack the radio signals - and the German goose is cooked, that's the end of the war. A history like this doesn't need individual bodies or a subject that expands in and through the media - such a history can do without the subjective agency of a historical actor. Rather, I think, it's a reasonable hypothesis to say that the media, including books and the written word, develop independently from the body. Even then, if you want to, you can describe how, through advertising or commercial means, the media influence and separate bodies." Griffin, Matthew, Susanne Herrmann, and Friedrich A. Kittler. "Technologies of Writing: Interview with Friedrich A. Kittler." New Literary History 27, no. 4 (1996): 731-42.
|