O nascimento da palavra

Imagine se você pudesse gravar sua vida – tudo que você disse, tudo que você fez, disponível em um perfeito banco de memória, ao alcance das mãos, então você poderia voltar e encontrar momentos memoráveis e revivê-los, ou examinar períodos de tempo e descobrir padrões em sua vida que não haviam sido descobertos antes. Esta é exatamente a jornada que minha família começou há cinco anos e meio. Esta é minha mulher e colaboradora, Rupal. E neste dia, neste momento, entramos em casa com nosso primeiro filho, nosso lindo garotinho. E entramos em uma casa com um sistema de gravação de vídeos caseiros muito especial.

(Vídeo) Homem: OK.

Deb Roy: Este momento e milhares de outros momentos especiais para nós, foram captados em nossa casa porque em cada cômodo, se você olhasse para cima, veria uma câmera e um microfone, e se olhasse para baixo, teria uma visão panorâmica do cômodo. Esta é nossa sala, o quarto do bebê, cozinha, sala de jantar e o resto da casa. E tudo isto ia para uma série de discos desenvolvidos para uma captação ininterrupta. Aqui estamos sobrevoando um dia em nossa casa à medida em que passamos de uma manhã de sol a uma noite incandescente e, finalmente, luzes apagadas. Ao longo de três anos, gravamos de oito a dez horas por dia, coletando cerca de 250 mil horas de multi-faixas de áudio e vídeo.

Então, vocês estão vendo o que é certamente a maior coleção de vídeos caseiros já feita. (Risos) E o que esses dados representam para nossa família, pessoalmente, o impacto tem sido imenso, e ainda estamos aprendendo seu valor. Inúmeros momentos de expressões naturais, não ensaiados, foram captados lá, e estamos aprendendo como descobri-los e encontrá-los.

Mas também há uma razão científica para este projeto, que era usar estes dados naturais e longitudinais para entender o processo de como uma criança aprende linguagem – essa criança sendo meu filho. Então, com várias cláusulas de privacidade para proteger todos que foram gravados, nós disponibilizamos elementos dos dados para a minha confiável equipe de pesquisadores no MIT, para que pudéssemos separar padrões neste conjunto maciço de dados, tentando entender a influência de ambientes sociais na aquisição da linguagem. Aqui, estamos vendo uma das primeiras coisas que fizemos. Eu e minha esposa fazendo o café da manhã na cozinha. E à medida em que avançamos no espaço e no tempo, há um padrão de vida bem cotidiano na cozinha.

Para converter este vídeo opaco de 90 mil horas em algo que poderíamos começar a ver, usamos a análise de movimentos para selecionar, à medida em que avançamos no espaço e no tempo, o que chamamos de vermes do espaço-tempo. E isso se tornou parte das nossas ferramentas para sermos capazes de olhar e ver onde estão as atividades nos dados e, com isso, traçar um padrão de onde meu filho se movia pela casa, para que pudéssemos focar nossos esforços de transcrição em todo o ambiente de fala em volta do meu filho – todas as palavras que ele ouviu de mim, minha esposa, nossa babá e, com o tempo, as palavras que ele começou a produzir. Então, com essa tecnologia e aqueles dados e a habilidade de, com ajuda da máquina, transcrever as falas, nós já transcrevemos mais de sete milhões de palavras das nossas transcrições caseiras. Com isso, deixem-me levá-los agora para uma primeira turnê pelos dados.

Tenho certeza de que todos já viram filmes com lapso de tempo, onde a flor desabrocha quando aceleramos o tempo. Agora, eu gostaria que vocês presenciassem o desabrochar de uma fala. Meu filho, logo após seu primeiro aniversário, dizia “gaga” significando “água”. E ao longo dos seis meses seguintes, ele lentamente aprendeu a aproximar-se da forma apropriada do adulto, “água”. Então vamos atravessar meio ano em cerca de 40 segundos. Não há vídeo aqui, para que vocês foquem no som, na acústica, de uma nova trajetória: gaga para água.

(Áudio) Bebê: Gagagagagaga Gaga gaga gaga guga guga guga uada, gaga, gaga, gaga, gaga ága guga guga água água água água água água água água água.

DR: Ele pegou direitinho, não é?

(Aplausos)

Então ele não aprendeu só água. Ao longo de 24 meses, os dois primeiros anos, que realmente focamos, este é um mapa de cada palava que ele aprendeu em ordem cronológica. E como temos transcrições completas, identificamos cada uma das 503 palavras que ele aprendeu a produzir até seu segundo aniversário. Ele aprendeu a falar cedo. Então começamos a analisar o porquê. Por que algumas palavras apareceram antes de outras? Este é um dos primeiros resultados obtidos no nosso estudo há pouco mais de um ano que realmente nos surpreendeu. A maneira de interpretar este gráfico aparentemente simples é na vertical, e é uma indicação do quão complexo é o discurso de quem cuida baseado na extensão do discurso. E o eixo vertical é tempo.

E todos os dados, nós alinhamos baseado na seguinte ideia: Toda vez que meu filho aprendia uma palavra, nós rastreávamos e víamos toda a linguagem que ele escutou que continha a palavra. E traçávamos o comprimento relativo de cada discurso. E o que encontramos foram estes fenômenos curiosos, a fala de quem cuidava dele sistematicamente caía a um mínimo, fazendo linguagem da maneira mais simples possível, e então lentamente ascendendo de volta em complexidade. E o incrível foi que este decréscimo, esta caída, se alinhou quase precisamente com quando cada palavra nasceu – palavra após palavra, sistematicamente. Então parece que as três pessoas que tomavam conta – eu, minha esposa e nossa babá – estávamos sistematicamente e, eu pensaria, subconscientemente reestruturando nossa linguagem para encontrá-lo no nascimento da palavra e trazê-lo gentilmente para uma linguagem mais complexa. E as implicações disso – existem muitas, mas eu gostaria de destacar uma, é que devem haver incríveis círculos de retorno. É claro, meu filho está aprendendo com este ambiente linguístico, mas o ambiente está aprendendo com ele. Esse ambiente, pessoas, estão nesses ajustados círculos de retorno e criando uma espécie de andaime que não tinha sido notado até agora.

Mas isso é olhando para o contexto do discurso. Mas e o contexto visual? Não estamos olhando para ele – pense nisto como uma casa de bonecas, réplica de nossa casa. Nós pegamos as câmeras olho-de-peixe, e fizemos algumas correções óticas, e então podemos trazê-la para o mundo tridimensional. Então bem-vindos à minha casa. Este é um momento, um momento captado por várias câmeras. Nós fizemos isso para criar a máquina de memória definitiva, onde você pode voltar no tempo e interagir e então aspirar a vida do vídeo neste sistema. O que eu vou fazer será mostrar-lhes uma visão acelerada de 30 minutos, de novo, de vida na sala de estar. Eu e meu filho no chão. E há a análise de vídeo que está rastreando nossos movimentos. Meu filho está deixando tinta vermelha, e eu tinta verde. Agora estamos no sofá, olhando pela janela os carros passando. E finalmente, meu filho brincando num andador sozinho.

Agora congelamos tudo, 30 minutos, transformamos o tempo em eixo vertical, e abrimos para uma vista desses traços interativos que recém deixamos para trás. E nós vemos estas surpreendentes estruturas – estes pequenos nós de duas cores de filamentos que nós chamamos de pontos quentes sociais. O fio espiral nós chamamos ponto quente único. E nós pensamos que isto afeta a maneira como a linguagem é aprendida. O que nós gostariamos de fazer é começar a entender a interação entre estes padrões e a linguagem a que o meu filho está exposto para ver se nós podemos prever como a estrutura de quando as palavras são ouvidas afeta quando elas são aprendidas – então em outras palavras, a relação entre palavras e o que elas significam no mundo.

Então aqui está como estamos abordando isto. Neste vídeo, de novo, meu filho está sendo seguido Ele está deixando tinta vermelha para trás. E nossa babá está na porta.

(Vídeo) Babá. Você quer água? ( Bebê. Aaaa) Babá. Tudo Bem. (Bebê. Aaaa)

DR. Ela oferece água, e lá vão os dois vermes até a cozinha para apanhar água. E o que nós fizemos foi usar a palavra “água”. para assinalar aquele momento, aquele ponto de atividade. E agora nós pegamos o poder dos dados e pegamos todos os momentos em que meu filho ouviu a palavra água e o contexto no qual ele a viu e nós os usamos para penetrar através do vídeo e encontrar cada traço de atividade que ocorreu juntamente com um exemplo de água. E o que esta informação deixa em sua esteira é uma paisagem. Nós a chamamos de paisagens de palavras. Esta é a paisagem de palavra para a palavra água e vocês podem ver que grande parte da ação é na cozinha. É lá onde aqueles grandes picos estão à esquerda. E apenas para contrastar, podemos fazer isto com qualquer palavra. Nós podemos pegar a palavra “até” como em “até logo”. E nós agora estamos dando um zoom na entrada da casa. E olhamos, e encontramos, como poderiam esperar, um contraste na paisagem onde a palavra “até” ocorre de uma maneira muito mais estruturada. Então nós estamos usando estas estruturas para começar a prever a ordem de aquisição da linguagem e é no que estamos trabalhando agora.

No meu laboratório, onde estamos pesquisando, no MIT — este é o laboratório de comunicação. Isto se tornou a minha maneira favorita de videografar sobre qualquer espaço. Três das principais pessoas neste projeto Philip DeCamp, Rony Kubat e Brandon Roy estão nesta fotografia. Philip tem sido um colaborador muito próximo em todas as visualizações que vocês viram. E Michael Fleischman era outro estudante de PH.D. no meu laboratório que trabalhou comigo na análise deste vídeo caseiro e ele fez a seguinte observação: que “a maneira pela qual nós estamos analisando como a linguagem se conecta com eventos os quais fornecem um campo comum para a linguagem, essa mesma idéia podemos pegar fora da nossa casa, Deb, e podemos aplicá-la ao mundo da comunicação pública.”. E então nosso esforço deu uma virada inesperada.

Pensem na comunicação de massa como fornecendo um campo comum e vocês têm a receita para levar esta idéia a um novo contexto. Nós começamos a analisar o conteúdo televisivo usando o mesmo princípio – analizando a estrutura de um evento de um sinal de TV – episódios de shows, comerciais, todos os componentes que fazem a estrutura do evento. E estamos agora, com discos de satélites, captando e analisando uma boa parte de toda a TV que é vista nos Estados Unidos. E vocês não tem mais que instalar microfones em todas as salas de estar para captar a conversa das pessoas, basta sintonizarem no conteúdo público de comunicação social disponível.

Então estamos recebendo cerca de três bilhões de comentários por mês. E então a magia acontece. Vocês têm a estutura do evento, o campo comum das palavras, vindos dos programas de televisão, vocês têm as conversas que são sobre aqueles tópicos; e através da análise semântica — e essas são informações reais que vocês estão vendo do nosso processador de informações — cada linha amarela está mostrando um elo sendo feito entre um comentário no ar e uma peça da estrutura de um evento vindo de um sinal de televisão. E a mesma idéia agora pode ser construída. E nós temos esta paisagem de palavra, exceto que agora as palavras não são montadas na minha sala. Em vez disso, o contexto, o campo comum de atividades são o conteúdo na televisão que está dirigindo a conversa. E o que nós estamos vendo aqui, estes arranha-céus agora são comentários que estão ligados ao conteúdo na televisão. O mesmo conceito, mas olhando a dinâmica da comunicação em uma esfera diferente.

E então fundamentalmente, em vez de, por exemplo, medir o conteúdo baseado na quantidade de pessoas que está assistindo, isto nos dá a informação básica para procurar propriedades de conexão do conteúdo . E assim como podemos olhar os ciclos de retorno e dinâmicas numa família, nós podemos agora abrir os mesmos conceitos e olhar para grupos muito maiores de pessoas. Isto é um subconjunto de dados da nossa base de dados – apenas 50 mil de diversos milhões – e o gráfico social que os conecta através de fontes públicas disponíveis. E se vocês os colocam em um plano, um segundo plano é onde está o conteúdo. Então nós temos os programas e os eventos esportivos e os comerciais, e todas as estruturas que os conectam fazem um gráfico de conteúdo. E então a importante terceira dimensão. Cada uma das conexões que vocês vêem apresentadas aqui é uma conexão real feita entre alguma coisa que alguém disse e uma parte de conteúdo. E existem, de novo, agora dezenas de milhões dessas ligações que nos dão o tecido conectivo do gráfico social e como ele se relaciona ao conteúdo. E agora podemos começar a examinar a estrutura de maneiras interessantes.

Então se, por exemplo, delineamos o caminho de uma parte do conteúdo que conduz alguém a comentá-lo, então nós seguimos onde aquele comentário vai, vemos o gráfico social completo que se ativa e voltamos para ver a relação entre o gráfico social e o conteúdo, uma estrutura muito interessante se torna visível. Nós chamamos isto uma co-visão fechada uma sala de estar virtual, se preferirem. E existem dinâmicas fascinantes em jogo. Não é um caminho único. Uma parte do conteúdo, um evento, motiva pessoas a falar. Eles falam com outras pessoas. Isso conduz a um comportamento sintonizado de retorno aos meios de massa, e vocês têm estes ciclos que conduzem ao comportamento global.

Outro exemplo – bem diferente — outra pessoa real em nossa base de dados — e estamos encontrando pelo menos centenas, se não milhares delas. E demos um nome a esta pessoa. Esta é uma pró-amadora, ou pro-am, crítica de mídia que tem esta elevada taxa de assistência. Então muita gente está seguindo esta pessoa – muito influente – e elas têm a propensão de falar sobre o que acontece na TV. Então esta pessoa é um elo chave na conexão dos meios de massa e dos meios sociais juntos.

Um último exemplo destes dados. Às vezes, é na verdade, um segmento de conteúdo que é especial. Então se olharmos este segmento de conteúdo, discurso do Presidente Obama na sessão de abertura do Congresso há algumas semanas, e olharmos o que encontramos neste mesmo conjunto de dados, na mesma escala, as propriedades de conexão deste segmento de conteúdo são verdadeiramente notáveis. A nação explodindo em conversações em tempo real em resposta ao que acontece na transmissão. E sem dúvida, através de todas estas linhas estão fluindo linguagens não estruturadas. Podemos radiografar e conseguir em tempo real a pulsação de uma nação, percepção em tempo real das reações sociais nos diferentes circuitos no gráfico social sendo ativadas pelo conteúdo.

Resumindo, a ideia é esta: À medida que o nosso mundo se torna mais instrumentalizado e nós temos as capacidades de coletar e conectar os pontos entre o que as pessoas estão dizendo e o contexto no qual elas o estão dizendo, o que emerge é uma habilidade de ver novas estuturas sociais e dinâmicas que ainda não tinham sido vistas. É como construir um microscópio ou telescópio e revelar novas estruturas sobre o nosso próprio comportamento em torno da comunicação. E eu penso que as implicações aqui são profundas, quer sejam para a ciência, para o comércio, para o governo, ou talvez acima de tudo, para nós como indivíduos.

E então apenas para voltar ao meu filho, enquanto eu preparava esta apresentação, ele olhava sobre o meu ombro, e eu mostrei a ele os clips que iria apresentar a vocês hoje, e eu pedi permissão a ele – a sério. E então eu comecei a refletir, “Não é fantástico, esta completa base de dados, todas estas gravações, vou entregar a você e a sua irmã,” que chegou dois anos depois. “E vocês poderão voltar no tempo e re-experimentar momentos que vocês nunca poderiam, com sua memória biológica, possivelmente lembrar da maneira que agora podem”. E ele ficou quieto por um momento. E eu pensei, “O que estou pensando? Ele tem cinco anos de idade. Não vai entender isto.” E enquando eu estava tendo esse pensamento, ele olhou para mim e disse, “Então quando eu crescer, posso mostrar isto para os meus filhos?” E eu pensei. “Uau, isto é uma coisa poderosa.”

Então eu quero deixá-los com um último momento memorável da minha família. Esta é a primeira vez que o nosso filho deu mais que dois passos de uma vez – captados em filme. E eu quero que vocês se fixem nisso à medida que os conduzo. É um ambiente desordenado, é vida real. Minha mãe na cozinha, cozinhando e, de tantos lugares, no corredor, compreendi que ele estava pronto, a ponto de dar mais de dois passos. E então vocês me ouvem encorajando-o, compreendendo o que estava acontecendo, e então a mágica acontece. Ouçam com cuidado. Por volta do terceiro passo, ele entende que alguma coisa mágica está acontecendo. E o mais surpreendente círculo de resposta acontece, e ele inspira, e murmura “uau” e instintivamente eu digo o mesmo. E então vamos voar de volta no tempo àquele momento memorável.

(Vídeo) DR. Ei. Vem aqui. Você pode fazer isto? Meu Deus. Você pode fazer isto? Nenem: Sim. DR. Mãe, ele está andando.

(Risos)

(Aplausos)

DR. Muito obrigado.

(Aplausos)

Anúncios