Brincando com a linguagem e criando sentidos ou cognição distribuída e emergência da linguagem
source: http://www.multiciencia.unicamp.br/art06_3.htm
Edson Françozo -
Instituto de Estudos da Linguagem (UNICAMP).
Maria Luiza Cunha Lima
- Universidade do Vale do Rio Verde de Três Corações (UNINCOR)
Orlando Bisacchi Coelho -
Universidade de Mogi das Cruzes (UMC), com apoio da FAEP.
Resumo
Nosso interesse, neste texto, é mostrar alternativas teóricas e
metodológicas às concepções tradicionais do sentido das palavras.
Habitualmente, o sentido das palavras é obtido a partir de um conjunto
básico de informações depositado na memória individual de cada falante e
é por ele internamente manipulado de maneira autônoma. Experimentos
recentes em robótica, vida artificial e etnografia de sistemas
cognitivos mostram como se pode estudar o sentido das palavras como
resultado de uma construção entre agentes que cooperam e interagem. O
sentido, portanto, passa a ser visto como um fenômeno situado,
distribuído e emergente.
Desde o final da década de 1990, Luc Steels (um pesquisador
belga) e seus colaboradores vêm desenvolvendo interessantes experimentos
com robôs. O objetivo é o de fazer com que um conjunto de robôs, cada
um deles dotado de um sistema perceptual simples e igual para todos,
fosse capaz de desenvolver, de maneira coordenada, um conjunto de
representações comuns sobre o meio onde “vivem”, de tal forma que
pudessem estabelecer comunicação e realizar tarefas conjuntamente. A
expectativa é a de que essas populações de robôs pudessem desenvolver,
adquirir, um sistema de representações comparável à linguagem humana.
Um dos experimentos mais interessantes foi o chamado de “ Talking Heads ” (ver Steels 2000).
Nele, cada robô consistia em uma câmera (de vídeo) móvel e um programa
de computador capaz de gerar uma seqüência sonora (uma “palavra”) de
forma aleatória a partir de um repertório de sílabas pré-gravadas; além
disso, cada robô era capaz de “perceber” emissões sonoras. Um par desses
robôs era colocado frente a um quadro, onde estavam dispostas figuras
geométricas de cores e tamanhos variados (ver Figura 1). A cada turno
interacional, um robô assumia o papel de “falante” e o outro o papel de
“ouvinte”. O robô falante escolhia, aleatoriamente, uma das figuras do
quadro e, nos primeiros turnos, emitia um som – um “nome” – também
aleatoriamente gerado. O robô ouvinte movia sua câmera (sua “cabeça”,
ver Figura 2) de forma a focalizar uma das figuras no quadro. Isso
equivalia a apontar para ela, estabelecendo um referente para a
“palavra” ouvida, e assim mostrando sua compreensão. O robô falante
confirmava, também verbalmente, se o ouvinte havia feito uma escolha
correta ou não. O sucesso ou fracasso, em cada turno interacional, era
armazenado na memória de ambos os robôs.
Inicialmente, o grau de acerto entre os pares de robôs era
muito baixo, correspondendo a um nível estatisticamente aleatório. Com a
realização de numerosos turnos interacionais, porém, o grau de
concordância entre eles aumentava muito; isto é, eles tendiam a usar os
mesmos sons – “as mesmas palavras” – para designar os mesmos objetos no
quadro. Mas, mais importante do que o fato de os robôs concordarem sobre
as palavras, uma categorização dos objetos no quadro também era criada.
Vejamos um exemplo (hipotético). Imaginemos que os robôs haviam
concordado em chamar um objeto quadrado vermelho pequeno de wabaku . A quê a palavra wabaku
refere-se? A objetos quadrados? Vermelhos? Pequenos? Isto é, não havia
concordância prévia sobre as categorias que poderiam ser postuladas como
organizadoras do mundo percebido pelos robôs; elas não estavam,
portanto, predefinidas, não eram dadas de antemão. Imaginemos que o
experimento continua e, em seguida, um círculo vermelho grande também é
chamado de wabaku . Aos poucos, a referência de wabaku
pode ir modificando-se, estreitando-se até tornar-se a cor vermelha. Em
resumo, os itens lexicais, a referência e a categorização do mundo
desenvolvem-se simultaneamente ao longo do experimento.
Muitos robôs foram construídos e colocados a interagir, em
pares, frente a quadros distintos. Depois de um determinando tempo
interagindo em díades, os pares eram desfeitos, e novos pares eram
criados, pela recombinação de robôs (que mantinham a memória de suas
experiências interacionais anteriores). Pares assim constituídos
interagiam em diversos locais do mundo (Paris, Bruxelas, Hong Kong, Nova
Iorque, Tóquio, por exemplo) e, às vezes, quando recombinados, eram
transferidos de local.
Com o passar do tempo, alguns robôs eram desativados (isto é,
“morriam”), enquanto novos robôs eram gerados e introduzidos em
comunidades que já exibiam um léxico desenvolvido. Uma parte dessa
tarefa era realizada pelo público que participava voluntariamente do
experimento através da Internet. Ao final de quatro meses, uma população
estável de cerca de 2.000 robôs havia criado um léxico de 8.000
palavras, correspondendo a 500 conceitos. O fato de haver essa diferença
entre número de palavras e conceitos nos permite caracterizar esse
léxico como exibindo sinonímia e polissemia, tal qual a linguagem
humana.
Segundo Steels (Steels et al. 2002), o sucesso do experimento
“Talking Heads” decorre de uma dinâmica que permite a auto-organização
de um léxico. Essa dinâmica se baseia no estabelecimento de um processo
de realimentação positiva entre o uso de uma determinada forma lexical e
o sucesso comunicativo encontrado ao usá-la, já que o sentido das
palavras é estabelecido através da negociação, na linguagem, entre os
agentes. Steels aponta um conjunto de fatores que se mostraram cruciais
para o sucesso do experimento, e especula que esses mesmos fatores podem
ter desempenhado um papel crucial no surgimento do léxico humano.
Alguns desses fatores de sucesso são internos à arquitetura dos agentes,
outros se referem à dinâmica grupal e ao meio ambiente em que os
agentes operam. Entre os fatores que se mostraram essenciais para o
sucesso do experimento temos:
• Os agentes devem ter a possibilidade e o desejo de participarem de atividades cooperativas.
• Além de poderem se comunicar verbalmente, os agentes devem
ter, em paralelo, uma outra forma de se comunicarem (via visão, como no
experimento ou, por exemplo, via ostensão) que seja confiável.
• Como o estabelecimento de conceitos precede a
verbalização, os agentes devem ter uma forma de adquirir conceitos a
partir do contexto partilhado. O processo de formação de conceitos deve
se basear em aparatos sensoriais e formas de representar conceitos
similares em toda a população de agentes. O número de conceitos que
podem surgir a partir de uma dada situação deve ser suficientemente
restrito de modo a permitir que as conceituações desenvolvidas por cada
agente, na situação, sejam similares.
• Os agentes devem ter como reconhecer as formas lexicais e reproduzi-las.
• Os agentes devem ter como descobrir e usar as associações
mais fortes que se estabelecem (em ambas as direções) entre palavras e
sentidos.
• De modo a garantir um número satisfatório de interações
entre os agentes, a população deve ser suficientemente estável e seu
tamanho inicial não deve ser grande demais.
• O ambiente, tal como percebido através do aparato
perceptual dos agentes, deve ser estável o bastante e deve oferecer uma
parcela de situações perceptualmente simples.
Ele também assinala alguns fatores que não se mostraram
necessários – na verdade, não foram incorporados no experimento, por
decisão de projeto, de modo a demonstrar que não são essenciais ao
surgimento de um léxico:
• A preexistência de uma teoria da mente dos outros agentes
(pelo menos para o tipo de jogo de linguagem que foi usado neste
experimento).
• A preexistência de um conjunto de conceitos partilhado
entre os vários agentes. Na verdade, tanto os conceitos como a linguagem
emergem em paralelo e de forma interativa, no experimento.
• Telepatia: os agentes não têm nenhuma forma de conhecer, a
não ser pela linguagem, os sentidos que os outros agentes querem
transmitir.
• Controle centralizado da evolução da linguagem e consciência global, por parte dos agentes, da linguagem.
• Coerência total: conceitos e léxico individuais variam de agente para agente; e o léxico é polissêmico.
Qual a concepção de sistema cognitivo e de linguagem que informa trabalhos como esse? Para esboçar uma resposta a essa pergunta, vamos inicialmente examinar como, a partir dos estudos lingüísticos, pode-se conceber a conexão entre as palavras e seus sentidos. Facilmente visível no experimento acima relatado, a conexão entre palavras e sentidos tem um lado partilhado e distribuído – afinal, tratou-se de milhares de robôs, em comunidade. É o que trataremos a seguir.
Estas concepções têm dificuldades em dar conta de inúmeras instâncias em que é visível o aspecto criativo e plástico do sentido (ver, e.g., Clark 1996, Chafe 1994, Mondada & Dubois 1995). Por exemplo, Clark (1992) analisa o que ele chama de nonce sense , o fenômeno comum de uma palavra adquirir um sentido novo específico para um determinado contexto, e que possivelmente não se repetirá. Por exemplo, se um fotógrafo lhe diz “Faça um Napoleão para a câmera” , é muito provável que você assuma uma determinada pose para a foto, calcada na conhecida pose do imperador francês. Você só poderia ter assumido a pose requerida se tivesse ativado seus conhecimentos sobre Napoleão, em combinação com a situação em que o pedido fora feito, i.e., possivelmente a de um estúdio fotográfico (envolvendo retratos, poses, etc.). Quer dizer, o sentido de Napoleão como um determinado tipo de pose fotográfica não preexistia fixamente como parte da representação lexical desse nome; mais provavelmente, ele é estabelecido entre os participantes de uma interação específica. Um outro exemplo é o da já clássica ilusão semântica – casos em que não é facilmente perceptível a existência de erro factual em perguntas como “Quantos animais Moisés levou para a arca?”. Neste caso, a interpretação de Moisés certamente não recorreu a qualquer representação lexical determinada por eventuais conhecimentos históricos relativos apenas a Moisés – ao contrário, esses conhecimentos são substituídos, nessa situação, por conhecimentos mais genéricos sobre a história bíblica. Se as representações fossem estáveis e discretas, era de se esperar que, em ambos os casos, a representação acessada por cada participante da conversação fosse exatamente e sempre a mesma. Obviamente, esse não é o caso.
De modo geral, a dificuldade de explicar exemplos como os acima estão associadas à dificuldade das concepções clássicas em lidar com um objeto mutável, dinâmico e que se esquiva da axiomatização. Nas concepções alternativas, o sentido das palavras não é imanente a elas, mas se constitui no uso e nas histórias interativas onde elas aparecem (Clark, 1996). A criação de sentido na linguagem é uma atividade negociada, fruto da co-construção que nasce da interação entre sujeitos. Ou seja, o sentido não é imanente à relação entre as palavras e as coisas, mas surge de uma negociação necessária e incontornável. As relações de sentido não dependem, essencialmente, de um conjunto de características necessárias e suficientes que as licenciem. O uso de um item para designar um elemento do mundo depende, sempre, de um acordo entre os agentes.
Assim como as concepções de sentido como representações estáticas e discretas implicam uma noção de computação clássica e uma concepção de sistema cognitivo correspondente, as concepções de sentido como construção situada e partilhada entre agentes implica noções de computação e cognição diferentes. Vários esforços têm sido desenvolvidos para responder a essas demandas. Entre eles temos o Conexionismo (também conhecido como Redes Neurais; ver Elman et al. 1996 e Bechtel & Abrahamsen 2002), a Vida Artificial ( ALife ; ver Langton 1995) e as abordagens baseadas em Sistemas Dinâmicos (ver Port & van Gelder 1995).
O que essas várias abordagens cognitivas distintas têm em comum é exatamente a negação do simbólico como o nível correto para descrição dos processos cognitivos. Abrindo mão da estabilidade do símbolo, a cognição passa a ser concebida como processos que ocorrem de forma dinâmica, em que o tempo é essencial (Port & van Gelder 1995). São características centrais de sistemas cognitivos dessa ordem (a) serem auto-organizados, (b) adaptativos e (c) exibirem propriedades, configurações ou estruturas emergentes. Por exemplo, no caso de sistemas conexionistas, o processamento se dá pela alteração de um conjunto de padrões de ativação na rede ao longo de um processo de aprendizado. Num sistema conexionista, apresenta-se à rede um conjunto de exemplos extraídos do meio ambiente. A rede infere, da história de sua interação com estes exemplos, características relevantes que alteram as configurações internas da própria rede e lhe permitem, de modo adaptativo, aprender a desempenhar uma determinada tarefa.
A configuração final da rede emerge do processo de aprendizagem. Diz-se que um sistema complexo como este – um sistema composto de múltiplas entidades interagindo de forma não-linear – apresenta uma propriedade emergente quando esta é causada pela interação, de acordo com a dinâmica do sistema, de fatores de um nível inferior de análise, nenhum dos quais pode explicar o surgimento daquela propriedade. Um bom exemplo de emergência é apresentado por D'Arcy Thompson (apud Elman et al., 1996). A forma hexagonal do favo das colméias de abelhas não decorre de nenhum plano prévio que implica na escolha dessa forma. O que ocorre é que o trabalho de cada abelha, para maximizar a área do favo que está construindo, a leva a tentar construir uma forma circular. Contudo, ao redor de um círculo só é possível colocar seis outros círculos do mesmo tamanho – neste caso, outros favos sendo construídos por outras abelhas. As forças físicas (tensão superficial) interagem para deformar as esferas, levando-as a assumir a forma de hexágonos (veja a Figura 3). Não é “intenção” de qualquer abelha a construção de hexágonos. Entretanto, dada a interação entre as ações autônomas das abelhas e as restrições impostas pelo mundo físico, o hexágono é a única possibilidade resultante. O hexágono emerge.
Portanto, sistemas cognitivos dessa natureza permitem enxergar a relação entre palavras e seus sentidos como emergente do uso compartilhado da língua pelos agentes ao longo de uma história de interações (Clark 1996; Elman no prelo).
A análise de um fenômeno emergente enseja o entendimento desse fenômeno nos vários níveis de sua análise. No caso do sentido, é importante tentar compreendê-lo como a atribuição de sentido no nível dos processos internos dos agentes. Há muitos trabalhos que procuram explorar essa vertente, sem perder de vista seu aspecto situado. Entre eles, trabalhos como os de Tomasello (2003) e Clark (1992, 1996). Por outro lado, é importante também analisar o fenômeno no nível mais alto, isto é, compreender a atribuição de sentido como uma atividade conjunta e distribuída.
Nas abordagens tradicionais o sentido localiza-se na mente de cada agente cognitivo. Entretanto, numa concepção que privilegie o caráter plástico e negociado do sentido, este pode ser entendido como distribuído na comunidade de agentes em interação com o meio ambiente onde esta tarefa é desenvolvida, ao longo do tempo.
Vamos examinar uma das tantas situações normais de vôo (ver Hutchins, 1995). O pouso de uma aeronave depende da correta configuração da geometria das asas e da velocidade do avião. É preciso que a velocidade do avião seja baixa o suficiente para permitir o pouso com segurança. Entretanto, para determinadas configurações de asa, uma velocidade muito baixa pode significar a queda do aparelho por falta de sustentação. Portanto, uma tarefa essencial para a tripulação é adequar a configuração de asas à velocidade desejada para o pouso – isto é, uma velocidade baixa o suficiente que ainda permita às asas gerarem a sustentação necessária. Como se consegue isso?
Durante o vôo de cruzeiro, a tripulação dispõe de duas informações: de um lado, a configuração das asas é padrão, permitindo velocidades altas; por outro lado, o manual de vôo estabelece quais as mudanças devem ser introduzidas nessa configuração-padrão para o pouso, de forma que a sustentação seja mantida. Essa última informação é dada por uma tabela que lista as mudanças de configuração em função de limiares decrescentes de velocidade, tendo em vista o peso do avião no momento do pouso (ver Figura 4). Simplificadamente, a tarefa da tripulação é, durante a fase de aproximação da pista de pouso, diminuir a velocidade e alterar simultaneamente a configuração das asas.
Em qualquer momento da aproximação, ambos os membros da tripulação (piloto e co-piloto) têm, cada um à sua frente um dispositivo (Figura 5) que representa duas (ou mais) classes de informação. Primeiro, um ponteiro (preto) indica a velocidade do avião em relação ao ar. Segundo, um conjunto de 4 marcadores deslizantes externos (na figura, representados por 4 marcas negras sólidas, em 128, 155, 177 e 227 nós) indica as velocidades em que alterações de configuração das asas devem ser implementadas. É importante notar que o posicionamento dos marcadores deslizantes foi feito por acordo entre ambos os pilotos (cada um em seu respectivo mostrador) algum tempo antes de se iniciarem os procedimentos de aproximação para pouso. Nesse contexto, a posição de cada um dos marcadores adquire um sentido – a indicação mais clara disso sendo o sentido de perigo associado ao marcador que sinaliza a velocidade mais baixa.
Um segundo dispositivo que marca velocidades é um marcador deslizante interno, conhecido na linguagem da aviação, como salmon (na Figura 5, o marcador próximo à marca de 140 nós). Ele é posicionado pelo computador de bordo, e indica a velocidade que a aeronave deveria ter, em dado instante, em função de vários parâmetros de vôo, como a posição do acelerador, a própria geometria das asas, etc. Esse marcador tem uma forma característica: ele sinaliza, por meio de um pequeno ponteiro, a velocidade correta, e seu tamanho lateral, que recobre cerca de 10 nós, indica os limites inferior e superior da velocidade correta. O manual de vôo especifica que a velocidade real do aparelho não pode diferir em qualquer momento em mais de 5 nós (positiva ou negativamente) do que aquela indicada pelo salmon . A função do co-piloto é, verbalmente, avisar ao piloto quando a velocidade real exceder os 5 nós de diferença. O piloto, nessa circunstância, em geral checa visualmente a velocidade real e a correta, e toma as medidas necessárias para acelerar ou desacelerar o avião. Dessa maneira, a informação verbal do co-piloto adquire um sentido para o piloto. O co-piloto decide alertar sobre desvios de velocidade quando o ponteiro que indica a velocidade real não se posiciona dentro do espaço delimitado pelo tamanho do salmon . Isto é, o processo cognitivo que leva o co-piloto a decidir alertar sobre eventuais desvios de velocidade, neste ponto, não pode ser concebido como um conjunto de cálculos realizados internamente pelo co-piloto, mas sim com uma constatação, quase uma gestalt , da posição do ponteiro em relação ao corpo do salmon . Nesse sentido, esse dispositivo é parte do aparato cognitivo que pousa um avião.
O contexto teórico a partir do qual se estuda, por exemplo, a memória das velocidades durante o pouso, toma sistemas cooperativos complexos, e não mentes individuais, como a unidade primitiva de análise. E a teoria que se constrói é explicitamente cognitiva na medida em que diz respeito a como informações são representadas, transformadas e transmitidas através do sistema. Na cabine do avião, a representação das informações é construída de maneira ao mesmo tempo distribuída entre vários dispositivos (alguns internos aos tripulantes e outros externos a eles) e negociada entre os diversos participantes. Não se pode dizer que o sentido das várias representações desse sistema distribuído esteja previamente especificado.
O que distingue, portanto, essa concepção distribuída da cognição é a adesão a dois princípios. O primeiro é postular que nem sempre o indivíduo, ou os processos internos a ele, constitui a unidade correta de análise. Uma visão distribuída da cognição procura pelos processos cognitivos onde quer que eles ocorram, singularizando-os apenas com base nas relações funcionais dos elementos que participam no processo. Um processo não é cognitivo apenas porque tem um cérebro como seu suporte, ou porque envolve vários cérebros. Como vimos acima, sistemas que podem ser caracterizados como sócio-técnicos , como a cabine de um avião, podem ser tomados como unidades cognitivas. O segundo princípio diz respeito aos mecanismos que participam dos processos cognitivos. Os enfoques clássicos tendem a assumir que os eventos cognitivos residem na manipulação de símbolos no interior de agentes. O enfoque distribuído envolve uma classe mais ampla de eventos cognitivos e não supõe que eles estejam limitados ao interior do cérebros de agentes individuais. No caso que mostramos acima, os processos de memória resultam de uma rica interação entre processos internos (aos pilotos), da manipulação de objetos (os marcadores de velocidade, por exemplo) e da troca de informações entre os pilotos. Além disso, as restrições físicas do ambiente fornecem mais do que simples ajuda nos processos de memória como, por exemplo, no caso das correções de velocidade pela observação do dispositivo chamado salmon . As restrições físicas reorganizam o sistema cognitivo distribuído, fazendo uso de diferentes conjuntos de processos internos e externos.
Portanto, há três aspectos distintos a se considerar quando se estuda a distribuição de processos cognitivos:
• Os processos podem ser distribuídos entre membros de um grupo social;
• Os processos podem envolver a coordenação entre estruturas internas e externas; e,
• Os processos podem ser distribuídos no tempo, de forma que os produtos de eventos anteriores podem transformar a natureza de eventos ulteriores.
A possibilidade de estudar essas questões através de experimentos em robótica, de modelamento computacional e da etnografia de sistemas cognitivos permite instanciar sistemas compostos por agentes autônomos que precisam criar e negociar sentidos para, coletivamente, desempenhar tarefas. Nesses sistemas é possível, então, estudar com precisão a forma pela qual as co-determinações internas e externas da linguagem se estabelecem.
Chafe, W. (1994). Discourse, Consciousness, and Time, Chicago: University of Chicago Press.
Clark. H. (1992). Arenas of Language Use . Chicago: University of Chicago Press.
_______ (1996). Using language . Cambridge: Cambridge University Press.
Elman (no prelo). An alternative view of the mental lexicon. Trends in Cognitive Science.
Elman, J., Bates, E. A., Johnson, M., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1996). Rethinking Innateness: A connectionist perspective on development. Cambridge, Mass.: Bradford .
Hollan, J. D., Hutchins, E. & Kirsh, D. (1999). Distributed Cognition: A New Foundation for Human-Computer Interaction Research … TOCHI Special Issue on Human-Computer Interaction in the New Millennium.
Hutchins, E. (1995). How a cockpit remembers its speeds. Cognitive Science . 19, 265-288.
Langton, C. (1995). Artificial Life: An Overview . Cambridge, MA: The MIT Press.
Mondada, L. & Dubois, D. (1995). Construction des objets de discours et categorization: une approche des processus de référentiacion. In: Berrendonner, A. e Reichler-Béguelin, M-J. (orgs). (1995). Du Syntagme Nominal aux Objets-De-Discours. SN Complexes, Nominalisation, Anaphores . Neuchâtel: Institut de Linguistique de l'Université de Neuchâtel.
Port, R.F. & Van Gelder, T. (orgs.) (1995). Mind as Motion: Explorations in the Dynamics of Cognition . Cambridge, MA: The MIT Press.
Steels, L. and Kaplan, F. and McIntyre, A. and Van Looveren, J. (2002). Crucial factors in the origins of word-meaning. In: Wray, A., et.al. (eds.) (2002). The Transition to Language . Oxford University Press. Oxford.
Steels, L. and McIntyre, A. (1999). Spatially Distributed Naming Games. In: Advances in Complex Systems , vol. 1, nb. 4, pp. 301-323, Paris: Hermes Science Publications.
Tomasello, M. (2003). Origens Culturais da Aquisição do Conhecimento Humano . São Paulo: Martins Fontes.
Para outros experimentos, igualmente interessantes, veja o site http://www.aibo-europe.com/ .
É interessante notar que esse era também um experimento público. Em Paris, por exemplo, ao final de quatro meses de exposição, trezentas mil pessoas haviam interagido com os robôs.