2.7 Fragmentti 19

Siirtämällä ja mukauttamalla Haylesin väitteet toiseen yhteyteen DAR tulee itse esittäneeksi merkittävän väitteen fragmentti 19:ssä. Toteamuksesta, että käyttämämme digitaaliset teknologiat suorittavat ”monimutkaisia kognitiivisia tehtäviä” seuraa nimittäin joukko kysymyksiä. Näistä perustavanlaatuisin tietysti on, mitä kognitio on ja esiintyykö sitä myös koneilla, kuten DAR Haylesia seuraten näyttäisi väittävän.

Molemmat tehtävät – niin konekääntäminen kuin automaattinen puheentunnistuskin – ovat teknisesti monimutkaisia, mutta ovatko ne kognitiivisia? Millä lailla tai missä mielessä? Mikä on viime kädessä inhimillisen ja (oletetun) koneellisen kognition suhde love.abz/(love.abz)3:ssa?

Kuten kysymyksistäni ilmenee minusta DAR kiirehtii fragmentti 19:ssä asioiden edelle. Minusta kun ei ole lainkaan itsestäänselvää, että koneet suorittavat kognitiivisia tehtäviä tässä tutkimuksessa. Digitaaliset mediat palvelevat tutkimuksen kokonaisuudessa kognitiivista funktiota, sen olen valmis hyväksymään. Ne mahdollistavat ja tukevat kognitiivisia prosesseja ja jopa osallistuvat niihin sekä toimivuutensa että toimimattomuutensa kautta (väärintunnistukset ja -käännökset kun ovat useasti tutkimuksellisesti hedelmällisiä).

Muissa yhteyksissä Hayles on viitannut inhimillisen ja koneellisen kognition “sekoittumiseen” ja “yhteentörmäykseen/kombinaatioon” (Hayles 2008, 16, 23). Tämän tutkimuksen kannalta keskeinen kysymys on, suorittavatko digitaaliset mediat kognitiivisia tehtäviä vai tulevatko ne tahattomasti omaksuneeksi kognitiivista toimijuutta toimiessaan osana harjoittamiamme kirjoitus- ja lukemismetodeja. Kallistun jälkimmäiselle kannalle.

Tahaton kognitiivinen toimijuus

Video 2.7.1 Ote ensimmäisen taiteellisen osan, love.abz:n, videodokumentaatiosta. Huom: Video toistetaan kaksinkertaisella nopeudella.

Toisessa yhteydessä (Huopaniemi 2014) olen analysoinut video 2.7.1:ssä dokumentoitua love.abz:n osaa, jossa konekäännös ja puheentunnistus (ei-tietoisesti) myötävaikuttavat luku- ja kirjoitusprosessiin meluisten tulostensa kautta (2.7FI1). Analyysissa keskityn erityisesti niihin mekanismeihin, joiden myötä puheentunnistuksen voidaan ajatella saavan tahatonta kognitiivista toimijuutta improvisatorisessa ryhmäkirjoittamisessa. Nostan esiin kaksi käsitettä, joita olen käyttänyt taiteellisissa osissa syntyneiden tekstien jäsentämiseen: käännekohdan ja säestämisen hetken.

Käännekohdalla (2.7FI2) tarkoitan teknistä katkosta tai tilastollista virhettä, jonka seurauksena esiintyjän tuottama puhe ja ohjelmiston tuottama teksti eivät vastaa toisiaan. Tällaiset tunnistusvirheet ovat hyvin yleisiä useiden käyttäjien puheentunnistuksessa kuten love.abz/(love.abz)3:ssa (ks. 1.8). (Kielestä ja ohjelmistosta riippuen ne ovat edelleen suhteellisen yleisiä myös yhden käyttäjän puheentunnistuksessa.) Käännekohdilla on tässä yhteydessä kuitenkin spesifinen ja tärkeä funktio, minkä takia niitä ei voi pitää pelkkinä teknisinä katkoksina.

Käännekohta on kirjoitusprosessin repeämä, jossa ohjelmisto lisää valmisteilla olevaan tekstiin jotakin jota puhuja ei ole toivonut saati aikonut. Kirjoittaja-esiintyjä on pakotettu pysähtymään ja valitsemaan joko myötäilyn tai vastustamisen strategian. Edellinen tarkoittaa yleensä väärintunnistuksen sisällyttämistä tekstiin, sen legitimoimista osaksi kirjoitusprosessia. Jälkimmäinen taas on yritys palauttaa kirjoittajankontrollia ohjelmiston sallimilla keinoilla eli nk. sanelukäskyillä.

Käännekohdat ovat merkityksellisiä pohdittaessa inhimillisen ja koneellisen kognition suhdetta love.abz/(love.abz)3:n tapauksessa, sillä jos koneellista kognitiota tässä yhteydessä ilmenee missään muodossa on se juuri niiden ansiosta. Lähes poikkeuksetta inhimilliset kirjoittaja-esiintyjät sisällyttävät teksteihin ainakin jotakin ohjelmistojen tuottamasta meluisasta aineksesta. Jälkikäteen on yleensä helppo nähdä, että ohjelmien tuottamat ”vieraat” sanat ja ilmaisut ovat vaikuttaneet teksteihin merkittävästi.

Säestämisen hetkillä (2.7FI2.5) tarkoitankin tapauksia, joissa yksittäinen kirjoittaja tai kirjoittajaryhmä kokonaisuudessaan onnistuu hyödyntämään käännekohdasta johtuvaa murtumaa, ts. ottamaan väärintunnistuksen myötä prosessiin tunkeutuneen sanan tai fraasin ja käyttämään sitä tekeillä olevassa tekstissä joko välittömästi tai myöhemmin. Säestämisen hetkissä inhimillisten kirjoittaja-esiintyjien ja ohjelmistojen välinen, jatkuvaan vastavuoroisuuteen perustuva dynamiikka aktualisoituu ja toden teolla käynnistyy. Tässä yhteydessä Haylesin kuvaukset ”sekoittumisesta” ja ”yhteentörmäyksestä/kombinaatiosta” alkavat saada kantavuutta, joskin edelleen on muistettava että menetelmä hyödyntää pikemminkin koneen ”tyhmyyttä” kuin sen ”älykkyyttä” (2.7FI3).

Esiintyjäryhmän ja algoritmisten ohjelmien välinen suhde muuttuu läheisemmäksi, kun edellisten kirjoittamat lauseet alkavat olla yhä enemmän velkaa jälkimmäisten tuottamille virheille. Tästä keskinäisestä riippuvuudesta kielii sekin, etteivät esiintyjät yleensä reagoi silloin kun ohjelmistolta jää jokin lausahdus tai ilmaisu kokonaan tunnistamatta. Tällaiset ei-tunnistamiset – ts. kun puhesignaali jää vaille tekstuaalista vastinettaan – ovat harvinaisia mutta eivät aivan tavattomia. Dokumentaationi osoittaa, että esiintyjät jättävät ei-tunnistamiset yleensä huomiotta, kukaties siksi että on helpompi reagoida virheelliseen tunnistukseen kuin tunnistuksen puutteeseen. Riippumatta siitä, kykeneekö kone suorittamaan monimutkaisia kognitiivisia tehtäviä tässä yhteydessä vai ei, on sen panos kirjoittamisen jatkumisen edellytys.

Viitteet

2.7FI1
Laskennallisessa kielitieteessä ”meluisa” (engl. noisy) kuvaa epätarkkoja, virheellisiäkin käännöksiä (ks. esim. Schlesinger et al. 2008FI, 577).

2.7FI2
Dramaturgiassa käänne juontaa juurensa antiikin Kreikan termistä peripeteia (olosuhteiden vaihtuminen tai käännekohta), jonka Aristoteles määrittelee Runousopin yhdennessätoista luvussa yhdeksi juonen (mythos) osaksi tunnistamisen (anagnorisis) ja kärsimyksen (pathos) ohella (Heinonen et al. 2012).

2.7FI2.5
Lainaan käsitettä Enrique L. Palancarilta, joka ”A typology of split conjunction” -artikkelissaan kuvaa säestämisen ilmentymiä (engl. instances of accompaniment) lingvistisessä kontekstissa seuraavasti: ”Kun molemmat osapuolet ovat toimijoita eivätkä alentujia” (Palancar 2012, 38).

2.7FI3
”Älykkään” ja ”tyhmän” (tai normaalin) koneen eron hahmottamiseen Jain et al.:n määritelmä on hyödyllinen: ”Ollakseen älykäs on koneen voitava olla itsenäisesti vuorovaikutuksessa ympäristönsä kanssa. Ympäristön kanssa vuorovaikutuksessa olemiseen kuuluu sekä ympäristöltä oppiminen että sen muutoksiin sopeutuminen. Tämä ominaisuus erottaa normaalin koneen älykkäästä. Toisin sanoen normaalilla koneella on tietty ohjelmoitujen tehtävien joukko, jonka puitteissa se toimii asianmukaisesti. Älykkäällä koneella taas on tavoite saavutettavanaan ja se on varustettu valitun tavoitteen toteuttamista edesauttavalla oppimismekanismilla” (Jain et al. 2007, 2, painotus lisätty).

2.7 Fragment 19

By transferring and repurposing Hayles’s claims for another context, DAR themself puts forward a major argument in fragment 19. By stating that the digital media we use “perform complex cognitive tasks,” they invite a series of questions. The most fundamental of these, of course, is what cognition is, and whether machines can cognize or not. Following Hayles, DAR seems to assert the affirmative.

Both tasks—machine translation and automated speech recognition—are technically complex, but are they cognitive? If so, in what way or in what sense? What is ultimately the relationship between human and (the purportedly) machine cognition in love.abz/(love.abz)3?

As my questions reveal, I think DAR rushes ahead of things in fragment 19. To my mind, it is not at all obvious that machines perform cognitive tasks in this research. I am ready to accept that, in the research as a whole, digital media serve cognitive purposes. They enable and support cognitive processes and even participate in them, both by their functionality and by their dysfunction (as misrecognitions and mistranslations are often productive for research purposes).

Elsewhere, Hayles has referred to the “in-mixing” of human and machine cognition, as well as to their “collision/conjunction” (Hayles 2008, 16, 23). For this research, the key question is, do digital media perform cognitive tasks or do they, instead, unintentionally acquire cognitive agency in our writing and reading processes. I tilt toward the latter view.

Unintentional Cognitive Agency

Video 2.7.1. Excerpt from video documentation of love.abz, first artistic part. NB: The video is reproduced in double speed.

In another context (Huopaniemi 2014EN), I have analyzed how, in the part of love.abz documented in video 2.7.1, machine translation and speech recognition (noncognizantly) contribute to the reading and writing process through their noisy results (2.7EN1). In the analysis, I focus particularly on the mechanisms through which speech recognition could be thought to obtain unintentional cognitive agency in the improvisatory group writing. I foreground two concepts that I have used to study the texts written in the performances: turning points and instances of accompaniment.

By turning point (2.7EN2), I refer to a technical shortcoming or statistical error, as a result of which the speech produced by the performer and the text produced by the software do not match. Such recognition errors are very common in multiple-user speech recognition, such as in love.abz/(love.abz)(see 1.8). (Depending on language and software, they are still relatively common in single-user speech recognition too.) Here, however, the turning points have a specific and important function, which is why they cannot be regarded as mere technical breaks.

A turning point is a rupture of the writing process, in which the software inserts something that the speaker has not intended or desired. The writer-performer is thus forced to halt and choose either a strategy of compliance or resistance. The former usually entails incorporating the result of the misrecognition into the text, legitimizing it as part of the writing process. The latter, on the other hand, is an attempt to restore authorial control by the means offered by the software, the so-called dictation commands.

Turning points are significant for a discussion of the relationship of human and machine cognition in the case of love.abz/(love.abz)3. If machine cognition in this context occurs in any form, it is precisely because of them. Almost without exception, the human writer-performers include at least something of the noisy material produced by the software. In retrospect, it is usually easy to see that the “foreign” words and phrases produced by the programs have influenced the texts markedly.

Instances of accompaniment (2.7EN2.5), then, are occurrences in which a single writer-performer—or the group as a whole—succeeds in utilizing the rupture resulting from the turning point, i.e. takes a word or phrase invasively inserted as a result of the misrecognition and uses it either immediately or later in the text-in-progress. In instances of accompaniment, the ongoing reciprocal dynamic between the human writer-performers and the software is actualized and initiated in earnest. Here, Hayles’s descriptions of “in-mixing” and “collision/conjunction” begin to resonate, although we must continue to bear in mind that this method utilizes the “dumbness” of the machine rather than its “intelligence” (2.7EN3).

The relationship between the human performers and the algorithmic programs becomes closer when the lines written by the former start to be increasingly indebted to the errors made by the latter. The fact that the performers usually do not react when the software leaves a word or phrase completely unrecognized also speaks of this interdependence. Such non-recognitions—i.e. when the speech signal is left without its textual referent—are rare but not unheard of. My documentation shows that performers often ignore non-recognitions, perhaps because it is easier to react to erroneous recognition than to lack of recognition. Whether or not the machine has the capacity to perform complex cognitive tasks in this connection, its input is prerequisite for the continuation of the described writing.

Notes

2.7EN1
In computational linguistics, “noisy” describes inaccurate or erroneous translations (see e.g. Schlesinger et al. 2008, 577).

2.7EN2
In dramaturgy, turning point stems from the Greek term peripeteia (reversal of circumstances or, indeed, turning point), which—in the eleventh chapter of the Poetics—Aristotle defines as one of three elements of the plot (mythos), along with recognition (anagnorisis), and suffering (pathos) (Heinonen et al. 2012EN).

2.7EN2.5
I borrow the term from Enrique L. Palancar, who in “A typology of split conjunction” describes instances of accompaniment in a linguistic context as, “when both participants act as actors, not as undergoers.” (Palancar 2012, 38).

2.7EN3
Jain et al.’s definition is useful in distinguishing between “intelligent” and “dumb” (or normal) machines: “To be considered as an intelligent machine, the machine has to be able to interact with its environment autonomously. Interacting with the environment involves both learning from it and adapting to its changes. This characteristic differentiates normal machines from intelligent ones. In other words, a normal machine has a specific programmed set of tasks in which it will execute accordingly. On the other hand, an intelligent machine has a goal to achieve, and it is equipped with a learning mechanism to help realize the desired goal” (Jain et al. 2007, 2, emphasis added).