Faktoider: Maskinöversättningens Kitty Hawk

In the demonstration, a girl operator typed out on a keyboard the following Russian text in English characters:
"Mi pyeryedayem mislyi posryedstvom ryechyi."
The machine printed a translation almost simultaneously:
"We transmit thoughts by means of speech."
The operator did not know Russian. Again she typed out the meaningless (to her) Russian word:
"Vyelyichyina ugla opryedyelyayetsya otnoshyenyiyem dlyini dugi k radyiusu."
And the machine translated to:
"Magnitude of angle is determined by the relation of length and arc to radius."

- "Russian is turned into english by a fast electronic translator", New York Times 8 januari 1954

Detta var en demonstration hos IBM, där Georgetown University (i Washington D.C.) visade vad de kommit fram till. För de allra flesta läsarna var maskinöversättning något nytt som de aldrig hört talas om tidigare. För oinsatta som läste om det hela måste det ha verkat glasklart: Elektronhjärnan kan översätta komplicerade meningar från ryska till engelska. Nu ska datafolket bara fylla på med ord, och sen kan de fortsätta med att ta sig an vilka språk som helst. De ska tydligen också utforma en dator för översättning (istället för den generella IBM 701 som användes här) som ska stå klar inom 3-5 år; då ska "the literary end" av systemet vara avklarad, vad det nu betyder. Inga konstigheter.

Denna bild kunde även insatta, eller åtminstone sådana som borde varit insatta, hålla sig med. Den var ju så lockande: Tänk att kunna ta del av inte bara ryska underrättelser utan rubbet – tidningar, böcker, allting – utan att behöva krångla med långsamma och dyra översättare.

Georgetown-demonstrationen gav maskinöversättning en kraftig medvind. Projekt påbörjades, finansieringar ordnades. Denna guldålder varade i drygt tio år. Sedan kom den så kallade ALPAC-rapporten 1966. Den utvärderade utvecklingen på området och konstaterade att visionerna från 1954 inte var i närheten av att uppfyllas. Mängder av projekt lades ner.

I efterhand är det lättare att förså. Som så ofta.

Redan i NYT-artikeln anges hur många ord systemet klarade av: 250. (Gissningsvis kodade med 8 bitar.) Det låter kanske lovande, det är fler ryska ord än de flesta av oss kan, men det är knappt en början för ett system som ska kunna översätta. Vokabulären var fokuserad på kemi vilket gjorde att till synes krångliga och vetenskapliga meningar kunde översättas (man hade lika gärna kunnat hämta orden ur någon rysk saga men det hade inte sett lika imponerande ut).

Ett större problem var att reglerna för översättningar var mycket enkla. Ord kunde översättas direkt, byta plats, tas bort eller sättas in – det var allt. I artikeln nämns kontextanalys – "när det finns flera möjliga engelska översättningar av ett ryskt ord så är datorn programmerad till att välja den betydelse som passar bäst i sammanhanget" – men denna var synnerligen grund och hade snabbt gjort åskådarna besvikna om den satts på prov. Därför satte man inte systemet på prov.

Meningarna som översattes var noggrant utvalda; man visste att de fungerade. Det ingick i det trolleri som utgjorde tidens maskinöversättningar. Om man meckat med maskinöversättning vet man att det är mycket lätt att med ett fåtal regler och ord kunna översätta även till synes komplicerade meningar, som de i exemplen. Men man vet också att man inte behöver gå långt för att illusionen ska brytas. Vad man i Georgetown gjort var ett leksakssystem som fungade utmärkt i ett mycket litet sammanhang, men där varje utökning innebar mer och mer och mer arbete.

Detta antyds av en av deltagarna när han kallade det hela för "den elektroniska översättningens Kitty Hawk", jämförande med bröderna Wrights kontrollerade skutt 1903. Men alla demonstrationer à la Kitty Hawk genomförs inte med metoder som går att utveckla. De fungerar i enkla sammanhang, men inte i större.

Ett system som började utvecklas på Georgetown, och som överlevde ALPAC-rapporten, heter SYSTRAN. Det finns faktiskt fortfarande, och var exempelvis det som Google Translate först nyttjade. Idag använder Google Translate, som torde vara världens mest använda maskinöversättare, statistiska metoder där man utgår ifrån befintligt material. De metoderna kräver gott om material. Länge var en databas (the Brown corpus) med en hel miljon ord måttstocken för rejäla textsamlingar. Det kan te sig som ett leksakssystem idag, när man kan tanka hem gigabyte med text; jag kan inte föreställa mig hur mycket text i flerspråkiga översättningar Google har tillgång till. Men så har också kvalitén på maskinöversättningar stigit ofantligt sedan 1954.

Till sist: Ett exempel som garanterat inte förekom bland Georgetown-demons 60 provmeningar att översätta var "anden är villig men kroppen är svag". Den påstods ha översatts till "vodkan är god men köttet ruttet". Om händelsen alls inträffat på det sätt som man tänker sig – under pinsamma former på en någorlunda öppen förevisning – så skulle det ha varit här, i januari 1954.

Mer läsning: John Hutchins, The first public demonstration of machine translation: the Georgetown–IBM system, 7th January 1954

Faktoider

2020-08-21

Maskinöversättningens Kitty Hawk

Inga kommentarer:

Skicka en kommentar