Nov 25, 2013

机器翻译

機器翻譯(Machine Translation,經常簡寫為MT,俗称机翻)屬於計算語言學(Computational Linguistics)的範疇,其研究藉由计算机程序將文字或演說從一種自然語言翻譯成另一種自然語言。簡單來說,機器翻譯是通过將一個自然語言的字辭取代成另一個語言的字辭。藉由使用語料庫的技術,可達成更加複雜的自動翻譯,包含可更佳的處理不同的文法結構、辭彙辨識、慣用語的對應等。 目前的機器翻譯軟體通常可允許針對特定領域或是專業(例如天氣預報)來加以客製化,目的在於將辭彙的取代縮小於該特定領域的專有名詞上,以藉此改進翻譯的結果。這樣的技術針對一些使用較正规或是較制式化陳述方式的領域來說特別有效。例如像是政府機關或是法律相關文件,這類型的文句通常皆比起一般的文句來的正式與制式化,其機器翻譯的結果往往比起像是日常生活的對話這種非正式文件要來的好。 目前的一些翻译机器,例如Google Translate,有時可以得到可以理解的翻译结果,但是想要得到較有意義的翻譯結果,往往需要在輸入語句時適當地編輯,以利電腦程式分析。

但是,機器翻譯的結果好壞,往往取決於譯入跟譯出語之間,在詞彙、文法結構、語系甚至文化上的差異,例如英文與荷兰文同為印歐語系日耳曼語族,這兩種語言間的機器翻譯結果,通常便會比中文與英文間機器對譯的結果要好很多。 因此,要改善機器翻譯的結果,人為的介入仍顯相當重要,例如,某些機器翻譯的系統若能夠由人為的界定或選擇哪個詞語比較適合,則可大幅改進機器翻譯的正確性與品質。 一般而言,大眾使用機器翻譯的目的,可能只是為了要得知原文句子或段落的要旨,而不是精確的翻譯。總的說來,機器翻譯还没有达到可以取代专业(人工)翻译的程度,並且也尚無法成為正式的翻譯。 不過現在已有越來越多的公司,嘗試以機器翻譯的技術,來提供其公司網站多語系支援的服務

Oct 25, 2013

Perdidos na tradução automática

(para os curiosos, o título deste artigo é uma brincadeira com os típicos erros de serviços de tradução automática, do popular "lost in translation" do inglês)

A tradução automática, eventualmente descrita pelo nome inglês de machine translation ou pela abreviação MT, é um sub-campo da linguística computacional que investiga o uso de softwares para a tradução de textos ou falas de uma língua natural para outra, não devendo ser confundida com a tradução assistida (na qual os instrumentos informáticos, como glossários e corretores ortográficos, são justamente instrumentos de auxílio ao tradutor).

Em suas implementações mais simples, softwares de tradução automática simplesmente substituem palavras de uma língua natural para outra, o que é insuficiente para se obter uma boa tradução de um texto, pois é necessário, ao menos, o reconhecimento de frases inteiras e seus correspondentes ou equivalentes na língua-alvo. Sistemas mais avançados, entre os quais o conhecido Google Translate ou sistemas de âmbito fundamentalmente acadêmico como o Moses e o Apertium, empregam corpora (coleções de textos) e técnicas estatísticas para a transformação do texto, nos quais o processo de tradução é estudado, essencialmente, como uma decodificação realizada a partir de quando se aprende em traduções anteriores.

Apesar do sucesso em campos restritos, como a substituição de glossário ou a tradução de boletins meteorológicos, nos quais vocabulários e sintaxes são restritos e essencialmente fixos, e da indiscutível velocidade quando comparada à tradução humana, os sistemas de tradução automática ainda precisam ser encarados como instrumentos de suporte para todas as funções nas quais o domínio pleno da língua e a qualidade da tradução são imprescindíveis: um tradutor automático como o Google Translate pode ajudar sua empresa a identificar, a partir de notícias e sites corporativos, quais seus potenciais parceiros de negócios, mas não devem ser empregador para escrever uma carta de apresentação e intenções.

As dificuldades são particularmente visíveis no caso de línguas mais distantes como o português e o mandarim, nas quais as diferenças de vocabulário e sintaxe, para não discutir aquelas culturais, são enormes, e para as quais os sistemas de tradução estatística não possuem exemplos em número suficiente para uma aprendizagem eficaz (tais sistemas frequentemente precisam trabalhar com bancos de dados na ordem das centas de milhões de frases). É fácil encontrar na internet exemplos de erros de tradução, às vezes banais, às vezes preocupantes, devidos ao uso de tradutores automáticos. Aqui, vamos explorar alguns destes exemplos com relação ao português, ao inglês e ao chinês.

Típico lugar para encontrar estes erros são restaurantes. Vejam esta foto batida em Dalian (grande cidade no noroeste da China):


São tantos erros que somente uma lista pode tentar organizar a explicação:
  • 大連特色火勺 ("pastel à moda Dalian") é traduzido em "Dalian feature fire spoon" (algo como "colher de fogo característica de Dalian")
  • 軟硬適中 ("al dente") é traduzido no tecnicamente correto mas estranho "Moderate hardness" (dureza moderada)
  • 老少皆宜 ("para crianças e adultos") é traduzido em um inexpressivo "Ages" ("idades")
  • 不吃不知道 ("se você não experimentar nunca saberá") é traduzido num principiante "Do not eat do not know" ("não comer não saber")
  • 吃了忘不掉 ("se você experimentar nunca se esquecerá") é traduzido em "Eat forget" ("coma esqueça"), que não apenas simplifica demais a frase, como acima, mas passa a mensagem oposta
Mas vejamos como o Google Translate se sai nas frases acima, comparando seus resultados com o original e com nossas traduções:

Original: 大連特色火勺
Nossa tradução: pastel à moda Dalian
Google Translate: Dalian destaque colher fogo
Original: 軟硬適中
Nossa tradução: al dente
Google Translate: 软硬 valor preditivo (sim, inclui duas palavras em português)
Original: 老少皆宜
Nossa tradução: para crianças e adultos
Google Translate: todas as idades
Original: 不吃不知道
Nossa tradução: se você não experimentar nunca saberá
Google Translate: não comer não sei
Original: 吃了忘不掉
Nossa tradução: se você experimentar nunca se esquecerá
Google Translate: Ate esquecer

No caso de menus, há este divertido exemplo multilíngue, discutido no blog Language Log: ("Timid and rapidly grown prostitutes", 02/06/2011):



O original inglês "Chicken and Mushroom tart" é traduzido corretamente no português "Torta de Frango e cogumelos" (apesar da inicial maiúscula em "Frango" não ser adequada). O resultado não é tão positivo em outras línguas: ao traduzir ao espanhol, o tradutor automático estranhamente tomou o "Mushroom" do original não como substantivo, mas como o verbo "(to) mushroom" resultando em um estranho "El pollo y Crece tarta" (algo como "O frango e cresça, sua torta!"), enquanto que na tradução ao francês é o substativo "chicken" a ser tomado como verbo, resultando em um ainda mais surreal "Se dégonfler et la tarte de Champignon" ("Perder a calma e (mais) uma torta de champignons"). Mas o desastre está no chinês: o resultado é um risível 膽小和迅速增長的妓女 ("prostituta tímida e de crescimento acelerado").


E, para finalizar, o caso mais evidente, comentado na internet desde 2009 ou 2010. O restaurante da primeira foto deste artigo, para traduzir ao inglês 餐厅 (que significa, simplesmente, "restaurante, refeitório"), utilizou algum sistema de tradução automática cujo servidor, no momento, estava indisponível. O sistema retornou uma mensagem de erro em inglês, "Translate server error" ("erro no servidor de tradução), que prontamente foi copiada e colada na faixa de anúncio...