2009年3月20日

別鬧了MT

昨天XD說她不喜歡寫英文信,她用Google的翻譯軟體,然後修飾一下就好了。

我完全相信Google目前是史上最大資料庫,儘管如此,自然語言還不是有資料就可以處理的事,只要語言學系一天還沒倒閉,就代表著MT(機器翻譯)這個東西還沒到頭,可能連肚臍都還沒到。

F發了個郵件,說某知名翻譯軟體的笑話,太過愚蠢到不能相信,只好真的實驗一番。

用的素材是賈島的松下問童子。

松下問童子

言師採藥去

只在此山中

雲深不知處

Panasonic asks the boy,
the speech teacher gathers medicinal herbs,
only in this mountain,
the cloud is too deep to know the place

中文這種不文不白的語言要怎麼讓機器不抓狂呢?斷詞都斷不好(沒辦法斷好)。
(最後一句翻得也挺有好笑的詩意:這朵雲太深了所以它搞不清楚它自己在哪?)

先不討論斷詞算了,反正中文的"詞"是什麼意思專家都還搞不清楚。
但是語義高興怎麼分就怎麼分真是傷腦筋。

比方說對thing這一個詞的解釋竟然有11個:

1. 物,東西
2. 事物
3. 事,事情;事件
4. 題目,主題
5. 【口】人;動物;傢伙;東西
6. 衣服
7. 需要的東西;理想的東西[the S]
8. 時髦的東西[the S][(+in)]
9. 愛做的事[S]
10. (個人的)所有物;用品;用具[P]
11. 局面;情況;形勢[P]

是我的英文(還是中文?)不好,123難道就不能好好放在一塊兒嗎?5還比較分歧一點。

還有7也來亂的,東西就東西還有什麼理想的東西,需要的東西。給的句子也好笑,This suitcase is the thing for me(這只手提箱正合我的需要),按照它的語義分類,那 it is the thing that I hate more than anything else是不是要翻成這是我最恨的最需要的東西呢?(怎麼機器翻出來的都比人有詩意和哲理呢?)

#事實上,軟體翻成的中文更可怕:(眼睛醫生)我憎惡超過其它任何事情的是事情

還有9,真的不知道要怎麼用。愛做...什麼?

語言學家還作著巴比倫塔的夢嗎?先解決 Panasonic去問孩子的事吧!

3 則留言:

  1. 哈哈哈哈哈哈哈哈哈哈哈哈哈
    大笑之艅我只得出一個結論:
    「松下企業真成功!果然企業的經營是需要無孔不入的紮根!」
    Panasonic跟這無辜的孩子恐怕有得比手畫腳的囉!

    回覆刪除
  2. 看到你這篇我真是心有戚戚焉~
    我們老闆就把MT當成他的終極目標
    而我們呢~就要常常看那些機器翻譯出來的可怕句子
    不然就是一天到晚在斷詞
    再不然就是沒日沒夜在分析語意
    thing這個字照我們的分析原則,搞不好不止11個意思喔~
    ><

    回覆刪除
  3. 你家黃老闆愛分類是出名的阿!

    回覆刪除