新聞 > 科教 > 正文

同聲傳譯,毀滅吧!gpt-4o是那個終結者

自從 ChatGPT出現,我就感覺,同聲傳譯這個行業在未來5~10年會消失。

不過昨天 OpenAI發佈的 gpt-4o,讓我感覺,人力同聲傳譯的消失大概也就這1~2年的事。

這篇文章分兩部分,我先簡單談談同聲傳譯這個行業,然後再來談談 OpenAI發佈的 gpt-4o模型。

我讀本科的時候大概09年左右,當時有一個大學老師,曾經在課堂上講,市場上最緊缺的人才,其中一項就是同聲傳譯,每年都能賺到一百多萬。

我當時就在想,這工作好啊,工作也不累,在同聲傳譯的小箱子裏聽外語,動動嘴皮子,翻譯成中文,每場會議就能賺上萬塊錢。一年也能百萬元收入。在09年左右,北京的一套100平的房子也就100多萬啊。這是一年賺一套房子的節奏。

我當時在讀電子信息專業,甚至冒出一個想法,要不自己也去嘗試一下同聲傳譯。

不過,後來我也慢慢了解了同聲傳譯這種工作,實際上非常反人性。

首先,同聲傳譯講究實時性,它和別的筆譯、口譯不一樣。它需要在講話者說話的同時,實時進行翻譯。

另外,同聲傳譯一般都是在一些很專業的國際會議上,作為一個同聲傳譯,你光懂外語沒有用,必須得懂得專業知識,這樣才能確保翻譯順利進行。面對「肌酸蛋白酶」你該知道怎麼翻譯,面對「中心極限定理」,你也得懂得是什麼含義。總之,其實很多外語專業的人並沒有這方面知識,也導致了無法勝任同傳工作。

最後,同傳這個工作,極其耗費腦力。我認識一個同學曾經做過一場同傳,做完之後在床上躺了3天才緩過來。說白了,人體是有機能上限的,人是會疲累的。還有,除了同傳現場工作強度很大之外。培養一個同傳人才,也需要數年如一日的外語翻譯學習。

同傳一直都是翻譯行業的最具挑戰性的工作。

不過,好日子不長了,AI即將替代這一工作。

其實,AI替代人類的工作,在翻譯這個領域體現的淋漓盡致。

早在上個世紀90年代,我們國家迎來改革開發,與世界各個國家展開了貿易與合作,由此,懂得外語,尤其是諸如日語、俄語、德語、西班牙語等小語種,是非常吃香的職業,很多影視劇里,你都會看到,做跨國貿易生意的大老闆身邊往往都陪着一位妝容精緻、儀態端莊,思維敏捷的女翻譯。可以說,在那個年代,從事翻譯是很體面,賺錢的白領工作。

然而,好日子不長,隨着英語的普及,越來越多的人都能夠和外國人流利地對話,物以稀為貴的效應減弱,翻譯職業不再那麼光鮮亮麗。此外,決定翻譯職業不再光鮮的另一個很重要的點,就是 AI機器翻譯的崛起。

大約是2009年的時候,我那時讀大學,曾經兼職為外貿公司翻譯過合同,當時的人工費用是每千字(詞)收費60元人民幣。那時谷歌和百度在網站上已經提供了機器翻譯服務,只是當時的 AI機器翻譯效果還比較差,每次翻譯都需要人工去做修正和調整。

時間到了2017年,谷歌開發的機器翻譯軟件已經能夠覆蓋90%的翻譯場景。可以說,一個完全不懂外語的人,把中文或者外文丟在谷歌的網站上,就能夠輸出八九不離十的翻譯結果。此時,相比接近10年前,筆譯價格反而成了每千字(詞)收費30元人民幣,還不如十年前。這就是 AI替代人力的結果。

可以說,翻譯行業應該是最早遭受 AI衝擊的行業。很多從事翻譯的人也都逐漸轉向其它行業工作中。過去翻譯還是個收入不錯的可以養家餬口的工作,現在,你基本上看不到誰還能把翻譯作為全職行業了。

當然,同聲傳譯除外,確實有一批人靠着同聲傳譯來謀生。不過,前段時間,我還認為,同聲傳譯在未來5到10年也會被 AI替代。

我大意了,沒有閃。

OpenAI發佈了 gpt-4o模型。首先 gpt4大家都有目共睹,非常強悍,具備很多領域的專業知識。

而 gpt-4o其實就是把這種文字交互的能力,轉為語音方式說出來。而且這還不夠,它還能理解視頻畫面,總之,它已經是具有文本、語音、圖像三種模態的理解力。是一種全新的大模型。

最絕的是,gpt-4o模型能夠做到實時與人類交互。

如果你之前用過 Siri之類的語音助手,這裏就可以看出明顯的不同了。首先,你可以隨時打斷 AI的話,不用等它說完就可以繼續下一輪對話。其次,你不用等待,模型反應極快,比人類的回應還快。第三,模型能夠充分理解人類的情感,自己也能表現出各種感情。

這裏有個最關鍵的點,gpt-4o模型能理解並表現出人類的情感。

說實話,此前我在抖音上見到一些翻譯行業的up主,還會說,AI無法替代人類翻譯,因為 AI的翻譯沒有感情,其實 gpt-4來做各種筆譯,gpt-4o來做各種口譯、同聲傳譯,都是完全可以的,而且,還可以帶理解、帶感情。

在現場,OpenAI的工程師拿出一個 iPhone演示了新模型的幾種主要能力。其中,最重要是實時語音對話,Mark Chen講:「我第一次來直播的發佈會,有點緊張。」ChatGPT說,要不你深呼吸一下。

好的,我深呼吸。

ChatGPT立即回答說,你這不行,喘得也太大了。

如果你之前用過 Siri之類的語音助手,這裏就可以看出明顯的不同了。首先,你可以隨時打斷 AI的話,不用等它說完就可以繼續下一輪對話。另外你不用等待,模型反應極快,比人類的回應還快。第三,模型能夠充分理解人類的情感,自己也能表現出各種感情。

說穿了,就是,gpt-4o表現得非常自然,沒有過去的 AI的那種機器味兒。

隨後是視覺能力。另一個工程師在紙上現寫的方程,讓 ChatGPT不是直接給答案,而是讓它解釋要一步步怎麼做。看起來,它在教人做題方面很有潛力。

接下來嘗試 GPT-4o的代碼能力。這有一些代碼,打開電腦里桌面版的 ChatGPT用語音和它交互,讓它解釋一下代碼是用來做什麼的,某個函數是在做什麼,ChatGPT都對答如流。

輸出代碼的結果,是一個溫度曲線圖,讓 ChatGPT以一句話的方式回應所有有關此圖的問題。

其實,gpt-4o里的 o,對應英文單詞是 omnimodel,這裏的 omni就是全知全能的意思。模型無處不在,無所不知。

關於同聲傳譯,你可以看到,gpt-4o在專業知識方面應該是碾壓人類譯員的,而且 AI模型是機器,通電就能工作,也不會有累的干不動的時候。

最關鍵的一點來了,gpt-4o可以做到實時,它最快可以在232毫秒的時間內響應音頻輸入,平均響應時長320毫秒,與人類相似。在 GPT-4o發佈之前,體驗過 ChatGPT語音對話能力的用戶能夠感知到 ChatGPT的平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。

至此,翻譯行業幾乎可以說全軍覆沒,完全被 AI替代。未來可能再也不會有同聲傳譯了。

不過,如果你要問我,那還用學英語嗎?

學英語還是很有必要的,至少在十到二十年之內。(或許這是我的毒奶,具體時間又會被提前呢?)

好了。其實,如果僅僅把 gpt-4o拿來做翻譯工具,真的是大材小用了。它的強大是整體性的,全知全能的強大。

來一個橫向測評結果康康:

總之,我知道scaling law一定會在多模態上展現超強的能力。我只是特別納悶,為什麼來的這麼快?

我一直覺得,gpt4這種帶圖像理解的模型會在幾年後出現,但沒想到它2023年4月就發佈了。

我也一直以為,全模態(文字、圖像、音頻)的AI模型至少也得等個3~5年吧。結果 gpt-4o現在就出了。

如果說 ChatGPT剛出來時,我還有點興奮和欣喜。現在的我就是:

其實現在的問題就是:

AI科技的推進速度太快了,完全不給人類適應的時間。

生產力發展太快,生產關係完全跟不上這種超速的前進,導致人們很驚訝、很震驚、很害怕、很焦慮。

當你對一個技術習以為常時,說明你還很年輕。當你對一個技術感到恐懼,說明你已經開始老了。

講真,看到 gpt-4o,我突然感覺自己有點老了~~~~

責任編輯: 李華  來源:JioNLP 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0519/2056479.html