智能眼鏡這個被忽略的功能,他們已經離不開了
字幕,已經成了現代人的「外掛」。通勤嘈雜,摸魚易露餡,學習會分心,聽和看並用,才能避免進度條白白走了冤枉路。
然而,對一些人來説,字幕不只是錦上添花。
當《失控玩家》的男主角戴上眼鏡,他看到了原本無法察覺的信息,不再是個被動的 NPC。
現實裏也存在一種智能眼鏡,可以提供「行走的彈幕」。儘管沒那麼科幻,但它同樣通向一個信息量更大的世界。
我可以看到你説的話了
科技的意義在於,當上帝關上一道門的時候,打開一扇窗。
一位聽障博主的開箱視頻,在 TikTok 拿下了 80 萬點贊,夙願得償,喜極而泣,最純粹的情感迸發的力量,打動了素昧平生的觀眾。
▲ 圖片來自:TikTok@chrissymarshall_
她手裏拿着一個盒子,邊笑邊流淚,比着手語,努力地説出完整的句子:「我等待這個盒子裏的技術很多年了。」
盒子裏裝的是一款字幕眼鏡,外形和普通眼鏡沒什麼兩樣,卻讓她可以「看到」周圍的聲音,那些過去聽不清的聲音,變成了一行行亮綠色的、科幻感的字幕。
根據視頻裏的信息,這位博主用的眼鏡叫作 Hearview,專為聽障人士設計,今年 5 月發佈,來自國內的一家科技公司,但不面向國內,市場在海外。
它可以用來娛樂,看電影、看視頻、看《黑神話:悟空》的遊戲直播。
從刷《老友記》的體驗視頻來看,文本略有些滯後但準確,配對的手機 app 還可以區分不同的説話人。
同時,它也可以用在面對面的對話,方便聽障人士在餐廳點餐、在超市購物、和導購聊天、開車時導航……
HearView 的原理説起來並不複雜,和手機 app 配對,通過智能手機的麥克風捕獲聲音,AI 算法實時語音轉文字,字幕顯示在眼鏡上。
如果聽障人士需要回復他人,可以在 app 輸入消息,將文字轉換成語音。過往的字幕,也保存在 app 中。
HearView 自稱,語音轉文字的準確性達到 95%,最遠轉錄 10 米外的語音。説到這裏,一個問題呼之欲出:菜市場等吵鬧環境裏表現會變差嗎?
雖然 HearView 表示手機 app 具備噪音消除功能,但我翻遍了各種體驗視頻,並沒有找到嘈雜環境裏的實測,所以很難探究效果如何。
官網只提到了一些參數信息,續航 7 小時,重 52 克,適合全天佩戴,還配備了振動和視覺警告,提醒用户注意可能的危險。
輕便,耐用,聽起來讓人很想剁手,但它實在太貴,很難交個朋友——1799 美元,約 12800 元人民幣。
而且,Hearview 存在很大的進步空間,目前它只支持英語和西班牙語,計劃支持德語和法語,還不能實現語言的互相翻譯。
文本的顏色只有亮綠色,雖然確保了在各種屏幕和照明條件下都可讀,然而用户沒有選擇,就是美中不足。
但存在,便意味着價值。字幕早已是很多人生活的一部分,這還不夠,它理應以更方便、直觀的形式,陪伴在最需要的人左右。
字幕眼鏡雖多,但生活裏的挑戰更多
實時字幕眼鏡,其實並非新鮮事,放在 2 年前,甚至是一個熱潮,誕生過不少有趣的項目,但都很難盡善盡美。
英國 AR 初創公司 XRAI,開發了兼容多款 AR 眼鏡的語音轉文字應用 XRAI Glass。
然而,《連線》雜誌記者戴上一款和 XRAI Glass 兼容的 AR 眼鏡後發現,語音轉文字固然好,但使用過程中,總有這樣那樣的摩擦。
先是使用體驗上的,如果佩戴人工耳蝸和助聽器,再戴眼鏡可能會不舒服,雖然這款 AR 眼鏡已經很輕,但和普通眼鏡相比依然厚重。
而且,語音轉文字在背景噪音大和多人講話的時候,效果並不好,實用性大打折扣。
價格也是一個問題,300 多美元的 AR 眼鏡已經讓錢包隱隱作痛,XRAI Glass 還需要每月花幾十美元訂閲套餐,像很多語音轉文字的軟件那樣,只能説並不意外。
國內也有類似 Hearview 的產品——亮亮視野的聽語者字幕眼鏡,分為助聽版和翻譯版,可以理解普通話、方言和外語,並且支持跨語種翻譯。
它的使用方式和 Hearview 相近,下載可譯 app,眼鏡和手機進行藍牙配對,用 Wi-Fi 或者熱點連接網絡,手機端實時語音轉文本,眼鏡端顯示文本。
不過有用户在 App Store 反饋,聽語者對方言的支持還是不夠多。這是一個非常必要、卻也艱難的優化方向,聽力不好、習慣説方言的老年人,恰恰最需要這類產品。
也有 YouTube 博主評測發現,聽語者的語音識別率高,速度也快,但口音很重的話,識別率會變低。
▲圖片來自:YouTube@科技小助手
如果不拘泥於眼鏡的形態,耶魯大學和斯坦福大學的學生設計的一個產品原型很有意思,叫作 Transcribe Glass。
它不是一副眼鏡,而是一個平視顯示器,可以卡在眼鏡的鏡框上,開箱即用,將設備連接到 iOS 和 Android 的配套 app,讓用户選擇自己喜歡的語音轉文本軟件。
生成的字幕會通過低功耗藍牙傳輸到設備,並實時疊加在用户的現實視野中。難得的是定價也格外友好,95 美元,但連測試版都還在候補,直到現在也查不到落地的信息。
除了專注語音轉文字的產品,面向所有人的多功能 AR 智能眼鏡,往往也包含了字幕功能。
國內價位在兩三千的一體化無線智能眼鏡,基本都支持語音轉文字和多種語言的實時翻譯,但轉譯效率,可能不如專為聽障人士打造的 AR 眼鏡,持續開着語音轉文字時,續航也是一個問題。
當我諮詢某個頭部的智能眼鏡品牌,得到的答案是「不建議聽障人士使用」。
▲10 月 22 日,諮詢某智能眼鏡品牌客服
其實,這種產品最適合大廠出手,特別是 Google,在語音識別、機器翻譯和 AR 方面都有深厚的技術積累,實時語音轉文字和翻譯的能力都遙遙領先。
Google 在 2022 年 I/O 推出了一款可以實時翻譯的 AR 眼鏡,支持 24 種語言,甚至支持美國手語,字幕就在對話人旁邊,不過也只是原型演示,沒有下文了。
科技向善是字幕眼鏡的大前提,種種的「吹毛求疵」,其實是抱着殷切的心情,希望產品不滿現狀,不斷進化,再做一次,再改進一次,變得更好一點。
字幕是一種權利,像看電影一樣看世界
世界衞生組織統計,全球約有 4.66 億人患有聽力損失,其中超過 900 萬人為重度耳聾。
即使使用了人工耳蝸或助聽器,聽障人士理解別人在説什麼,仍然需要集中注意力,同時,一些發音相近的詞語,光靠唇讀難以區分,在理想條件下,英語中只有約 40% 的語音信息,能通過説話者的唇部動作捕捉。
這也是為什麼,一個聽力障礙的世界,需要文字作為補充。很早之前,就有人為之努力了。
古巴裔美國默片演員艾默生·羅梅羅,同時也是一位聽障人士,在 1947 年開創了有聲電影的字幕。
默片時代,觀眾可以通過電影畫面和插入的文本瞭解故事情節,但當有聲電影興起,許多像他一樣的聽障觀眾反而失去了看電影的機會,因為他們無法聽到台詞,電影又缺乏字幕。
於是,羅梅羅決定自己手工製作字幕:當時的電影通過膠片播放,他將膠片切片,並在幀之間插入帶有字幕的圖像。
後續的字幕技術,可以看作是羅梅羅精神的延續,同時,也有了更多方便聽障人士看電影的設計,比如,一些美國電影院提供預製字幕的眼鏡。
2012 年,索尼推出了一款提供給部分影院的 CC 字幕眼鏡,與普通字幕不同,CC 字幕不僅包含對話內容,還包括非語言信息,如背景音樂、音效、環境聲音。
這款眼鏡在每側配備小型投影儀,綠色的字幕看起來就像是漂浮在大銀幕前。
觀眾無論坐在影院哪個位置,都可以清晰地看到字幕。用户還可以調整字幕的亮度、顯示距離以及角度,切換六種語言。
這款眼鏡甚至支持 3D,用户就不必多帶副眼鏡觀看 3D 電影。這很重要,避免了一種鼻樑很忙的情況:同時戴着普通眼鏡、3D 眼鏡、CC 字幕眼鏡看電影。
▲ 圖片來自:Reddit@ellowTonkaTrunk,發佈於 2022 年
這一幕有些諷刺,卻像一個隱喻——以尋常的視角瞭解這個世界,一些人總需要付出更多。
還不夠完美的、但未來可期的實時字幕眼鏡,至少讓我們看到了一種美好的可能。
韓國電影《寄生蟲》導演奉俊昊曾在奧斯卡頒獎典禮説:「一旦你克服了 1 英寸高的字幕障礙,你將會看到更多精彩的電影。」
當電影裏常見的字幕出現在生活裏,它可以讓需要的人看到更多的信息,並擁有不退出對話的權利。
Google 的翻譯 AR 眼鏡宣傳片有一句話很打動人:我直視着你的眼睛,你看起來也在直視我的眼睛。
幾乎沒有存在感,便是科技的最好狀態。
在保證高效、準確的前提下,交流還可以迴歸自然,不佔雙手,不需要低着頭看手機,也不用一直盯着嘴唇,而是面對面,眼神接觸,一如千萬年前就有的模樣。
資料來源:愛範兒(ifanr)
然而,對一些人來説,字幕不只是錦上添花。
當《失控玩家》的男主角戴上眼鏡,他看到了原本無法察覺的信息,不再是個被動的 NPC。
現實裏也存在一種智能眼鏡,可以提供「行走的彈幕」。儘管沒那麼科幻,但它同樣通向一個信息量更大的世界。
我可以看到你説的話了
科技的意義在於,當上帝關上一道門的時候,打開一扇窗。
一位聽障博主的開箱視頻,在 TikTok 拿下了 80 萬點贊,夙願得償,喜極而泣,最純粹的情感迸發的力量,打動了素昧平生的觀眾。
▲ 圖片來自:TikTok@chrissymarshall_
她手裏拿着一個盒子,邊笑邊流淚,比着手語,努力地説出完整的句子:「我等待這個盒子裏的技術很多年了。」
盒子裏裝的是一款字幕眼鏡,外形和普通眼鏡沒什麼兩樣,卻讓她可以「看到」周圍的聲音,那些過去聽不清的聲音,變成了一行行亮綠色的、科幻感的字幕。
根據視頻裏的信息,這位博主用的眼鏡叫作 Hearview,專為聽障人士設計,今年 5 月發佈,來自國內的一家科技公司,但不面向國內,市場在海外。
它可以用來娛樂,看電影、看視頻、看《黑神話:悟空》的遊戲直播。
從刷《老友記》的體驗視頻來看,文本略有些滯後但準確,配對的手機 app 還可以區分不同的説話人。
同時,它也可以用在面對面的對話,方便聽障人士在餐廳點餐、在超市購物、和導購聊天、開車時導航……
HearView 的原理説起來並不複雜,和手機 app 配對,通過智能手機的麥克風捕獲聲音,AI 算法實時語音轉文字,字幕顯示在眼鏡上。
如果聽障人士需要回復他人,可以在 app 輸入消息,將文字轉換成語音。過往的字幕,也保存在 app 中。
HearView 自稱,語音轉文字的準確性達到 95%,最遠轉錄 10 米外的語音。説到這裏,一個問題呼之欲出:菜市場等吵鬧環境裏表現會變差嗎?
雖然 HearView 表示手機 app 具備噪音消除功能,但我翻遍了各種體驗視頻,並沒有找到嘈雜環境裏的實測,所以很難探究效果如何。
官網只提到了一些參數信息,續航 7 小時,重 52 克,適合全天佩戴,還配備了振動和視覺警告,提醒用户注意可能的危險。
輕便,耐用,聽起來讓人很想剁手,但它實在太貴,很難交個朋友——1799 美元,約 12800 元人民幣。
而且,Hearview 存在很大的進步空間,目前它只支持英語和西班牙語,計劃支持德語和法語,還不能實現語言的互相翻譯。
文本的顏色只有亮綠色,雖然確保了在各種屏幕和照明條件下都可讀,然而用户沒有選擇,就是美中不足。
但存在,便意味着價值。字幕早已是很多人生活的一部分,這還不夠,它理應以更方便、直觀的形式,陪伴在最需要的人左右。
字幕眼鏡雖多,但生活裏的挑戰更多
實時字幕眼鏡,其實並非新鮮事,放在 2 年前,甚至是一個熱潮,誕生過不少有趣的項目,但都很難盡善盡美。
英國 AR 初創公司 XRAI,開發了兼容多款 AR 眼鏡的語音轉文字應用 XRAI Glass。
然而,《連線》雜誌記者戴上一款和 XRAI Glass 兼容的 AR 眼鏡後發現,語音轉文字固然好,但使用過程中,總有這樣那樣的摩擦。
先是使用體驗上的,如果佩戴人工耳蝸和助聽器,再戴眼鏡可能會不舒服,雖然這款 AR 眼鏡已經很輕,但和普通眼鏡相比依然厚重。
而且,語音轉文字在背景噪音大和多人講話的時候,效果並不好,實用性大打折扣。
價格也是一個問題,300 多美元的 AR 眼鏡已經讓錢包隱隱作痛,XRAI Glass 還需要每月花幾十美元訂閲套餐,像很多語音轉文字的軟件那樣,只能説並不意外。
國內也有類似 Hearview 的產品——亮亮視野的聽語者字幕眼鏡,分為助聽版和翻譯版,可以理解普通話、方言和外語,並且支持跨語種翻譯。
它的使用方式和 Hearview 相近,下載可譯 app,眼鏡和手機進行藍牙配對,用 Wi-Fi 或者熱點連接網絡,手機端實時語音轉文本,眼鏡端顯示文本。
不過有用户在 App Store 反饋,聽語者對方言的支持還是不夠多。這是一個非常必要、卻也艱難的優化方向,聽力不好、習慣説方言的老年人,恰恰最需要這類產品。
也有 YouTube 博主評測發現,聽語者的語音識別率高,速度也快,但口音很重的話,識別率會變低。
▲圖片來自:YouTube@科技小助手
如果不拘泥於眼鏡的形態,耶魯大學和斯坦福大學的學生設計的一個產品原型很有意思,叫作 Transcribe Glass。
它不是一副眼鏡,而是一個平視顯示器,可以卡在眼鏡的鏡框上,開箱即用,將設備連接到 iOS 和 Android 的配套 app,讓用户選擇自己喜歡的語音轉文本軟件。
生成的字幕會通過低功耗藍牙傳輸到設備,並實時疊加在用户的現實視野中。難得的是定價也格外友好,95 美元,但連測試版都還在候補,直到現在也查不到落地的信息。
除了專注語音轉文字的產品,面向所有人的多功能 AR 智能眼鏡,往往也包含了字幕功能。
國內價位在兩三千的一體化無線智能眼鏡,基本都支持語音轉文字和多種語言的實時翻譯,但轉譯效率,可能不如專為聽障人士打造的 AR 眼鏡,持續開着語音轉文字時,續航也是一個問題。
當我諮詢某個頭部的智能眼鏡品牌,得到的答案是「不建議聽障人士使用」。
▲10 月 22 日,諮詢某智能眼鏡品牌客服
其實,這種產品最適合大廠出手,特別是 Google,在語音識別、機器翻譯和 AR 方面都有深厚的技術積累,實時語音轉文字和翻譯的能力都遙遙領先。
Google 在 2022 年 I/O 推出了一款可以實時翻譯的 AR 眼鏡,支持 24 種語言,甚至支持美國手語,字幕就在對話人旁邊,不過也只是原型演示,沒有下文了。
科技向善是字幕眼鏡的大前提,種種的「吹毛求疵」,其實是抱着殷切的心情,希望產品不滿現狀,不斷進化,再做一次,再改進一次,變得更好一點。
字幕是一種權利,像看電影一樣看世界
世界衞生組織統計,全球約有 4.66 億人患有聽力損失,其中超過 900 萬人為重度耳聾。
即使使用了人工耳蝸或助聽器,聽障人士理解別人在説什麼,仍然需要集中注意力,同時,一些發音相近的詞語,光靠唇讀難以區分,在理想條件下,英語中只有約 40% 的語音信息,能通過説話者的唇部動作捕捉。
這也是為什麼,一個聽力障礙的世界,需要文字作為補充。很早之前,就有人為之努力了。
古巴裔美國默片演員艾默生·羅梅羅,同時也是一位聽障人士,在 1947 年開創了有聲電影的字幕。
默片時代,觀眾可以通過電影畫面和插入的文本瞭解故事情節,但當有聲電影興起,許多像他一樣的聽障觀眾反而失去了看電影的機會,因為他們無法聽到台詞,電影又缺乏字幕。
於是,羅梅羅決定自己手工製作字幕:當時的電影通過膠片播放,他將膠片切片,並在幀之間插入帶有字幕的圖像。
後續的字幕技術,可以看作是羅梅羅精神的延續,同時,也有了更多方便聽障人士看電影的設計,比如,一些美國電影院提供預製字幕的眼鏡。
2012 年,索尼推出了一款提供給部分影院的 CC 字幕眼鏡,與普通字幕不同,CC 字幕不僅包含對話內容,還包括非語言信息,如背景音樂、音效、環境聲音。
這款眼鏡在每側配備小型投影儀,綠色的字幕看起來就像是漂浮在大銀幕前。
觀眾無論坐在影院哪個位置,都可以清晰地看到字幕。用户還可以調整字幕的亮度、顯示距離以及角度,切換六種語言。
這款眼鏡甚至支持 3D,用户就不必多帶副眼鏡觀看 3D 電影。這很重要,避免了一種鼻樑很忙的情況:同時戴着普通眼鏡、3D 眼鏡、CC 字幕眼鏡看電影。
▲ 圖片來自:Reddit@ellowTonkaTrunk,發佈於 2022 年
這一幕有些諷刺,卻像一個隱喻——以尋常的視角瞭解這個世界,一些人總需要付出更多。
還不夠完美的、但未來可期的實時字幕眼鏡,至少讓我們看到了一種美好的可能。
韓國電影《寄生蟲》導演奉俊昊曾在奧斯卡頒獎典禮説:「一旦你克服了 1 英寸高的字幕障礙,你將會看到更多精彩的電影。」
當電影裏常見的字幕出現在生活裏,它可以讓需要的人看到更多的信息,並擁有不退出對話的權利。
Google 的翻譯 AR 眼鏡宣傳片有一句話很打動人:我直視着你的眼睛,你看起來也在直視我的眼睛。
幾乎沒有存在感,便是科技的最好狀態。
在保證高效、準確的前提下,交流還可以迴歸自然,不佔雙手,不需要低着頭看手機,也不用一直盯着嘴唇,而是面對面,眼神接觸,一如千萬年前就有的模樣。
資料來源:愛範兒(ifanr)