NLP自然語言處理 – 技術原理與其產業應用

Last Updated: July 2, 2021

自然語言處理(NLP) 是人工智慧中極具潛力的一種應用,隨著AI技術在近幾年中逐漸成熟,NLP於各個產業中的應用領域也隨之增廣。一份研究顯示從2019到2024的這五年間,NLP市場將會進一步的成長 259% 至 264 億美元,不同產業的公司都在透過 NLP 創造價值。

然而,即便自然語言處理技術已在各個環節中被應用,但現階段 NLP 尚不能完美地分別字句中的細微差距,因此尚未出現一個萬用的 NLP 架構。但隨著運算能力的增長、深度學習技術的突破、以及演算法模型進一步的成熟, NLP的應用領域將能夠廣泛且深層的為企業創造價值。 在這一篇洞見中,我們將會解析自然語言處理的技術原理、趨勢、以及它的應用領域。

自然語言處理(NLP)是什麼?

自然語言處理(Natural language processing)是一種透過複雜的數學模型及演算法來讓機器去認知、理解並運用我們的語言的技術。機器翻譯就是 NLP 應用的一種,我們將需要被翻譯的文本輸入進所謂的 NLP 系統,而背後的演算法以及模型就會處理辨識、理解、以及生成等流程,最後再輸出被翻譯好的目標語言資訊。 

早期的 NLP 技術主要基於統計的概念去訓練模型,讓演算法閱讀大量類似字典的文章段落,再讓演算法計算單字、句子出現的機率,然而此種方式無法使系統很好地辨識複雜的文法,同時,這樣子的模型所產生的字句更是生硬且結構錯亂。但隨著深度學習與演算法模型的突破,新的訓練方式已能更好的處理以上所提的問題。

深度學習的出現,改變了過往訓練 NLP 的運作模式,而目前最廣為研究人員使用的演算法模型即是 BERT, BERT 的全名為轉譯器的雙向編碼表述(Bidirectional Encoder Representations from Transformers),是 Google 基於 Transformer 架構上所開源的一套演算法模型。

BERT 的意義性在於它能夠預先訓練演算法,雙向地去查看前後字詞,進而推斷出完整的上下文,如此的做法不同於以往的模型,能夠更全面的連結上下文,有效幫助系統在文本上的理解與生成。 Google 在去年就引入了 BERT 模型來改善自家的搜尋引擎,最近發表的一項評估中, BERT不僅讓搜尋引擎演算法理解英文的能力提升,同時能更好地定義用戶的搜尋意圖。

自然語言理解(NLU)

自然語言理解(Natural Language Understanding)的目的在於讓系統能夠讀懂我們所輸入的資訊,讓其理解文本、語言並提取資訊,以幫助文本分類、語法分析、資訊搜索等下游任務的執行。

進行 NLU 時,最小的資料單位即是字詞了,字詞組成句子,而小句子繼續組成大句子與文章,意味著使用 NLU 進行任何任務時,它最為首要的目標即是辨識字詞,就如同「我喜歡吃蘋果」的這段句子,演算法首先就必須要先區分出各個不同的詞性,再進一步的理解詞與詞之間的關係。其實從數學的角度來看,任何詞彙的組成都可以用數字去連結或標記,可以是詞彙出現的機率,也可以是通過量化詞彙所建立的語言模型。

而詞嵌入(word embedding)是最常見的訓練方式,將字詞本身以不同維度的向量方式去做標記,字意較為相關的字詞,其向量距離也就越接近,反之亦然,如:電腦與計算的向量距離就會比較近些,而電腦與跑步的向量距離則較遠。

上面提到的 BERT 也是基於詞嵌入的概念進行訓練,較為不同的是 BERT 不僅以詞向量去判斷字句結構,而是以更自然的方式去檢查上下全文來做到語言辨識,訓練出來的模型不僅較為泛用,且能更好地解決詞意分歧,舉一個簡單的例子:"王先生飛去東京了",這裡並不會將王先生誤會成一隻鳥,拍動雙臂飛往東京,而是王先生乘坐班機飛往東京了。 這樣子層面的理解也是為何 NLU 已經能夠很好地做情緒分析與瞭解話語背後的意圖。

自然語言生成(NLG)

自然語言生成(Natural Language Generation)與自然語言理解(NLU)相反,系統的目標是要通過整合、節錄、以及萃取數據庫中的資料,以將這些機器才能讀懂的數據以自然語言的形式輸出。簡單來說即是將只有機器才能看懂的資料架構,也就是像0101010101的機器語言,轉化成人類能理解的字句,以完成如文本摘要、新聞自動化、機器翻譯等任務。

在過去幾年,語言生成通常使用循環神經網路(RNN)來建立神經語言模型,訓練模型以考慮前文的方式預測下一個生成的單詞機率。然而近幾年,如 Open AI 的 GPT-2、微軟的 Turing-NLG 、或是 Google 的 BERT 等基於 Transformer 上的演算法模型取代了 RNN 的訓練方式,這些演算法的訓練速度不僅比 RNN 更為高效,且雙向上下文的字句預測的精準度更好,使現今 NLG 領域中的機器學習模型基礎大多建立於 Transformer 之上。

NLP的五大運用

隨著深度學習的進步, NLP 技術的應用領域已更為廣泛,一篇報告指出,企業對 NLP 的採用率已有著顯著增長。隨著 NLP技術更加的成熟,機器能夠 24 小時不間斷工作且錯誤率極低的特性,將會驅動 NLP 更為廣泛的應用,為市場創造更多價值。

對於企業來說,我們可以將 NLP 所提供的價值層面分為三項,一為運營上的效率以及成本的降低、二為顧客旅程以及體驗的優化、最後則是各個不同產業透過 NLP 所驅動的商業模式。 像是情感分析就是一種顧客旅程以及體驗優化的應用,然而我們也看到越來越多新創利用這項技術發展了全新的商業模式。

聊天機器人

在以前,企業為了隨時與消費者互動,需聘請專人全天候在電話或通訊平台前待命,不僅耗費了人力成本,也無法很好地處理龐大的客戶量與資訊,而客服人員的訓練程度更是會第一線的影響客戶體驗。

這也是為何聊天機器人漸漸地走入了主流,不僅是因為它能夠全天候地提供即時服務,它也能更精準地提供產品資訊與個人化的服務。而建立於這兩項優勢,聊天機器人能夠更好的存取消費者的意見與需求,驅動更具效力的消費者回饋,成為企業豐富消費者體驗的強大工具。經甲骨文的一份調查指出, 80% 的受訪者將採用聊天機器人為客戶服務,Maruti Techlabs的一項數據更是指出,聊天機器人能幫助將客戶服務成本降低 30% 。

情感分析

情感分析模型是一種挖掘文字或話語意見的方式,設立規則將詞彙量化,由此得知字句背後的情緒、意見或意圖。

隨著這項技術更加成熟,業者能夠應用它去更好的理解用戶或是消費者的真實感受,畢竟傳統的回饋模式常常會基於數據量不足、回饋不真實、或是消費者自己也不清楚他的購買動機等因素,而無法真正的理解消費者洞見。這就是情感分析模型能夠提供龐大價值的層面,畢竟,同樣的消費者也會在社群平台以及論壇上發表想法,只有有效利用這些數據,業者即能更深層的理解消費者洞見,以了解客戶喜歡什麼、討厭什麼,從而改善產品、業務與顧客服務。

Kaggle有個有趣的例子,通過對美國航空公司的 twitter 留言進行情緒分析,將客戶情緒分成正面、中立與負面,並從中自動統計出顧客滿意與否的因素,如:飛行舒適度、行李、航班問題,此類分析將為企業提供更明確的改善方向。

智能助理

一份報告指出,智能助理在未來幾年將會維持著34%的年成長率,如此快速的增長來自智慧裝置上搭載的語音助理,如: Siri 以及 Alexa 等,協助用戶處理個人事務或連結智慧家電,但隨著 NLP 的進步,越來越多企業開始制定智能助理來優化作業流程,也就是說,智能助理不再只為個人與家庭服務,在企業的各個業務中也有許多應用層面。

在前年,一家科技公司推出了一款企業語音平台工具,結合 AI 與 NLU 技術,輔佐企業的會議流程。會議人員只需專注於談話,智能助理就會同步的紀錄相關事宜,並且整理出會議見解。如此的模式不僅使團隊方向更為明確,它更是為團隊減省時間以提高其餘業務的工作效率。 

根據 Loupventures 的調查,Google 智能助理已能正確回答近九成的問題,而隨著物聯網裝置的普及,這也意味著未來將會有更多設備能通過書面文字與聲音串聯,在流程優化與商業環境中也會有著更顯著的發展。

文本生成

文本生成是很早被運用的一項 NLG 技術, AI 擅長即時處理並應用大量數據,因此在過去,文本生成常被運用在媒體以及廣告業者的文案中,新聞自動化即是一個很好的例子,機器能不斷瀏覽不同來源的新聞(數據)並編寫文本,使該新聞迅速地出現在網路與電視上,這相較於傳統的流程, AI 的文本生成更為快速、低成本、且客觀。

JP Morgan 在 2016 與一家 AI 新創公司合作,使用 AI 來生成更快速、有效的行銷文本,將廣告或郵件以更加個人化的方式傳達給客戶,最後成效不僅廣告點擊率成長了 450 %,其行銷訊息也顯著地提升信用卡與貸款業務績效,並更好的與現有、潛在客戶交流。

文件處理

在前年,一家合約審查平台公司做了一項研究,研究中 AI 在審查保密條款的準確性已達 94%,而審查經驗豐富的律師平均準確率則是 85 %,且時間上 AI 僅花了 26 秒就完成律師需要耗費 92 分鐘的工作。AI 不僅在文件審查上具有優勢,它更是在其他領域像是文件的分類或是比對等重複性的工作,還是執行更進一步的分析,都能夠提供企業價值。

而在金融產業當中,我們也在保險業的未來中提到,業者利用NLP演算法完成理賠自動化流程,大幅降低理賠時間進而豐富客戶體驗,在減少人工錯誤的同時,效率化了內部營運流程。

OOSGA Analytics

我們的團隊統合研究、調查以及實務經驗,透過每一次的Insight,分享給台灣決策者相關議題上的思考方式與執行手段。

台北市信義區基隆路一段206號16樓​
業務聯繫人: Chelsie Yang | Email: chelsie.y@oosga.com
Call: 6601-1315

Empowering Change, Delivering Impact.

Connect with the Authors

Hm.. It doesn’t seem like you are logged in yet. Please use the form below to sign in to your account.

If you don’t have a subscriber account, consider register one here.

For partners, please leverage your designated OOSGA.org account associated with your organization.

訂閱我們每週分享的產業洞見、定期發布的研究報告、以及不同市場的問卷調查結果

We send weekly Insights & Reports to our subscribers. If you don’t have a subscriber account, consider creating one here.