AI人工智慧 – 定義、技術原理、趨勢、以及應用領域

Last Updated: August 26, 2021

人工智慧的技術、資源、以及基礎建設已經趨近成熟,不論組織的大小,只要策略性的規劃投資與發展方向,人工智慧都能夠為組織帶來龐大的商業價值。 MGI更是於一次2018年的研究中指出,倘若70%的組織採納部分AI技術,而50%的大型組織全面採納AI技術,在2030時,人工智慧 (包括機器學習) 將能夠給全球GDP帶來另外13兆美金的潛能。

然而,即便人工智慧乘載著如此龐大的商業潛能,多數組織依然無法全面的發揮出AI的潛能。其原因無不外乎就是四項:

  • 缺乏有效的數據基礎建設以獲取乾淨、充足、且具商業價值之數據
  • 數據科學家、 AI工程師、以及相關數據技術人才於勞動市場上的短缺
  • 組織與團隊成員出於對AI的不理解,而導致對於AI導入的阻力
  • 缺少策略性的部署與專案發展過程中的變革管理,而致使AI導入之專案失去了動能。

要真正理解如何充分的應用AI,我們可以先從定義、趨勢、以及應用面開始著手,在逐步地探討到導入策略,以了解企業於部署、發展、並規模化組織於AI之應用該如何執行。

什麼是人工智慧?​

許多領域對於人工智慧的定義與見解都不大相同,但核心層面的定義是一樣的。 AI的意思是用程式的方式達到人類需要運用智慧才能完成的事情。

傳統的程式是用一系列的指令以及規範來讓整個程式運作,例如一個計算機,他的Input如數字、以及加減乘除等的運算子,都是被規範好的,而這導致這個程式無法處理沒有被定義的新變數。所以若我們想要此程式處理其他問題,工程師就必須更新指令以處理新的變數。

然而工程師以及電腦是不可能將整個世界的變數放進一個程式中的,這就是為何在解決真實世界的問題時,新的方式必須被發展出來。 在所有AI技術中,最被廣為應用的即是機器學習,不僅是因為其較低的技術與數據成本,同時更是因為機器學習部署的價值體現較快,而使得組織更傾向於發展該技術。 我們OOSGA在一次與台灣食品業者的合作中,我們在短短的24週的週期,即接續性的起跑了三項機器學習Program,包含了全週期的預測與計畫、ROI評估、以及定價與特價等策略。 同時在這整個過程當中,我們透過前三項Program所產生的價值,持續的增加人才計畫,並規模化其他層面的發展與應用,讓我們客戶的企業能夠建立起持續發展AI的動能,成為一間AI賦能之企業。

同樣的,深度學習、強化學習等技術也是具備著龐大潛能,一份研究更是指出較為先進的AI技術有著每年產出3.5兆~5.8兆的潛能。而當前於物件偵測、自然語言處理、以及圖像辨識等等技術的突破,都是重度依賴著深度學習與其他較為先進的AI模型之發展。

機器學習(Machine Learning)​

機器學習,一種人工智慧的技術,不同於傳統程式,機器學習是通過處理並學習龐大的數據後,利用歸納推理的方式來解決問題,所以當新的數據出現,機器學習模型即能更新自己對於這個世界的理解,並改變他對於原本問題的認知。

簡單來說,假設現在有一個人對於美醜沒有概念,那麼你把他帶到一群人面前,並指著其中一個說是美、一個是醜、另一個是美等等…隨著這位本無審美觀的人看到更多資訊後,他也會開始對審美這個觀念有一定的想法。 而關鍵在於,數據的量一定要足夠大且數據的質一定要好,才能讓機器學習模型更好的判斷問題的答案。

在以下這篇洞見中,我們探討了機器學習的非監督學習、監督式學習、以及半監督式學習中不同演算法的架構,以及這些演算法在產業中實際的應用,點擊以閱讀更多。

機器學習 – 演算法&商業應用

深度學習(Deep Learning)​

這個機器學習的分支利用多層次的人工神經網路透過數據學習,其中兩種最為主要的類別為卷積神經網路(CNN)以及遞歸神經網路(RNN)。

CNN較適合如圖片、影片等的空間數據類型,透過不同階級的特色來識別圖像,例如從一個鼻子的特徵、眼睛的特徵、嘴巴的特徵、三者彼此的關係為何、再到最後變成一張人臉。CNN的發展對於需要快速識別周圍環境的自動駕駛至關重要,同時圖像識別的技術,也是工業4.0的核心技術之一。 RNN則較適合如語音、文字等的序列型數據,不同於其他的神經網路,對於RNN,所有的input都是相連的,所有處理過的資訊都會在訓練的過程中被記住,而也是這特色,讓它非常適合處理自然語言。

雖然神經網路的技術早在數十年前就被研發出來了,但當時的環境不僅數據匱乏,運算速度以及成本都導致深度學習無法成功帶進商業環境。然而隨著運算速度大幅的提升、運算成本大幅的降低、以及演算法變得更加成熟,如深度學習一般的技術也開始被頻繁的應用在商業環境中。 

強化學習(Reinforcement Learning)

強化學習同樣為機器學習的分支之一,為一種透過獎勵機制以及懲罰機制的方式,訓練演算法模型的方法。 也就是說,當演算法做了我們所期望之行為時,我們就會透過獎勵的方式,明示演算法做更多如此行為,反之亦然。  而我們評估演算法在執行每一個任務的有效性的方式,即是透過觀察其分數(被獎勵之多寡)來衡量。

強化學習的應用面非常廣泛,從自動駕駛的軌跡優化、路徑規劃、運動規劃,或是透過用戶行為回饋而建立的新聞推薦模型,一直到行銷與銷售以及NLP等。 

集成學習(Ensemble Learning)​

集成學習是為了降低模型偏見、變數、以及提高準確度而根據不同種類的數據,在各個階段應用不同的機器學習演算法來訓練模型的演算法。 集成學習在數據非常複雜,或是有多種潛在的假設時非常實用,因為它能夠根據不同的假設建立模型,以定義出更明確的方向。

驅動AI未來發展的六大趨勢

從技術的角度來看,人工智慧在過去的五年間迎來了一場爆炸性的成長,不僅是出於企業領先科技公司的龐大資本投資,同時更是因為開源碼以及其他社群效應而讓這個產業享受著來自全球專家的共同研發。 而從各個產業的採納率與技術滲透率來看,AI技術也成功的在電信、金融、軟體平台、以及製造等多個產業帶來了極大的影響,德勤研究更是預估AI會在2025年時,全球市場成長至6.4兆美金,近乎是2020年的三倍。 

人工智慧在席捲全球的各個產業,並且改變我們的生活已是必然的事實,然而在這個AI的大傘之下,有六個主要的趨勢在近年最為顯著。 其中不乏有人工智慧本身技術上的突破,同時,使之開始逐漸加快發展的還有本身採納率的提升;同時還有因為其他產業的技術突破,而驅動某個趨勢技術開始增加勢頭;最後,還有些趨勢是受到了消費者以及用戶對於某項發展的需求,抑或是偏好的轉變。

1. 強化學習的高速成長

自從DeepMind所研發的AlphaGo於2015年在圍棋上打敗了韓國棋手李世石後,強化學習在人工智慧相關研究論文當中被提到的比例從當時的4.7%,到2020後一路成長到快20%。 現在,強化學習也逐漸地在各個產業中創造龐大的價值,Google的數據中心即是透過這個技術,將能源耗損降低了超過50%。

2. AI驅動的商業決策

雖然AI的智慧是建立於數據,但是所謂的AI驅動與數據驅動其實是有很大的不同,前者將重心放在數據,後者則是處理數據的能力。 在2020的現在,人工智慧參與了更多原本為決策者任務的商業決策,其中涵蓋了運營、行銷與銷售、甚至是設計。 人工智慧將逐漸成為數據與商業決策之間的唯一連結點。

3. RPA滲透度提高

流程自動化,也就是RPA(Robotic Process Automation),是目前人工智慧的多種應用中出現最為頻繁的,在一次針對152個AI用例(Use Cases)的研究中發現,產業有將近一半的案例是基於RPA。 在近年,出於技術逐漸的成熟,RPA的滲透將會在大部分的產業中都大幅提高,以近乎零錯誤且高效能的速率完成許多我們既有的任務。

4. AI將不再如此仰賴大數據

以往訓練一個基於神經網路的深度學習模型往往需要非常龐大的數據量,然而這些數據在許多領域譬如醫療,並非如此好取得。 這也是為何研究員往往利用某些數據增強的技術,例如將同樣的照片翻轉過來,來增加既有的數據量, 然而隨著GAN的技術成熟度逐漸增加,許多領域的研究可以直接模擬出新數據,讓只有小數據量的環境也能建立許多有意義的模型。

5. 道德AI與AI可信度

基於我們對於AI目前許多具爭議性的發展,譬如模擬他人說話的聲音以及影片,抑或是AI驅動的監控系統等等,還有我們對於AI潛能的恐懼, 如何人道的發展人工智慧技術也逐漸的在學術研究間取得勢頭。 其中像是可解釋人工智慧、以及透明化AI決策等發展及是在增強用戶與消費者對於AI的可信度。 同時,許多政策以及產業規範也逐漸在呼應如此趨勢。

6. 更相關的互動模式

AI所驅動的互動模式 Cognitive Engagement,時常譯作認知投入,受到NLP研究的突破以及神經網路的成熟所驅動,現在在各個領域當中都有非常完整的應用。 譬如一個24小時顧客服務的聊天機器人、用交流的方式提供個人化體驗的產品與服務推薦系統、亦或是結合了專家系統與專業人士一同共事的智能助理,AI在未來將會在多個領域中與用戶互動。

人工智慧將如何創造價值?(AI的應用領域)

這些人工智慧的技術,不論是機器學習、深度學習、集成學習、還是強化學習,都在各個產業中具有著龐大的潛力,而隨著轉型的迫切性提高,我們也看到人工智慧更為廣泛的被應用到各個領域中,像是工業4.0、智慧城市、新零售、以及智能家居等等,這些應用的背後最重要的技術之一即是人工智慧。

然而不論是哪個產業中的應用,我們可以將AI分成五大價值層面,也就是時間序列、圖像處理、音訊處理、NLP、以及影像處理,而產業中的AI應用即是建立於這些領域的進展。 例如我們常聽到的Google助理,也就是AI驅動的智能助理,即是在音訊處理以及自然語言處理上極為成熟的應用。

時間序列與預測分析

時間序列數據為根據時間的前後,來標記數值的一種數據模式。像是銷售部門的歷史銷售數據、每一天的氣溫、或是一間飯店每晚的入住率等等。 而所謂的預測分析,則是一個利用資料採礦以及統計模型,去分析前面所提的這些時間序列數據(歷史數據),並從中抓出某些特定的模式以預測未來。

AI在這個領域當中能提供價值的有幾個層面,一為擁有的數據量非常龐大時,那麼使用AI的手段去做預測分析不僅更加符合經濟效益,甚至在大部分的情況下,正確率也相較於統計模型來的更高。例如網頁的旅程分析,假設現在業者想要通過用戶的旅程數據建立一個推薦系統,在消費者即將結帳時推薦消費者其他他可能也會想要購買的商品。在這個情況下,要通過樣本來建立統計模型就顯得不實際了。 亞馬遜資料科學還非常早期時就應用了機器學習開發了平台上的推薦引擎,並將之整合至顧客旅程的每一個階段,在導入的隔一年就創下了29%的營收成長。

第二個適合時間序列的領域為數據非常複雜時,也就是說當數據的獨立變數非常龐大時,那麼使用AI也會相較於傳統的統計模型來的更能解決問題,例如許多不同種類的IoT數據整合,ERP的供應鏈數據等。這種類型的工作之所以更適合AI是因為業者能夠更快的建立模型並測試,而傳統的統計模型卻要花上更久的時間才能建立洞見。

圖像處理

圖像處理分成兩個層面,一為圖像辨識,另一個則是圖像生成。由於在圖像生成的領域中,我們尚未看到一個明確的商業應用層面,所以我們會專注於圖像辨識去提AI的應用。 圖像辨識在AI逐漸成熟的這十幾年前,幾乎是不切實際的任務。 想像一個工程師把全世界的圖像的邏輯都輸入進程式當中,那近乎是不可能的。 就連辨識0~9這十個數字,在過去也都是個工程難題。 

然而,AI不同於邏輯運算,AI將整個圖片看成二進位的矩陣,也就是所謂的非結構型數據,並通過演算法去處理龐大的資料(也就是圖片)來訓練模型。現在,隨著AI技術的成熟、數據的增長(李飛飛教授所帶領建立的ImageNet圖庫)、以及運算力以及運算方法再進一步的突破,圖像辨識的技術在我們的生活當中到處都是了。

完整解析圖像辨識

音訊處理

Audio AI,另一個高速發展中的人工智慧前沿技術,雖然整體市場規模於2018年時僅有六千多萬美金,然而持續到2025,其市場將維持著75.8%的CAGR,並在健康醫療、智慧家庭、安全與監管、以及製造業等產業創造龐大價值。

其實這也不難理解,我們能夠聽到的範圍往往比能看到的範圍還要來的遙遠,然而人類對於聽覺的處理,卻遠不及我們在視覺上來的成熟。 Kaggle上就有許多於音訊處理上有趣的AI專案,譬如通過鳥的聲音來判斷種類、通過機器的聲音來評估是否即將故障、通過客戶的聲音來判斷情緒等等。而產業實例中,同樣的,Audio AI也在各個領域中開花結果,譬如像是通過

而隨著越來越多的設備將被賦予聲音識別能力(預計2023年將達到6億台),音訊AI於各個產業的發展,通過人類器官所發出的聲音來識別身體狀況、機器設備的預測性修復、智慧家庭設備的異常偵測、甚至是能夠產生真實聲音的軟體等等。

自然語言處理

自然語言處理(Natural Language Processing),簡稱NLP,是人工智慧最為主流的一種應用,目的是讓電腦能夠理解、甚至是生成出人類所使用的語言。

在初期時,NLP的執行方法都是透過工程師將一堆規則編程進自然語言處理的程式當中,例如利用文法、詞性、以及單詞的種類等來建立一整個決策樹,也就是一連串的「如果… 那麼…」來幫助當時的程式理解語言。 而隨著運算速度的增加以及機器學習演算法的進步,在幾十年前,我們也開始將許多AI技術,帶進自然語言處理中。

而近期最大的突破為深度學習進步所進一步驅動的BERT模型,也就是「轉譯器的雙向編碼表述」。BERT不同於以往以單向的方式,也就是從左到右或是右到左的去處理字詞,反之,BERT透過雙向的字詞處理以及訓練模型,以更好的理解文本的上下文。 其成績不僅在MultiNLI評估的正確性達到86.7%,, SQuAD v1.1 問答題F1更是達到了93.2,相較於前一代的模型都是大幅的成長。

現在NLP已在各個領域當中都被大規模的採用,保險業者可以使用NLP模型去自動化核保的過程、法律事務所可以利用NLP去處理需要檢閱的龐大資料、消費品公司可以利用NLP驅動的社群監控以更好的掌握消費回饋、同時Google Duo更是利用NLP去生成真人的語音協助用戶訂餐廳等。 有效的應用自然語言處理技術,業者不僅可以通過它去自動化許多業務流程、豐富消費體驗、業者更是能思考如何利用NLP技術的本質,去研發許多創新的商業應用。

完整解析自然語言處理(NLP)

動態影像處理

全球有大約七億七千萬個監視器在城市的各個角落監視著市民的一舉一動,而這個數字在2021年會成長到十億。這代表著每分每秒都有龐大的動態影像數據正在產生,而同時,影片正在漸漸地取代文字以及圖片,成為我們吸收資訊的主要媒介。最後,更重要的是,所謂的影片其實是所有數據型態中最接近人類如何感知這個世界的。

不過AI在影像處理的領域中,相較於圖像與文字,是相對的初期。 這主要是因為影像的數據量過大,以及變數太多,而導致演算法難以訓練模型。同時,動態影像處理又有著許多的分支,例如視覺里程計、物件偵測、影片追蹤、以及破壞偵測(判斷影片是否有被改造)等等。而由於動態影像處理是建立於這些技術之上的,若要能夠很好且全面的掌握動態影像處理技術,這些領域的成長都是必須的。

雖然動態影像處理技術是相對的初期,我們仍然可以看到許多成功應用,例如在運動分析中,許多業者就有效的利用了影片分析達到賽場結果的預測、團員價值的衡量、以及運動員優化領域的評估。而在CCTV中,地方政府更是透過影片分析,來更好的掌握市民的一舉一動,以最即時的提供市民協助,例如Real-time crime mapping以及即時需求偵測等。 最後,在零售業中,更是有業者通過分析影片以了解如何更好的優化貨架商品的擺設等。

OOSGA Analytics

我們的團隊統合研究、調查以及實務經驗,透過每一次的Insight,分享給台灣決策者相關議題上的思考方式與執行手段。

台北市信義區基隆路一段206號16樓​
業務聯繫人: Chelsie Yang | Email: chelsie.y@oosga.com
Call: 6601-1315

Empowering Change, Delivering Impact.

Connect with the Authors

Hm.. It doesn’t seem like you are logged in yet. Please use the form below to sign in to your account.

If you don’t have a subscriber account, consider register one here.

For partners, please leverage your designated OOSGA.org account associated with your organization.

訂閱我們每週分享的產業洞見、定期發布的研究報告、以及不同市場的問卷調查結果

We send weekly Insights & Reports to our subscribers. If you don’t have a subscriber account, consider creating one here.