AI 影像辨識生成開發應用實戰班
到底什麼是GAN?主要可以應用在哪些地方?
GAN也被稱為生成式對抗網路,英文是Generative Adversarial Network。GAN由兩個網路構成,分別是鑑別網路(Discriminating Network)與生成網路(Generative Network),透過兩者相互對抗產生結果是其深度學習的運作原理。可以想像成,GAN是一場鑑定師與仿畫家的較勁,仿畫家會不斷畫出偽作讓鑑定師評斷有多接近真品,仿畫家根據評斷結果再繼續畫出比上一張更好的偽作,鑑定師當然也會透過不斷練習提升鑑定水準,最後的成果就是一幅幾可亂真的生成圖像畫。然而,GAN應用開發常見遇到的問題是「Mode collapse」,即生成器只生成有限種類的影像而失去多樣性,究竟,為了解決問題與實際應用,該如何不斷訓練改進GAN生成模型,而持續推動影像生成與辨識應用的效果提升?就成為一大關鍵。
極暗影像還原的技術關鍵
如何掌握文字偵測和文字識別的技術,以提高低照度影像中文字的可讀性?其中技術關鍵包含:「文字偵測」是指從極暗影像中準確地檢測和定位文字區域的能力,例如自動車駕駛系統中的交通標誌識別,或是夜間監控中的識別行為,學習文字偵測技術可以幫助我們改善在低照度條件下的文字辨識能力,從而提升極暗影像的可讀性。其次,「文字識別」是指將檢測到的文字區域轉化為可識別的文字信息,在極暗影像還原中,文字識別技術能夠從低亮度、低對比度的影像中準確識別出文字,這對於解析低照度環境下的文字資訊非常重要,例如在夜間拍攝的照片中識別出地址或標籤等。但是,當夜間影像模糊的情境下,影像細節與訊號解讀往往會被限制,如何克服夜間偵測的條件,增強影像明亮度與還原細節,就成為極暗影像還原的關鍵技術,對於有無一套完整的量化指標做為評估判斷,就需要更加深入機器學習演算的運作方法。
GAN實務應用?如何做出自己的GAN架構?
目前GAN較多被應用在生成資料方面,如圖像與影音的生成、合成、辨識、修復等,進階則是輸入文本描述便能生成與形容相符的圖像,或者透過語言模型實現機器翻譯等。另外也可以生成更擬真的合成圖,降低標示訓練圖像識別樣本的成本,例如運用GAN將白天的街景轉為夜晚,作為自動駕駛車輛的訓練樣本,解決夜晚圖像資料不足的問題。又或者例如應用在車用器材的瑕疵檢測,過往的瑕疵檢測十分耗費人力與工時,如何訓練深度學習的模型協助工作並減少人力耗費?對於工程師或開發影像辨識的企業主而言,如何更好應對不同影像之間的轉換需求,生成品質良好的資料,就是技術學習開發實用的核心關鍵。
課程的三大重點
深度學習DEEP LEARNING:實現減少資料量需求,訓練GAN生成與判斷瑕疵
GAN能做什麼呢?本課程第一大重點,將實際理解如何透過訓練相互對抗的神經網路,生成極具真實感的影像?例如,如何運用StyleGAN生成高度逼真的人臉影像?如何把AugGAN在不同的天氣狀態下轉換影像?課程中,可以掌握GAN常見架構和最新發展,深入學習如何使用不斷進化的GAN模型,從初代GAN的原理和實作,到探討何謂Mode collapse,生成逼真影像和實現的多樣轉換,不僅在自動駕駛車辨識系統、影像還原和增強等領域的實務應用,更能訓練出深度學習的模型協助工作並減少人力耗費!
如何將極度低光照還原明亮清晰影像?極暗影像還原實作訓練應用場景與量化指標
基礎理解GAN生成式對抗後,將分析如何提升影像辨識模型的效果。在本課程第二大重點中,將學習如何運用影像辨識模型來分析生成式對抗網路所產生的影像,以提升模型的精準度。而「極暗影像還原」則是在極度低光照條件下拍攝的影像進行處理,但是如何去除模糊與還原增強影像?業師將引導分析為評估極暗影像還原的效果,從常見的文字偵測效果做量化指標,例如Hmean和accuracy,這些指標可以幫助我們評估模型在文字偵測任務上的表現,另外,在實現文字偵測任務時,如何使用各種文字偵測方法,例如EAST、TextBoxes。透過實作,在針對不同的應用場景和需求,提供不同的偵測技術和算法。
實務應用篇:成對與非成對生成式對抗網路
在本課程的最後一大重點中,將成對與非成對生成式對抗網路(CGAN)作為影像生成與辨識的關鍵模型,能夠產生令人驚豔的結果。業師將深入解析CGAN的基本原理、One-hot向量與嵌入式的比較,並實作CGAN和DCGAN為示範演練。最後,課程也會介紹Pix2pix、CycleGAN和語義分割模型-FCN,並運用物件偵測模型YOLO分析生成的影像品質,利用CycleGAN和物件偵測模型將白天街景轉換為夜晚。因此,透過實務應用,不僅可以生成資料降低企業成本,也為非監督式學習提供更為進步的方法,並且也有機會能開發出更智慧的AI影像生成與辨識。
課程大綱
生成式對抗網路基本原理
1-1 初代GAN原理
1-2 何謂Mode collapse
1-3 初代GAN實作
極暗影像還原
2-1 常見文字偵測任務和文字識別任務的資料集
2-2 常見文字偵測效果量化指標(Hmean, accuracy)
2-3 Text Detection Methods – EAST, TextBoxes, CRAFT, PAN
2-4 Text Recognition Methods – CRNN, CNN + CTC
2-5 CRAFT實作
2-6 Learning to see in the dark
2-7 SID實作
2-8 極暗影像還原- 基於文字檢測和識別任務來對比還原影像前後的差別
成對與非成對生成式對抗網路
3-1 CGAN 原理
3-2 One-hot vector vs embedding
3-3 CGAN實作
3-4 GAN的量化指標:IS, FID
3-5 DCGAN實作
3-6 Pix2pix
3-7 Pix2pix
3-8 語義分割模型-FCN
3-9 語義分割模型-FCN實作
3-10 運用FCN分析Pix2pix轉換之影像
3-11 CycleGAN
3-12 CycleGAN實作
3-13 物件偵測模型-YOLO
3-14 物件偵測模型-YOLO實作
3-15 運用YOLO分析CycleGAN轉換之影像
3-16 CyEDA:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚,並運用物件偵測模型來分析影像的品質
課程學習前須知
- 實際授課內容、順序、師資或有調整,依課程現場為準。
加入我們一起學習 AI 影像辨識生成開發應用實戰班
授課業師
天地人合作業師
課程資訊
課程名稱
AI 影像辨識生成開發應用實戰班(C1468)
課程各期時間與上課模式
#線上直播
。上課模式:線上直播
。直播時間:2023/07/05(三)10:00-12:00;13:00-17:00,共6小時
。直播方式:將於課前三日寄送直播通知Email(信內附上直播連結,未收到Email,請務必與我們聯繫)
。課程回看:課程隔日起回看30天
課程售票
VIP票券兌換:每人扣0.5 張VIP票券 ( VIP申購方案 )
課前搶先發問
AI 影像辨識是指使用人工智慧技術識別圖像或影片中的物體、人物或場景等,並對其進行分類或標籤。
AI 影像辨識可應用於人臉識別、圖像搜索、智能監控等領域。
AI 影像生成是從訓練數據中生成新的圖像或影片,而AI 影像辨識是識別圖像或影片中的內容。
超分辨率影像生成是指使用 AI 技術將低解析度的圖像或影片提升至高解析度,從而獲得更加清晰、細節豐富的圖像或影片。
AI 影像辨識需要圖像處理、特徵提取、模式識別等前置技術。
AI 影像生成與辨識技術在現代社會中有著廣泛的應用,從智能監控到自動駕駛等領域,都需要掌握相關的技術知識。
是的,學習 AI 影像生成與辨識技術可以讓人們更深入地瞭解數據分析和處理的方法,並從中獲得更深入的洞察。
是的,AI 影像生成與辨識技術在當前市場中非常受歡迎,掌握相關技能可以提高就業競爭力。
是的,學習 AI 影像生成與辨識技術可以激發人們對創新的態度和能力,並開發出更加有創意的應用和解決方案。
你有30天的回放觀看期,看到哪裡複習到哪裡,讓學員更有彈性的安排課程進度。