ChatGPT4.0 x Gradio x Hugging Face 生成式 AI 爬蟲技術基礎實戰課 ( 入門 )
什麼是 Hugging Face?模型庫四大領域:自然語言處理、音檔處理、電腦視覺處理、多模態模型處理
Hugging Face是開源模型集散地,整合大量的模型、資料集。然而 Hugging Face 不單純是把模型放在網站上讓人下載,更重要的是提供標準化的函式庫、API 與網頁介面,並建立起開源社群。不僅讓用戶自主創建AI模型,並將其儲存平台內。該平台不僅可以添加資料訊息、上傳公司隱密文件、追蹤版本更新等操作,更重要的可以讓開發者自行採用模型加以訓練與測試。這些模型涵蓋不同領域,例如自然語言處理、音檔處理、電腦視覺處理、多模態模型處理。對於開發者或AI工程師而言,Hugging Face 不僅是一個模型訓練平台,也可以和其他 NLP 工具集成,如 PyTorch、TensorFlow 和 JAX, 從傳統的後端開發和算法研究,逐漸轉向更多涉及前端交互、用戶體驗設計以及跨部門溝通,提高工作效率,能夠專注創新與開發階段。
對開發者的操作四個特點?AI模型、預覽測試、遠端串接模型、統一程式碼介面
過往開發者需要自己編寫程式,取得並整理測試資料,輸入訓練指令耗費數小時做機器學習,在缺乏大量數據函式庫與零散資料集,並不容易預先訓練模型進行測試。而現在Hugging Face將可以大幅節省時間與成本。舉例來說,大量且多樣的AI模型,有將近47個AI模型與近10萬個資料庫,同時開放原始碼提供所有人使用,也可以透過客製化需求,將預先訓練好的模型再進行微調,不需要從頭訓練,大幅節省開發成本!另外,過往測試需要下載耗時過久,透過Hugging Face可以直接在網頁上預覽結果,節省時間。Hugging Face 也提供 API,讓開發者可以直接遠端串接模型,快速瞭解模型是否能整合進產品裡,正確執行任務。
如何透過開源平台部署建立線上使用者互動式APP?
Hugging Face Spaces等開源平台提供簡便的應用部署方式,開發者可以將自己的應用快速上線,供使用者通過網頁進行操作和互動。這些平台支持部署機器學習模型、數據科學應用等,使得開發者可以專注於軟體的開發,而無需擔心部署環境和維護。通過這樣的部署,企業可以實現數據分析結果的即時呈現,並提供使用者友善的操作介面,讓數據應用更具價值和可操作性。
課程的三大重點
透過雲端IDE和資料框讀取的模組將有效將資料進行儲存和分析
本課程第一大重點,將著重理解雲端IDE如Google Colab,如何為開發者提供一個即時可用的開發環境?不需要在本機端安裝任何軟體,對於快速開發和即時協作非常有幫助。業師也說明Pandas作為Python中處理資料框的核心模組,如何讓開發者方便地讀取、操作和儲存資料。通過雲端IDE,開發者可以隨時隨地進行數據分析,並利用Pandas進行高效的數據處理,支持多種格式的數據操作(如CSV、Excel、SQL等),並提供豐富的資料操作功能,如過濾、分組、聚合等。
透過生成式AI工具和提示語的使用將可以快速有效捕捉網頁的標籤屬性
在本課程第二大重點中,將進一步學習提示語的使用方式。提示語(prompts)的設計對生成式AI工具的效果至關重要。通過設計良好的提示語,AI能夠更加精確地捕捉網頁中的標籤屬性,讓學員有效掌握進行自動化網頁數據抓取的關鍵資訊。如此不僅能夠提升數據收集的效率,更能保證數據的準確性。
透過爬蟲模組的理解和資料框操作可以有效儲存資料
在本課程的最後一大重點中,業師手把手以實際案例結合操作演練。例如,匯率資料即時數據捕捉、政府資料開發即時數據捕捉等。通過爬蟲模組如Beautifulsoup4或者Requests可以自動從網頁上抓取所需數據,而結合Pandas等資料框操作模組,這些抓取到的數據可以被有效儲存和處理。課程中將理解爬蟲模組的運作原理,如何發送請求、解析HTML是有效抓取數據的基礎。通過Pandas的資料框操作,這些數據可以被清洗、整理並轉化為結構化的數據集,以供後續分析或存儲到Google雲端硬碟中。
課程大綱
常見生成式AI工具介紹
ChatGPT-4.0 和 Claude AI 是兩個領先的生成式人工智慧模型,各自具有獨特的應用和功能,並在軟體開發中扮演著重要角色。這兩個 AI 工具在軟體開發中提供了強大撰寫能力,同時具有各自的外掛套件,這對軟體開發者和初學者是一大福音,將有助將構想的軟體架構和應用系統實現。
1-1 ChatGPT-4.0 介紹
1-2 Code Copilot 的功能和使用方法
1-3 Claude AI sonet 3.5 介紹
1-4 Artifacts 的應用和操作
Google Colabatory 的操作和Pandas模組的應用
Google Colab 是一個免費的雲端開發工具,讓你不需要在自己的電腦上安裝任何軟體,就能直接撰寫和執行 Python 代碼。這對於初學者來說特別方便。透過 Pandas 這個強大的 Python 模組來處理數據,可以有效讀取像 CSV、Excel 這樣的文件,然後進行篩選、分組、分析,甚至是清洗數據。
2-1 Google Colab 的安裝和建立筆記本記介紹
2-2 如何掛載Google Drive
2-3 Pandas資料框的讀寫介紹
2-4 Pandas資料框的常見操作以多欄位取值和多列位取值、合併的技術實作
2-5 常見的中文編碼和提醒
基礎爬蟲模組技術概論
爬蟲技術是一種自動從網站抓取數據的技術,基礎的爬蟲模組包括Requests模組,它可以用於發送HTTP請求,獲取網頁內容,同時也可以透過BeautifulSoup來解析HTML文件,從中提取數據。這些工具允許開發者自動訪問網頁,抓取所需的數據,並將其結構化存儲成對應的紀錄格式。
3-1 基本爬蟲概論和觀念介紹
3-2 BeautifulSoup 的用途和介紹
3-3 Requests 抓取文件範例說明
3-4 台灣銀行匯率資料即時數據捕捉
3-5 政府資料開放平台即時數據捕捉(以ESG數據為例)
爬蟲提示語結合生成式AI工具的介紹與應用
提示語(prompts)在生成式AI中的作用是引導模型生成特定風格或內容的輸出。在爬蟲中,提示語可以用來指導AI模型提取網頁中的特定標籤屬性。這種方法適合需要從複雜的網頁結構中精確提取資訊的任務。結合生成式AI工具和爬蟲技術,可以提高數據抓取的效率和準確性。
4-1 結合爬蟲模組和資料框的提示語設計(Prompt01)
4-2 結合爬蟲模組和標頁標籤屬性的提示語設計(Prompt02)
4-3 將透過提示語捕捉的數據資料進行儲存
4-4 提示語實作範例:博客來書籍資訊捕捉
4-5 提示語實作範例:YAHOO奇摩新聞捕捉
4-6 提示語實作範例:104 人力銀行職缺捕捉
4-7 提示語實作範例:台酒購物網商品資料捕捉
生成式工具打Gradio動態網頁框架
gradio 是一個用於快速搭建動態網頁應用的 Python 套件,特別適合用來展示數據捕捉的效果。通過 gradio,開發者可以在極短的時間內構建一個簡單的網頁應用,使用者可以透過網頁進行互動,呈現爬蟲程式的抓取資訊。
5-1 Gradio動態網頁框架介紹
5-2 gradio 套件的安裝和說明
5-3 chatGPT4.0改寫104人力銀行職缺爬蟲程式為Gradio動態網頁框架
5-4 chatGPT4.0改寫政府資料開放平台即時數據爬蟲程式為Gradio動態網頁框架
部署Gradio框架到 Hugging Face 平台實作
Hugging Face 是一個專注於自然語言處理和機器學習的開源平台。開發者可以將自己的模型和應用部署到 Hugging Face Spaces,這是一個支持 Gradio動態框架的平台,讓程式可以及時線上運作。這種部署方式非常適合爬蟲模組系統的應用,讓更多使用者可以線上體驗和即時獲得想要的資訊。
6-1 平台特點和主要功能
6-2 帳號註冊和建立個人平台
6-3 部署Gradio框架開發程式為app.py
6-4 requirement.txt 套件文本撰寫
6-5 Gradio框架部署成功以及執行自動化數據呈現系統平台
課程學習前須知
- 實際授課內容、順序、師資或有調整,依課程現場為準。
加入我們一起學習 ChatGPT4.0 x Gradio x Hugging Face 生成式 AI 爬蟲技術基礎實戰課 ( 入門 )
授課業師
黃朝健 業師
業師早年投注於觸控IC和觸控模組的研發,從人因的互動設計開始進入科技業,以醫療影像的研究為主,返台後協助大型製造業進行智慧製造轉型。負責過無人機影像辨識專案、醫療影像辨識、高齡跌倒專案、國道交通事故排除預測系統等專案。業師受邀擔任教育部部定講師、聯成電腦(Python、機器學習、深度學習)講師、勞動部雲嘉南分署大數據講師、勞動部產業人才投資方案課程(Python、電商行銷、數據科學)講師、數發部產業發展署(AI GO講師生成對抗網路、AI GO講師Kaggle 數據平台實戰),以及國立政治大學電算中心擔任技術師,具豐富業界落地實務經驗。
《業師著作》
AI時代的資料科學:小白到數據專家的全面指南 ISBN:9786267383926
課程資訊
課程名稱
ChatGPT4.0 x Gradio x Hugging Face 生成式 AI 爬蟲技術基礎實戰課 ( 入門 )(C1530)
課程各期時間與上課模式
#線上預錄
。上課模式:線上錄製影片
。觀看方式:訂單完成隔日工作日寄送觀看Email(信內附上影片連結,未收到Email,請務必與我們聯繫)
。觀看時間:依購買天數方案,自「觀看通知Email」寄送日起算第一天。
課程售票
一般推廣票:每人 4,650 元(原價7,200 元)
雙人以上團報票:每人新台幣 3,800 元(原價 超優惠 5.3折)
VIP票券兌換:每人扣 1 張VIP票券 ( VIP申購方案 )
課前搶先問
是一個可以快速建立互動介面,分享你的 Maching Learning Model、API 或是 Data Science Workflow 的好工具,更棒的是 All in Python。
Gradio用於快速構建交互式應用程序,特別是機器學習模型的交互式界面。它的優勢在於易用性,只需簡單定義輸入和輸出介面即可快速構建簡單的互動頁面。
Gradio的主要優勢在於其對機器學習模型的展示和共享能力。它特別適用於那些需要向非技術人員展示模型工作原理和效果的場景,如教育、研究展示和初步的產品原型開發。此外,Gradio還提供了與Hugging Face Spaces的集成,進一步簡化了模型的共享和部署過程。
雖然Gradio的使用需要一定的機器學習背景知識,但其設計理念仍然是“易於使用”。開發者可以利用簡單的Python代碼快速構建和部署模型的交互界面。Gradio的API設計清晰,並且有大量的示例和文檔可供參考,這些都有助於降低學習門檻。
最大亮點是開源模型集散地,整合大量的模型、資料集。然而 Hugging Face 不單純是把模型放在網站上讓人下載,更重要的是提供標準化的函式庫、API 與網頁介面,並建立起開源社群。
在 Hugging Face 上可以輕鬆找到各種模型與資料集,並開放原始碼,任何人都可以使用。頁面可依照「趨勢」排序,快速找到目前流行的模型。如有特定需求,也可以使用預先訓練好的模型再進行微調(fine tune)。特別是訓練起來很昂貴的語言模型,不需要從頭訓練,可大量節省開發成本。
Hugging Face 上大多數的服務都是免費的。不過開發者可以訂閱年費,提早使用新功能與更強大的 Inference API(如:支援 streaming、可傳入更多參數)。若要使用 Spaces 的硬體或 Inference Endpoint(用於 production 的 API),則採按時計價。