資料工程師轉職專題:細節盤點
作為第一個經過完整開發流程的專案,我已經撰寫兩篇文章說明專案的特點與開發遇到的困難與挑戰。最後我想更細節的分享這個專案的各個環節,我們所做的決定和一些細節。我想這篇文章會更偏向「紀錄」,所以並未有太多的技術價值,但若你正好有需要可以作為參考。
目錄
相關連結
概述
本專案(相關閱讀:《六都寵物資源分析開發實錄》、困難與挑戰)旨在透過蒐集六都寵物店家資訊,分析資源分布與商業潛力,並以視覺化儀表板呈現。
作為一個 End-to-End 的資料工程專案,我們建立了一套自動化的 Data Pipeline,涵蓋爬蟲、ETL、資料倉儲、分析到視覺化。
技術棧
| 領域 | 工具/技術 | 用途 |
|---|---|---|
| 資料獲取 | Python Script, Google Maps API | 網站爬蟲與 API 串接 |
| ETL/ELT | Python (Pandas) | 資料清洗、轉換與格式化 |
| 資料庫 | MySQL (GCP Cloud SQL/VM) | 關聯式資料庫儲存 |
| 自動化排程 | Apache Airflow | 工作流調度與監控 |
| 雲端 & DevOps | GCP (Compute Engine), Docker | 雲端基礎設施與容器化部署 |
| CI/CD | GitHub Actions | 自動化部署 |
| BI 視覺化 | Tableau | 互動式儀表板製作 |
