【2023 應用心理學與實務研討會】AI 都不 AI 了 - 由 AI 生成到 AI 思維-資料科學家玩 AIGC(謝宗震)
資料科學家玩 AIGC(謝宗震-CHIMES AI 執行長)
是清大校友!看起來是個非常浪漫的人(推動新趨勢的人我一概歸類到浪漫的人),本日目標跟大家分享在 AI 浪潮中,要如何對焦自己的心態與目光,因應整體的趨勢。
當 AI 門檻降低時,Chimes AI 思考自己要做什麼?他們給自己的目標是「平民化 AI,像用電依樣自然」。
首先,討論到資料科學家的工作日常(後來發現這是小彩蛋,這段是 ChatGPT 生成的):
- User Case
- Data Collection
- Data Extraction
- Model Building
- Model Evaluation
- Model Packaging(封裝模型,把 AI 的應用讓大家看的到或是周知大眾)
- Prediction API
- Predictive Dashboard
Data Collection and Cleaning
- Acquiring Data - Find and gather the relevant data from various sources, including public databases and private records.
- Exploratory Data Analysis
- Regression Analysis
- Time Series Analysis
- Hypothesis Testing (Formulate hypotheses and use statistical tests to evaluate their validity(
- Classification (Predict categorical outcomes based on input variables.)
- Data Preprocessing
- Feature Engineering
Machine Learning and Deep Learning
- Machine Learning
- Deep Learning
- Artificial Intelligence
Data Visualization and Reporting
- Data Reporting
- Data Visualization
- Dashboards and Interactive Visualizations
透過資料分析產出的結果,需要透過資料視覺化,轉出感動人心或影響產品策略的 insight。是資料應用的最末端產出。
Teamwork and Communication 資料科學家需要跨領域跟各專業的人合作
- Collaboration
- Communication
- Mentoring
所有的 AI 模型,都會有失準、老化的一天。例如,所有的 AI 都沒有預測到 COVID-19 的出現,和對整體世代的影響。
AI 模型的修正其實並不快。
而因為這個漫長的流程,
AI Solution pipeline is long. Domain collaboration is essential, but it has been hard.
- 孔祥重(中央研究院院士、哈佛大學比爾蓋茲講座教授)
傳統 AI 項目發展 code heavy 流程漫長,組織缺乏資料科學家橫跨領域介入溝通應用。
Tukey 人工智慧建模與智慧管理平台 - 把資料科學家消滅,讓使用者在各 domain 輕易導入 AI 模型。
生成式 AI 的影響
謝宗震以電力產業的應用做 ChatGPT 測試 demo:
- Prompt: 作為一名〔電力公司〕的〔太陽光電處長〕,同時也是資深的資料科學家,想要進行〔太陽能發電量預測〕,請告訴我這個分析具體的輸入變數與輸出變數。
這部分可以替代資料科學家的「資料盤點」工作。可以輕易調整應用、Input、Output 的 Prompt 來取得分析方向,過往需要大量溝通與時間才能完成的 domain knowledge 建置,現今可以透過生成式 AI 來快速取得結果。
資料模擬生成
- Prompt: 作為一名〔電力公司〕的〔太陽光電處長〕,同時也是資深的資料科學家,想要進行〔太陽能發電量預測〕,請告訴我這個分析具體的輸入變數與輸出變數,並以表格呈現。
資料建模
- Prompt: 你現在是一個專業的資料科學家,請進行太陽能拉電量預測,組織以下 2022/1/1~2022/2/28 的資料並建置成模型,同時請使用 XX 模型驗證。
- Prompt: 基於上述建立的 'model',請根據以下測試資料集,進行模型試算,結果以表格呈現。
模型解釋
- Prompt: 你現在是資深的資料科學家,也是上述太陽能發電預測模型 'model' 的建置者,請協助我解釋以下預測結果,應包含輸入變數對於輸出變數的影響。
模型匯出
- Prompt: 請簡介 PMML (Predivtive Model Markup Language)
- Prompt: 請將上述 'model' 轉換成 PMML 格式匯出
- Prompt: 請將 model pmml 轉成 XML 格式匯出
模型應用-太陽能發電量計算機 App 的實現
ChatGPT 的使用與侷限
- ChatGPT 只能提供通用的應用場景,特定的議題需要使用者逐步提問。
- 資料模擬-同樣的 prompt, 每次結果會因為 radomness 隨機性變異導致每次結果都不一致 → 可以指定欄位名稱再要求生成模擬數據
- 模型預測-同樣的 prompt, 每次結果會不一致!(預測結果其實是假的)
- 模型輸出-用 prompt 輸出的 model 每次結果也都不一樣
- 模型應用-用 prompt 給的程式其實不能跑,會有 bug,修正建議也有誤(非 domain 專家很難 debug,不如自己寫,)
ChatGPT 使用說明
- 回答未必是正確的(一本正經地胡說八道)
- 回答未必是一致的(每次回答都不盡相同 temperature 0.1)
- 回答未必是真實的(幻境編譯器)
- 指定角色設定專業程度
- 逐步溝通提供範例(根據 XXX 資料庫生成分析,並以 CSV 格式呈現)
- 使用分隔符號
見山是山,見山不是山,見山還是山。
資料科學家可以將 ChatGPT 作為靈感觸發,讓工作完成的更有意思。
附上 CHIMES AI 的 AI 產品試用申請 URL,大家可以試試看。
Comments
Post a Comment