【2023 應用心理學與實務研討會】AI 都不 AI 了 - 由 AI 生成到 AI 思維-資料科學家玩 AIGC(謝宗震)

資料科學家玩 AIGC(謝宗震-CHIMES AI 執行長)

是清大校友!看起來是個非常浪漫的人(推動新趨勢的人我一概歸類到浪漫的人),本日目標跟大家分享在 AI 浪潮中,要如何對焦自己的心態與目光,因應整體的趨勢。

當 AI 門檻降低時,Chimes AI 思考自己要做什麼?他們給自己的目標是「平民化 AI,像用電依樣自然」。

首先,討論到資料科學家的工作日常(後來發現這是小彩蛋,這段是 ChatGPT 生成的):

  1. User Case
  2. Data Collection
  3. Data Extraction
  4. Model Building
  5. Model Evaluation
  6. Model Packaging(封裝模型,把 AI 的應用讓大家看的到或是周知大眾)
  7. Prediction API
  8. Predictive Dashboard

Data Collection and Cleaning 

  1. Acquiring Data - Find and gather the relevant data from various sources, including public databases and private records.
  2. Exploratory Data Analysis 
    • Regression Analysis
    • Time Series Analysis
    • Hypothesis Testing (Formulate hypotheses and use statistical tests to evaluate their validity(
    • Classification (Predict categorical outcomes based on input variables.)
  3. Data Preprocessing 
  4. Feature Engineering

Machine Learning and Deep Learning 

  • Machine Learning
  • Deep Learning 
  • Artificial Intelligence

Data Visualization and Reporting

  • Data Reporting 
  • Data Visualization
  • Dashboards and Interactive Visualizations 

透過資料分析產出的結果,需要透過資料視覺化,轉出感動人心或影響產品策略的 insight。是資料應用的最末端產出。

Teamwork and Communication 資料科學家需要跨領域跟各專業的人合作

  • Collaboration
  • Communication
  • Mentoring

所有的 AI 模型,都會有失準、老化的一天。例如,所有的 AI 都沒有預測到 COVID-19 的出現,和對整體世代的影響。

AI 模型的修正其實並不快。

而因為這個漫長的流程,

AI Solution pipeline is long. Domain collaboration is essential, but it has been hard. 

- 孔祥重(中央研究院院士、哈佛大學比爾蓋茲講座教授)

傳統 AI 項目發展 code heavy 流程漫長,組織缺乏資料科學家橫跨領域介入溝通應用。

Tukey 人工智慧建模與智慧管理平台 - 把資料科學家消滅,讓使用者在各 domain 輕易導入 AI 模型。

生成式 AI 的影響

謝宗震以電力產業的應用做 ChatGPT 測試 demo:

  • Prompt: 作為一名〔電力公司〕的〔太陽光電處長〕,同時也是資深的資料科學家,想要進行〔太陽能發電量預測〕,請告訴我這個分析具體的輸入變數輸出變數

這部分可以替代資料科學家的「資料盤點」工作。可以輕易調整應用、Input、Output 的 Prompt 來取得分析方向,過往需要大量溝通與時間才能完成的 domain knowledge 建置,現今可以透過生成式 AI 來快速取得結果。

資料模擬生成

  • Prompt: 作為一名〔電力公司〕的〔太陽光電處長〕,同時也是資深的資料科學家,想要進行〔太陽能發電量預測〕,請告訴我這個分析具體的輸入變數輸出變數,並以表格呈現。

資料建模

  • Prompt: 你現在是一個專業的資料科學家,請進行太陽能拉電量預測,組織以下 2022/1/1~2022/2/28 的資料並建置成模型,同時請使用 XX 模型驗證。
  • Prompt: 基於上述建立的 'model',請根據以下測試資料集,進行模型試算,結果以表格呈現。

模型解釋

  • Prompt: 你現在是資深的資料科學家,也是上述太陽能發電預測模型 'model' 的建置者,請協助我解釋以下預測結果,應包含輸入變數對於輸出變數的影響。

模型匯出

  • Prompt: 請簡介 PMML (Predivtive Model Markup Language)
  • Prompt: 請將上述 'model' 轉換成 PMML 格式匯出
  • Prompt: 請將 model pmml 轉成 XML 格式匯出

模型應用-太陽能發電量計算機 App 的實現

ChatGPT 的使用與侷限 

  • ChatGPT 只能提供通用的應用場景,特定的議題需要使用者逐步提問。
  • 資料模擬-同樣的 prompt, 每次結果會因為 radomness 隨機性變異導致每次結果都不一致 → 可以指定欄位名稱再要求生成模擬數據
  • 模型預測-同樣的 prompt, 每次結果會不一致!(預測結果其實是假的)
  • 模型輸出-用 prompt 輸出的 model 每次結果也都不一樣
  • 模型應用-用 prompt 給的程式其實不能跑,會有 bug,修正建議也有誤(非 domain 專家很難 debug,不如自己寫,)

ChatGPT 使用說明

  • 回答未必是正確的(一本正經地胡說八道)
  • 回答未必是一致的(每次回答都不盡相同 temperature 0.1)
  • 回答未必是真實的(幻境編譯器)
  • 指定角色設定專業程度
  • 逐步溝通提供範例(根據 XXX 資料庫生成分析,並以 CSV 格式呈現)
  • 使用分隔符號

見山是山,見山不是山,見山還是山。

資料科學家可以將 ChatGPT 作為靈感觸發,讓工作完成的更有意思。

附上 CHIMES AI 的 AI 產品試用申請 URL,大家可以試試看。

Comments

Popular posts from this blog

ProductTank Taipei #12 - 大型組織的產品管理與協作

【2023 應用心理學與實務研討會】AI 都不 AI 了 - 由 AI 生成到 AI 思維-生成藝術的創意空間(李怡志)

【2023 應用心理學與實務研討會】AI 都不 AI 了 - 由 AI 生成到 AI 思維-ChatGPT 的解析與挑戰(陳縕儂)