《大數據 Big Data:A Revolution That Will Transform How We Live, Work, and Think 》讀書筆記


Big data 已經是所有行動世代耳熟能詳的名詞,即使不曾使用過,也聽聞過。既然大數據的收集與應用門檻已經降低,自然而然在軟體設計工作上,便希望倚賴 big data 來協助,提高身為規劃者做出「有效決定」的機率,因應此,與 team members 共讀摘要《大數據》讀書筆記如下。

Ch. 1

第1章 現在 NOW
該讓巨量資料說話了
  • Big data 需要建基於一定的科技發展,因為「收集大數據」本身便已具備一定的科技門檻
  • Big data 要我們暫時拋下對因果關係的執著 (Why),轉而擁抱簡單的相關性 correlation (What);但我們在做各種設計決策時,若僅考慮 What 而忽略 Why,很可能會做出誤差判斷… 但這本書又叫我們要「容忍誤差」!
    • 原本的抽樣調查誤差可能發生在資料收集的環節,但現在因為資料的量變造成質變,大量收集資料後,不精準的誤差被數據量稀釋了。
    • 「當面對極大量的資料時,就不會堅持一切都要作到精準」
  • Open questions:
    • 掌握 Big data 的一方,已經握有科技時代掌舵的鑰匙。例如 Google 開放了熱門關鍵字搜尋,我們才能據此發展設計或創意,但若 Google 不開放?!
    • 目前以工作上應用來說,直接面對的問題是:要抓哪些資料?如何分析所得到的資料?如何依據所得 raw data 定義出設計決策?
    • 真的可以忽略 why 而僅考慮 what 嗎?
  • Reference

Ch. 2 

第2章 更多資料 MORE
「樣本=母體」的時代來臨
  • 過去「隨機抽樣」研究方法的廣泛運用甚至無限上綱,起因於歷史上對於樣本研究的科技限制;然而抽樣資訊必然會有所遺漏,且資料無法重複使用或延續再分析
  • 「使用巨量資料做研究,就像是釣魚,一開始的時候,非但不知是否掉得到東西,連『釣得到什麼』也還在未定之數。」因此我們應用在 App develop 上,採用 GA 收集資料,需要想出「大概可以下釣餌」的地方,但也沒辦法確認是否可以拿到想要、有用的研究結果。
  • Big data: 攝影師可以先照完像,之後再在數位檔案決定要把焦點對焦在哪裡,可以查看細節或是進行新的分析。
  • 倚仗高度科技應用的 Big data 可以在「不影響使用者日常習慣」的前提下收集資料,可以較接近真實。
  • Big data 的時代,需要延伸的是 Data mining 的能力:從無意義的資料 (data)中,萃取出有意義的資訊 (information)
  • Reference

Ch. 3

第3章 雜亂 MESSY
擁抱不精確,宏觀新世界
  • What's messy:
    1. 容易蒐集的資料,因易取得、量大而容易產生誤差
      • 但量大、易取得,可能「降低成本門檻」且「分散風險」;例如,Google 翻譯本身運用極大量的資料以機率來提供翻譯
    2. 資料來源多樣
    3. 資料格式不一致
  • Big data 本身不只是要有一定條件才能達成的作法,而是加上某種讓步(例如:接受雜亂、放棄精確)而後,從神(全知,樣本=母體)那裡偷來的預顏。
  • Big data 可接受的「雜亂」是有一定被接受的條件,例如:我們不可能接受銀行帳戶的數字每次查詢都是一個雜亂跳動的數字。
  • 前 Google 資訊長 Douglas Merrill:「根本不可能有誰的資料是真正完整的,總是有許多資料無法取得。
  • 過去的妥協:
    • 我們想像自己無法取得更大量的資料來做分析;而現今則接近「樣本=母體」的世界,事實上,過去的清晰、明確也可能只是個假象,「就像是印象派繪畫,近看只是凌亂的筆觸,但向後退一步看,就是偉大的畫作。」
    • 資訊的品質;「如果只把自己限制在可以分析的資料,對世界的理解就可能變得不完整,甚至產生錯誤的見解。」
  • 「世界的架構並不是那麼固定,承認新的可塑性,甚至擁抱新的可塑性,就會讓我們更接近真實一大步。」
  • 「不一定對於一切事物,都要找出背後的原因,只要從資料中找出相關性,並據以行動,能這麼做,通常便已足夠。」

Ch. 4

第4章 相關性 CORRELATION
不再拘泥於因果關係
  • 只要知道「正是如此 What」即可,不需要了解「為何如此 Why」。
  • 核心概念:
    • 將兩個資料值之間的統計關係加以量化。兩者之間的相關性愈強,代表如果其中一個值有所變化,則另一個值極有可能也跟著改變。
    • 兩者之間的關係並沒有確定性,只有可能性。
  • 巨量資料是以相關性作為預測的根據。
    • 相關性的應用:預測分析
      • 小量資料的時代,由於可用資料很少,常常是先提出假說,再據以調查因果關係或進行相關分析,以驗證假說是否為真。由於大多是從設立假說開始,容易受到先入為主的偏見和錯覺所影響。
      • 讓實驗設計更為精準,降低因果分析的成本
  • Big data 無法脫離理論範疇,前期的資料選擇與理論息息相關,「我們選擇了什麼(資料作為收集、分析依據),就會影響我們的發現」。
  • 但 big data 的「結果」是沒有假說的。

Ch. 5 

第5章 資料化
當一切成為資料,用途無窮無盡
  • 資料化不等於數位化
    • 資料化 (datafication):將某個現象資料化,指的是將它以量化格式呈現,以便整理分析
    • 數位化 (digitization):將類比資訊,轉為二進位的 0 與 1,好讓電腦能夠運算處理
  • 巨量資料的真正核心概念,是延續了人類自古以來,希望測量、記錄和分析世界的期許
  • 量化世界
    • 「資料」指的是能夠紀錄、分析、重組的事物。有了資料化,就能夠重現人類活動
    • 有了量化,就能夠進一步預測、規劃,就算只是粗略的猜測
  • 當文字成為資料
    • 谷歌圖書掃描計畫:圖書的資料化,Google看到的是將書籍資料化的價值。
    • 亞馬遜的電子書計畫:圖書的數位化,亞馬遜看到的是將書籍數位化的價值 (將書籍以Kindle格式出版)。
    • 文化組學 (culturomics):屬於計算詞彙學領域,透過對文本的量化分析,希望能夠理解人類行為和文化趨勢
      • E.g. 透過書籍掃描專案的所取得的資料化文本,改善其機器翻譯成效
  • 當位置成為資料-商機無限:
    • 位置資料化: 量化、標準化、蒐集這三步驟 (GPS,經緯度),才能讓位置不只是個實際的地點,也能成為資料。
    • Case: 保險業不再基於共同的風險評估,而是基於個人行為 (駕駛者行為)。
  • 當互動成為資料-掌握社交動態之秘:
    • 人際關係、生活體驗、心情。 
    • Facebook 變成下一個 FICO 信用評分機構?
    • Twitter sells data access right to DataSift, and GNIP.
      • 用"情感分析技術"來分析推文,希望了解消費者的整體反應或是判斷行銷活動結果。
      • 休伯曼(社交網路分析之父) 用推文預測 Hollywood 的票房收入。
        • Twitter 的後設資料(關於資料的資料)共有三十三個項目
  • 當一切成為資料 - 用途無窮無盡
    • 不斷追蹤自己身體情況的人(Quantified self),目前人數還不是很多,但持續增加中。Wellness 可能可以據此為方向。
    • 挪威用分析人走路的步態作為手機解鎖的安全系統。
    • iTrem 用手機的 sensor 監控人身體顫抖的情形,檢驗疾病。
  • 資料化是現代基礎建設
    • 一旦取得資訊,便會存放成資料形式,方便重複使用,沒有地點與對象的的限制。

Ch. 6

第6章 價值
不在乎擁有,只在乎充分運用
  • ReCaptcha: 重複使用資料的重要性
    •  Our case - Email collects users' account information
  • 發覺資料的潛在用途
    • Email - when user sends mail? Calendar: how many events per day a user has? Phone: How many calls user made per day? etc.
    • 所有資料本身就有其價值,所有資料包括 raw data, 例如貨車不斷傳回的 GPS data.
  • 資料是經濟學家所謂的非競爭性 (non-rivalrous) 商品,某個人的使用並不妨礙他人的使用,使用後也不會耗損。
  • 資料可以為同樣目的重複使用,也可以為許多不同目的而重複使用,只要不斷重複使用資料,就能做到有效而充分的應用。
  • 資料的選項價值:
    • 資料的價值,就是所做選項產生的價值之總和。
    • 要釋放資料的選項價值,三個重要方式: 重複使用、合併資料、找到買一送一的情況。
      • 資料的重複使用
        • Example: Google + Nuance: Google 保留了全部的語音翻譯資料,可以計算出某個聲音片段會對應到哪個詞的機率,不只能改善語音辨識技術,甚至能用來創造全新服務。 Nuance 認為自己只是做軟體授權,而非資料處理。
        • Example: 全球銀行電匯系統 SWIFT,基於該公司的電匯資料,提供各國 GDP 預測
      • 重新組合資料 mash-up
        • 有時想要釋放潛藏的資料價值,就必須與其他資料結合。
        • Example: 實價登錄加上地圖。
      • 讓資料買一送一:(GA 的操作)
        • 想要重複使用資料,可以從一開始就加入可延伸的設計,只不過,因為有時候是在蒐集資料之後,才想到可以有什麼用途,所以不見得可行。
        • Example: 店家監視器,抓小偷,同時觀察顧客消費行為。
        • Example: Google的街景攝影車。
  • 資料擺久了也會貶值
    • 大多數的資料會隨著時間而失去部分效用,如果一直依賴舊資料,非但無法增加價值,還會影響新增資料的價值。
    • Example: 亞馬遜的使用者購書紀錄。
    • Example: Google 將 search key word, location 將 search result 的 priority 做調整 (turkey, New York)。谷歌擁有最完整的拼字檢查程式。
  • 資料廢氣也有價值 (Data Exhaust):
    • Data Exhaust: 使用者留下的數位足跡。
    • Example: Google knows 使用者點了搜尋結果中的那一個,進而調整排序結果。
    • Example: Facebook 的資料廢氣寶庫,重新設計系統,讓使用者更人一看到朋友的動態,來引發良性循環,讓用戶的活動更熱烈。
  • 從政府的公開資料 (free),挖掘新價值:
  • 難以估計的資料價值: 以臉書為例
    • 企業的資產負債表必定會將資料裂成一個新的資產類別。
  • 資料的價值最大化
    • 任何一家公司都不可能自己開發出資料的所有潛在價值,因此目標更遠大的做法,就是授權給第三方使用。(by royalty, 抽比例) (For example: Foursquare, license their POI data?)
    • 多方的交叉授權,可能成為常態。
    • Data broker platform?     
    • Example: Microsoft Azure Marketplace, focus on high quality data.
    • 資料估價模式為何?誰有資格定義資料的價值?
    • 資料就是平台!
    • 資料價值的關鍵,就在於似乎能夠無限次重複使用,也就是其選項價值。

Ch. 7

第7章 蘊涵資料價值鏈的三個環節
  • 資料之所以成為新的價值來源,重點在於所謂的「選項價值」,也就是作為新的用途。
  • 與巨量資料相關的公司,目前分為三種類型:資料、技術、思維
    • 資料 - 指擁有資料,或至少能夠存取使用資料的公司;但這些公司本身不見得有分析資料價值的技術或巨量資料思維,不一定以資料本身作為業務,例如:Twitter
    • 技術 - 往往是顧問公司、技術供應商或分析提供商,擁有實際操作的技能,但本身可能並不擁有資料,或並沒有創新的資料用法。
    • 思維 - 能想到如何挖掘資料、發現價值的獨特理念。
  • 資料科學家
    • 結合了統計學家、軟體工程師、資料圖表設計師的技能,且擅長講故事,樂於宣揚資料科學。
    • Google 首席經濟學家 Hal Varian:「如果你想成功,就必須先找到某個便宜而無所不在的東西,然後做一些能夠補足其缺點、而且又很少別人做得到的事。…正因如此,統計學家、資料庫管理人員及機器學習這幾項專業,可說都已經站穩了未來的夢幻位置。」
  • 資料價值鍊環節:
    • (一)資料持有人:不一定是最初收集資料的人,但現在握有資料存取權,可自己使用資料、或是授權給他人從中取得資料價值。E.g. Mater card
    • (二)資料專家:個人或公司擁有相關專業知識或技術,能夠進行複雜的分析。
    • (三)有巨量資料思維者:能早別人一步看到機會;就算手中沒有資料,或是沒有能夠處理資料的技術-他們看的是可能性,而不會受到可行性的限制。
  • 最關鍵的價值還是在「資料」本身,用開採金礦比喻,當然擁有黃金礦脈還是最重要的。
  • 資料持有人之所以願意讓中介機構介入,則是因為有些價值必須透過中介機構,才得以產生。
  • 巨量資料帶來最大的影響,就是採用「基於資料的決策」來輔助或推翻人們的判斷。因此,在許多領域裡,專家的影響力正在逐漸減弱。
  • 資料規模越大,企業越強
    • 現在最重要的是資料的規模,而不是硬體設備的規模;也就是說,要持有許多大型資料來源,並且要能夠輕鬆取用裡面的資料。
    • 未來可能會出現「行銷及販售自己的個人資料」的個資市場。
  • Open questions: 
    • 如何在軟體開發時,埋進收集「用戶喜好」的資料的方法?例如使用該功能的頻率?次數?間隔期間?又如何證明相關性?
    • Big data 的時代,我們還需要 user research 嗎?或許說 big data 就是 user research 的一種執行方式。

Ch. 8

第8章 風險
巨量資料也有黑暗面
  • 個人隱私受損
    • 即使移除了可辨識個人的關鍵資料,因為資料量過大,依舊可以倚賴交叉比對等方式辨識出個人
      • 例如:以用電模式推估個人生活習慣/型態
      • 現今收集資料時,無法預料那些資料未來會有哪些創新性的用途,而這些用途可能就會侵犯個人隱私。
      • 當前的隱私權聲明無法正面表列所有可能資料用途,並請使用者(被蒐集資料者)同意。
      • Netflix / AOL 公開匿名搜尋資料,但迅速遭受反匿名。
  • 預測犯罪並懲罰罪行(predictive policing)
    • Big data 的本質是相關性,而非因果關係,相關性不代表有因果關係。濫用 Big data 預測犯罪,等同套用無法以 big data 證實的因果關係來判對個人的責任,因此容易對某些群體造成歧視,而且還有牽連入罪的嫌疑。
    • 使用巨量資料的時候,是想找出特定的個人,而非某個群體,讓預測更加個人化。
    • 但「預測犯罪並加以懲罰」違反了目前的法律制度與公平正義社會的基礎
      • 個人責任應該與個人實際行為選擇互為表裡。若完全依賴預測,則等於否定了人的自由意志;而若選擇遭到剝奪,則個人也無須負擔任何責任,等同否定了人類的道德選擇能力。
  • 資料獨裁(dictatorship of data)
    • 任由資料來管控一切是為資料獨裁。
    • 但資料可能基礎品質不佳,也有可能出現資料分析的誤用。
    • Google 有時也過份依賴資料,Marissa Mayer 要求員工測試 41 種色階的藍色,藉以挑選網站工具列的用色:http://buzzorange.com/techorange/2014/11/19/data-based-design-ignore-at-your-own-risk/
    • 若是將每個決定都簡化成簡單的邏輯問題,「這些資料最後就會變成拐杖,是每個決定掉拄著的拐杖,讓公司整個癱瘓。」
    • Jobs: 「除非你拿出東西給顧客看,不然他們不會知道自己要什麼。」
    • 要小心:避免變得對資料瘋狂迷戀,沉迷於其威力和承諾,卻沒有意識到資料的侷限。
  • 當心巨量資料的黑暗面
    • 真正的風險在於,為了得到巨量資料的好處,就強行使用在不適用的地方,或是對分析結果過度有信心。

Ch. 9 & 10

第9章 管控
打破巨量資料的黑盒子
  • 面對溢量的資訊,控制的方法不在於審查,而在於法規來盡量避免資訊誤用
  • 由資料使用者負起個資保護責任:
    • 個人資料法規的內涵從「個人同意制」變成「使用責任制」。
    • 將責任從一般大眾的身上,轉移到資料使用者身上;且這些資料使用者是資料重複使用只的最大獲利者,獲利者負責。
    • 資料使用者必須先評估預計使用方式的風險,並且找出怎樣才能避免或減輕可能造成的危害。
    • 設定使用資料使用時限。
    • 差分隱私/差分個資 (differential privacy):
      • 將資料刻意模糊,在查詢大型資料集時,不會透露確切的結果,而只是近似結果。
  • 在巨量資料時代,我們必須嚴正要求:司法必須維護每一個人的能動性 (human agency);人類出於自由意志而選擇其行動。
    • 個人能夠、也應該為其行為負責,但不用為過去的習性、或資料預測的習性而負責。
    • 藉著保障人民的能動性,就能確保政府對人民的判斷是基於實際的行動,而不只是巨量資料分析的「預測」。政府只能叫人民為過去的確實行為負責,而不用為統計所預測的未來負責。
  • 企業對民眾的種種決定須有一定的保障措施:
    1. 開放:關於會影響到個人的預測,必須公開資料和演算法
    2. 認證:針對某些敏感用途的演算法,必須先由專業的第三方,認證為完善有效
    3. 反駁:必須明定具體的方式,讓民眾可以反駁對自己的預測
  • 保障每一個人的能動性,才能夠避免資料獨裁的威脅,不讓資料賦有超出合理範圍的意義和重要性
  • 保持「個人責任」的概念:
    • 愈不讓個人為自己的行為負責,而是依賴資料導向的介入措施來減少社會風險,也就等於愈是把個人責任看得低
    • 不讓人為他們的行為而負責,等於是否定他們有選擇行為的基本自由
    • 如果沒有罪惡,當然也就沒有清白的概念。
    • 想用巨量資料來治理國家,重點之一就是堅守個人必須對自己確實做出的行為負責,而不是「客觀」從「資料」判定他們是否可能做錯事。把人民視之為人。
  • 打破巨量資料的黑盒子:演算學家興起,巨量資料需要有人監控、維持透明度。
    • 外部的演算學家:公正的審計官、稽核師
    • 內部的演算學家:受雇於企業,在企業內部監控巨量資料活動的演算學家,不僅要維護公司利益,也要維護那些受到巨量資料分析影響的人
  • 「資料大亨」
    • 各時期的重要首創技術,後來都成為整體經濟核心的「資訊基礎設施」,因而效用法律的強致力,避免形成不健康的霸權壟斷。
    • 反壟斷的原則就是「不偏好任何一種科技」。
  • 三大管控策略:
    • 將個人保護由「個人同意制」,轉成資料使用者的「使用責任制」
    • 運用巨量資料進行預測時,要尊重每一個人的能動性
    • 培養「演算學家」這種巨量資料的審計師
第10章 未來
巨量資料只是工具,勿忘謙卑與人性
  • 具備巨量資料思維的分析師,不見得直接跳入討論數學方法:「我甚至根本還沒想到要用什麼模型,只是想知道有什麼可以用的觀點,如此而已。」
  • Mike Flowers:「我必須先能得到一個我能使用的資料點,並且這個資料點得告訴我,它有多重要。如果夠重要,我們就採取行動,否則就按兵不動。」
  • 巨量資料:
    • 過去對知識的概念是對過去的理解,但現在的隻是將會是能夠預測未來。
    • 有時候不用追根究柢、找出真正的原因,只要能做出更好的選擇、得到改善,就已經足夠了。持續做下去,就能得到良性循環。
    • 資料的價值,大部分會來自延伸用途、選項價值,而不是我們平常想到的原始用途。
  • 巨量資料正在改變我們的世界觀
    • 我們接受資料的雜亂,是因為看到了整體的好處;是以,我們也應該接受人的不精準,因為這正是人性的一部分。
    • 人類最偉大的地方,正是那些無法資料化的特質,正是演算法和矽晶片無法精確揭示的本性。
    • 在巨量資料的世界裡,需要培養的仍然是最人性的特質:創造力,直覺,有知識的雄心壯志。人類的聰明才智,才是社會進步的泉源。
  • 巨量資料是一項資源、一項工具。它的目的是通知,而不是解釋;它指出我們可以追尋理解的方向,但它也可能造成誤解,端看應用得巧妙與否。只要是尚未存在的事物,無論有再大量的資料,也無法確認或證實。假設亨利福特想靠巨量資料演算法,知道客戶想要什麼,得到的答案會是"更快的馬"。(Same as Steve Jobs)


Comments

Popular posts from this blog

ProductTank Taipei #12 - 大型組織的產品管理與協作

讀書筆記 - 李弘毅教授【生成式AI導論 2024】第1講:生成式AI是什麼?

ProductTank Taipei #5 - 當產品經理遇到資料科學家