《大數據 Big Data:A Revolution That Will Transform How We Live, Work, and Think 》讀書筆記

Big data 已經是所有行動世代耳熟能詳的名詞，即使不曾使用過，也聽聞過。既然大數據的收集與應用門檻已經降低，自然而然在軟體設計工作上，便希望倚賴 big data 來協助，提高身為規劃者做出「有效決定」的機率，因應此，與 team members 共讀摘要《大數據》讀書筆記如下。

Ch. 1

第1章　現在 NOW
該讓巨量資料說話了

Big data 需要建基於一定的科技發展，因為「收集大數據」本身便已具備一定的科技門檻
Big data 要我們暫時拋下對因果關係的執著 (Why)，轉而擁抱簡單的相關性 correlation (What)；但我們在做各種設計決策時，若僅考慮 What 而忽略 Why，很可能會做出誤差判斷… 但這本書又叫我們要「容忍誤差」！
- 原本的抽樣調查誤差可能發生在資料收集的環節，但現在因為資料的量變造成質變，大量收集資料後，不精準的誤差被數據量稀釋了。
- 「當面對極大量的資料時，就不會堅持一切都要作到精準」
Open questions:
- 掌握 Big data 的一方，已經握有科技時代掌舵的鑰匙。例如 Google 開放了熱門關鍵字搜尋，我們才能據此發展設計或創意，但若 Google 不開放？！
- 目前以工作上應用來說，直接面對的問題是：要抓哪些資料？如何分析所得到的資料？如何依據所得 raw data 定義出設計決策？
- 真的可以忽略 why 而僅考慮 what 嗎？
Reference
- 尿布、啤酒、星期五─每個人都該懂的Data mining

Ch. 2

第2章　更多資料 MORE
「樣本＝母體」的時代來臨

過去「隨機抽樣」研究方法的廣泛運用甚至無限上綱，起因於歷史上對於樣本研究的科技限制；然而抽樣資訊必然會有所遺漏，且資料無法重複使用或延續再分析。
「使用巨量資料做研究，就像是釣魚，一開始的時候，非但不知是否掉得到東西，連『釣得到什麼』也還在未定之數。」因此我們應用在 App develop 上，採用 GA 收集資料，需要想出「大概可以下釣餌」的地方，但也沒辦法確認是否可以拿到想要、有用的研究結果。
Big data: 攝影師可以先照完像，之後再在數位檔案決定要把焦點對焦在哪裡，可以查看細節或是進行新的分析。
倚仗高度科技應用的 Big data 可以在「不影響使用者日常習慣」的前提下收集資料，可以較接近真實。
Big data 的時代，需要延伸的是 Data mining 的能力：從無意義的資料 (data)中，萃取出有意義的資訊 (information)
Reference
- Google 流感趨勢 http://www.google.org/flutrends/
- 【WIRED特刊】Wal-Mart轉型科技企業的關鍵報告：看它用Big Data算出你的「消費基因」！

Ch. 3

第3章　雜亂 MESSY
擁抱不精確，宏觀新世界

What's messy:
1. 容易蒐集的資料，因易取得、量大而容易產生誤差
  - 但量大、易取得，可能「降低成本門檻」且「分散風險」；例如，Google 翻譯本身運用極大量的資料以機率來提供翻譯
2. 資料來源多樣
3. 資料格式不一致
Big data 本身不只是要有一定條件才能達成的作法，而是加上某種讓步（例如：接受雜亂、放棄精確）而後，從神（全知，樣本＝母體）那裡偷來的預顏。
Big data 可接受的「雜亂」是有一定被接受的條件，例如：我們不可能接受銀行帳戶的數字每次查詢都是一個雜亂跳動的數字。
前 Google 資訊長 Douglas Merrill：「根本不可能有誰的資料是真正完整的，總是有許多資料無法取得。」
過去的妥協：
- 我們想像自己無法取得更大量的資料來做分析；而現今則接近「樣本＝母體」的世界，事實上，過去的清晰、明確也可能只是個假象，「就像是印象派繪畫，近看只是凌亂的筆觸，但向後退一步看，就是偉大的畫作。」
- 資訊的品質；「如果只把自己限制在可以分析的資料，對世界的理解就可能變得不完整，甚至產生錯誤的見解。」
「世界的架構並不是那麼固定，承認新的可塑性，甚至擁抱新的可塑性，就會讓我們更接近真實一大步。」
「不一定對於一切事物，都要找出背後的原因，只要從資料中找出相關性，並據以行動，能這麼做，通常便已足夠。」

Ch. 4

第4章　相關性 CORRELATION
不再拘泥於因果關係

只要知道「正是如此 What」即可，不需要了解「為何如此 Why」。
核心概念：
- 將兩個資料值之間的統計關係加以量化。兩者之間的相關性愈強，代表如果其中一個值有所變化，則另一個值極有可能也跟著改變。
- 兩者之間的關係並沒有確定性，只有可能性。
巨量資料是以相關性作為預測的根據。
- 相關性的應用：預測分析
  - 小量資料的時代，由於可用資料很少，常常是先提出假說，再據以調查因果關係或進行相關分析，以驗證假說是否為真。由於大多是從設立假說開始，容易受到先入為主的偏見和錯覺所影響。
  - 讓實驗設計更為精準，降低因果分析的成本
Big data 無法脫離理論範疇，前期的資料選擇與理論息息相關，「我們選擇了什麼（資料作為收集、分析依據），就會影響我們的發現」。
但 big data 的「結果」是沒有假說的。

Ch. 5

第5章　資料化
當一切成為資料，用途無窮無盡

資料化不等於數位化
- 資料化 (datafication)：將某個現象資料化，指的是將它以量化格式呈現，以便整理分析
- 數位化 (digitization)：將類比資訊，轉為二進位的 0 與 1，好讓電腦能夠運算處理
巨量資料的真正核心概念，是延續了人類自古以來，希望測量、記錄和分析世界的期許
量化世界
- 「資料」指的是能夠紀錄、分析、重組的事物。有了資料化，就能夠重現人類活動
- 有了量化，就能夠進一步預測、規劃，就算只是粗略的猜測
當文字成為資料
- 谷歌圖書掃描計畫：圖書的資料化，Google看到的是將書籍資料化的價值。
- 亞馬遜的電子書計畫：圖書的數位化，亞馬遜看到的是將書籍數位化的價值 (將書籍以Kindle格式出版)。
- 文化組學 (culturomics)：屬於計算詞彙學領域，透過對文本的量化分析，希望能夠理解人類行為和文化趨勢
  - E.g. 透過書籍掃描專案的所取得的資料化文本，改善其機器翻譯成效
當位置成為資料-商機無限：
- 位置資料化: 量化、標準化、蒐集這三步驟 (GPS，經緯度)，才能讓位置不只是個實際的地點，也能成為資料。
- Case: 保險業不再基於共同的風險評估，而是基於個人行為 (駕駛者行為)。
當互動成為資料-掌握社交動態之秘：
- 人際關係、生活體驗、心情。
- Facebook 變成下一個 FICO 信用評分機構？
- Twitter sells data access right to DataSift, and GNIP.
  - 用"情感分析技術"來分析推文，希望了解消費者的整體反應或是判斷行銷活動結果。
  - 休伯曼(社交網路分析之父) 用推文預測 Hollywood 的票房收入。
    - Twitter 的後設資料（關於資料的資料）共有三十三個項目
當一切成為資料 - 用途無窮無盡
- 不斷追蹤自己身體情況的人(Quantified self)，目前人數還不是很多，但持續增加中。Wellness 可能可以據此為方向。
- 挪威用分析人走路的步態作為手機解鎖的安全系統。
- iTrem 用手機的 sensor 監控人身體顫抖的情形，檢驗疾病。
資料化是現代基礎建設
- 一旦取得資訊，便會存放成資料形式，方便重複使用，沒有地點與對象的的限制。

Ch. 6

第6章　價值
不在乎擁有，只在乎充分運用

ReCaptcha: 重複使用資料的重要性
- Our case - Email collects users' account information
發覺資料的潛在用途
- Email - when user sends mail? Calendar: how many events per day a user has? Phone: How many calls user made per day? etc.
- 所有資料本身就有其價值，所有資料包括 raw data, 例如貨車不斷傳回的 GPS data.
資料是經濟學家所謂的非競爭性 (non-rivalrous) 商品，某個人的使用並不妨礙他人的使用，使用後也不會耗損。
資料可以為同樣目的重複使用，也可以為許多不同目的而重複使用，只要不斷重複使用資料，就能做到有效而充分的應用。
資料的選項價值：
- 資料的價值，就是所做選項產生的價值之總和。
- 要釋放資料的選項價值，三個重要方式: 重複使用、合併資料、找到買一送一的情況。
  - 資料的重複使用：
    - Example: Google + Nuance: Google 保留了全部的語音翻譯資料，可以計算出某個聲音片段會對應到哪個詞的機率，不只能改善語音辨識技術，甚至能用來創造全新服務。 Nuance 認為自己只是做軟體授權，而非資料處理。
    - Example: 全球銀行電匯系統 SWIFT，基於該公司的電匯資料，提供各國 GDP 預測。
  - 重新組合資料 mash-up：
    - 有時想要釋放潛藏的資料價值，就必須與其他資料結合。
    - Example: 實價登錄加上地圖。
  - 讓資料買一送一：(GA 的操作)
    - 想要重複使用資料，可以從一開始就加入可延伸的設計，只不過，因為有時候是在蒐集資料之後，才想到可以有什麼用途，所以不見得可行。
    - Example: 店家監視器，抓小偷，同時觀察顧客消費行為。
    - Example: Google的街景攝影車。
資料擺久了也會貶值：
- 大多數的資料會隨著時間而失去部分效用，如果一直依賴舊資料，非但無法增加價值，還會影響新增資料的價值。
- Example: 亞馬遜的使用者購書紀錄。
- Example: Google 將 search key word, location 將 search result 的 priority 做調整 (turkey, New York)。谷歌擁有最完整的拼字檢查程式。
資料廢氣也有價值 (Data Exhaust)：
- Data Exhaust: 使用者留下的數位足跡。
- Example: Google knows 使用者點了搜尋結果中的那一個，進而調整排序結果。
- Example: Facebook 的資料廢氣寶庫，重新設計系統，讓使用者更人一看到朋友的動態，來引發良性循環，讓用戶的活動更熱烈。
從政府的公開資料 (free)，挖掘新價值：
- Example: Taiwan g0v.tw (零時政府)
  - http://g0v.tw/zh-TW/index.html
  - http://g0v.tw/zh-TW/projects.html
難以估計的資料價值: 以臉書為例
- 企業的資產負債表必定會將資料裂成一個新的資產類別。
讓資料的價值最大化
- 任何一家公司都不可能自己開發出資料的所有潛在價值，因此目標更遠大的做法，就是授權給第三方使用。(by royalty, 抽比例) (For example: Foursquare, license their POI data?)
- 多方的交叉授權，可能成為常態。
- Data broker platform?
- Example: Microsoft Azure Marketplace, focus on high quality data.
- 資料估價模式為何？誰有資格定義資料的價值？
- 資料就是平台！
- 資料價值的關鍵，就在於似乎能夠無限次重複使用，也就是其選項價值。

Ch. 7

第7章　蘊涵資料價值鏈的三個環節

資料之所以成為新的價值來源，重點在於所謂的「選項價值」，也就是作為新的用途。
與巨量資料相關的公司，目前分為三種類型：資料、技術、思維
- 資料 - 指擁有資料，或至少能夠存取使用資料的公司；但這些公司本身不見得有分析資料價值的技術或巨量資料思維，不一定以資料本身作為業務，例如：Twitter
- 技術 - 往往是顧問公司、技術供應商或分析提供商，擁有實際操作的技能，但本身可能並不擁有資料，或並沒有創新的資料用法。
- 思維 - 能想到如何挖掘資料、發現價值的獨特理念。
資料科學家
- 結合了統計學家、軟體工程師、資料圖表設計師的技能，且擅長講故事，樂於宣揚資料科學。
- Google 首席經濟學家 Hal Varian：「如果你想成功，就必須先找到某個便宜而無所不在的東西，然後做一些能夠補足其缺點、而且又很少別人做得到的事。…正因如此，統計學家、資料庫管理人員及機器學習這幾項專業，可說都已經站穩了未來的夢幻位置。」
資料價值鍊環節：
- （一）資料持有人：不一定是最初收集資料的人，但現在握有資料存取權，可自己使用資料、或是授權給他人從中取得資料價值。E.g. Mater card
- （二）資料專家：個人或公司擁有相關專業知識或技術，能夠進行複雜的分析。
- （三）有巨量資料思維者：能早別人一步看到機會；就算手中沒有資料，或是沒有能夠處理資料的技術－他們看的是可能性，而不會受到可行性的限制。
最關鍵的價值還是在「資料」本身，用開採金礦比喻，當然擁有黃金礦脈還是最重要的。
資料持有人之所以願意讓中介機構介入，則是因為有些價值必須透過中介機構，才得以產生。
巨量資料帶來最大的影響，就是採用「基於資料的決策」來輔助或推翻人們的判斷。因此，在許多領域裡，專家的影響力正在逐漸減弱。
資料規模越大，企業越強
- 現在最重要的是資料的規模，而不是硬體設備的規模；也就是說，要持有許多大型資料來源，並且要能夠輕鬆取用裡面的資料。
- 未來可能會出現「行銷及販售自己的個人資料」的個資市場。
Open questions:
- 如何在軟體開發時，埋進收集「用戶喜好」的資料的方法？例如使用該功能的頻率？次數？間隔期間？又如何證明相關性？
- Big data 的時代，我們還需要 user research 嗎？或許說 big data 就是 user research 的一種執行方式。

Ch. 8

第8章　風險
巨量資料也有黑暗面

個人隱私受損
- 即使移除了可辨識個人的關鍵資料，因為資料量過大，依舊可以倚賴交叉比對等方式辨識出個人
  - 例如：以用電模式推估個人生活習慣/型態
  - 現今收集資料時，無法預料那些資料未來會有哪些創新性的用途，而這些用途可能就會侵犯個人隱私。
  - 當前的隱私權聲明無法正面表列所有可能資料用途，並請使用者（被蒐集資料者）同意。
  - Netflix / AOL 公開匿名搜尋資料，但迅速遭受反匿名。
預測犯罪並懲罰罪行（predictive policing）
- Big data 的本質是相關性，而非因果關係，相關性不代表有因果關係。濫用 Big data 預測犯罪，等同套用無法以 big data 證實的因果關係來判對個人的責任，因此容易對某些群體造成歧視，而且還有牽連入罪的嫌疑。
- 使用巨量資料的時候，是想找出特定的個人，而非某個群體，讓預測更加個人化。
- 但「預測犯罪並加以懲罰」違反了目前的法律制度與公平正義社會的基礎
  - 個人責任應該與個人實際行為選擇互為表裡。若完全依賴預測，則等於否定了人的自由意志；而若選擇遭到剝奪，則個人也無須負擔任何責任，等同否定了人類的道德選擇能力。
資料獨裁（dictatorship of data）
- 任由資料來管控一切是為資料獨裁。
- 但資料可能基礎品質不佳，也有可能出現資料分析的誤用。
- Google 有時也過份依賴資料，Marissa Mayer 要求員工測試 41 種色階的藍色，藉以挑選網站工具列的用色：http://buzzorange.com/techorange/2014/11/19/data-based-design-ignore-at-your-own-risk/
- 若是將每個決定都簡化成簡單的邏輯問題，「這些資料最後就會變成拐杖，是每個決定掉拄著的拐杖，讓公司整個癱瘓。」
- Jobs: 「除非你拿出東西給顧客看，不然他們不會知道自己要什麼。」
- 要小心：避免變得對資料瘋狂迷戀，沉迷於其威力和承諾，卻沒有意識到資料的侷限。
當心巨量資料的黑暗面
- 真正的風險在於，為了得到巨量資料的好處，就強行使用在不適用的地方，或是對分析結果過度有信心。

Ch. 9 & 10

第9章　管控
打破巨量資料的黑盒子

面對溢量的資訊，控制的方法不在於審查，而在於法規來盡量避免資訊誤用。
由資料使用者負起個資保護責任：
- 個人資料法規的內涵從「個人同意制」變成「使用責任制」。
- 將責任從一般大眾的身上，轉移到資料使用者身上；且這些資料使用者是資料重複使用只的最大獲利者，獲利者負責。
- 資料使用者必須先評估預計使用方式的風險，並且找出怎樣才能避免或減輕可能造成的危害。
- 設定使用資料使用時限。
- 差分隱私/差分個資 (differential privacy)：
  - 將資料刻意模糊，在查詢大型資料集時，不會透露確切的結果，而只是近似結果。
在巨量資料時代，我們必須嚴正要求：司法必須維護每一個人的能動性 (human agency)；人類出於自由意志而選擇其行動。
- 個人能夠、也應該為其行為負責，但不用為過去的習性、或資料預測的習性而負責。
- 藉著保障人民的能動性，就能確保政府對人民的判斷是基於實際的行動，而不只是巨量資料分析的「預測」。政府只能叫人民為過去的確實行為負責，而不用為統計所預測的未來負責。
企業對民眾的種種決定須有一定的保障措施：
1. 開放：關於會影響到個人的預測，必須公開資料和演算法
2. 認證：針對某些敏感用途的演算法，必須先由專業的第三方，認證為完善有效
3. 反駁：必須明定具體的方式，讓民眾可以反駁對自己的預測
保障每一個人的能動性，才能夠避免資料獨裁的威脅，不讓資料賦有超出合理範圍的意義和重要性。
保持「個人責任」的概念：
- 愈不讓個人為自己的行為負責，而是依賴資料導向的介入措施來減少社會風險，也就等於愈是把個人責任看得低
- 不讓人為他們的行為而負責，等於是否定他們有選擇行為的基本自由
- 如果沒有罪惡，當然也就沒有清白的概念。
- 想用巨量資料來治理國家，重點之一就是堅守個人必須對自己確實做出的行為負責，而不是「客觀」從「資料」判定他們是否可能做錯事。把人民視之為人。
打破巨量資料的黑盒子：演算學家興起，巨量資料需要有人監控、維持透明度。
- 外部的演算學家：公正的審計官、稽核師
- 內部的演算學家：受雇於企業，在企業內部監控巨量資料活動的演算學家，不僅要維護公司利益，也要維護那些受到巨量資料分析影響的人
「資料大亨」
- 各時期的重要首創技術，後來都成為整體經濟核心的「資訊基礎設施」，因而效用法律的強致力，避免形成不健康的霸權壟斷。
- 反壟斷的原則就是「不偏好任何一種科技」。
三大管控策略：
- 將個人保護由「個人同意制」，轉成資料使用者的「使用責任制」
- 運用巨量資料進行預測時，要尊重每一個人的能動性
- 培養「演算學家」這種巨量資料的審計師

第10章　未來
巨量資料只是工具，勿忘謙卑與人性

具備巨量資料思維的分析師，不見得直接跳入討論數學方法：「我甚至根本還沒想到要用什麼模型，只是想知道有什麼可以用的觀點，如此而已。」
Mike Flowers：「我必須先能得到一個我能使用的資料點，並且這個資料點得告訴我，它有多重要。如果夠重要，我們就採取行動，否則就按兵不動。」
巨量資料：
- 過去對知識的概念是對過去的理解，但現在的隻是將會是能夠預測未來。
- 有時候不用追根究柢、找出真正的原因，只要能做出更好的選擇、得到改善，就已經足夠了。持續做下去，就能得到良性循環。
- 資料的價值，大部分會來自延伸用途、選項價值，而不是我們平常想到的原始用途。
巨量資料正在改變我們的世界觀
- 我們接受資料的雜亂，是因為看到了整體的好處；是以，我們也應該接受人的不精準，因為這正是人性的一部分。
- 人類最偉大的地方，正是那些無法資料化的特質，正是演算法和矽晶片無法精確揭示的本性。
- 在巨量資料的世界裡，需要培養的仍然是最人性的特質：創造力，直覺，有知識的雄心壯志。人類的聰明才智，才是社會進步的泉源。
巨量資料是一項資源、一項工具。它的目的是通知，而不是解釋；它指出我們可以追尋理解的方向，但它也可能造成誤解，端看應用得巧妙與否。只要是尚未存在的事物，無論有再大量的資料，也無法確認或證實。假設亨利福特想靠巨量資料演算法，知道客戶想要什麼，得到的答案會是"更快的馬"。(Same as Steve Jobs)

ProductTank Taipei #12 - 大型組織的產品管理與協作

- October 02, 2018

難得提早到現場，開了電腦正在準備，突然發現 Peter 正在遠端連線，抓圖時才發現，原來人在荷蘭的 Peter 今天是遠端分享，算是很特別的經驗。 Celine 「裸辭」上一份工作後，輾轉到了中國的攜程工作。直接破題的 Celine 以攜程旅遊網的首頁為例，告知頁面信息的排序，事實上並不只是考慮使用者的閱讀習慣與興趣，而是依據組織內部的角力，哪個組織收付的佣金夠多，排序就會提前，例如：酒店、機票、旅遊等區塊，就會有所上下排序調整。 Celine 的工作是後端的靜態信息組。攜程分為垂直式、水平式分工，垂直式分工意指從後端信息整合、API 接口到前台的 App UI 呈現和實作，水平式分工則指當重要功能需要整合時，便需要拉出平行橫跨並進的規劃作法。在大公司工作讓 Celine 覺得任務非常複雜，例如做「需求調研」時，若功能橫跨各信息組或功能組，則一個需求便是牽一髮動全身，需要橫跨各組做繁複的溝通，甚至要召開【需求澄清會】，遭受各組的炮轟，最後再回去重寫。若想要做一個扁平的東西，仍然需要跟開發努力爭取資源，並跟各部門 PK 優先，甚至談好資源之後，若開發部門有緊急事件，仍會不告知值接插隊延後需求實作，而為了功能，測試資源也是稀缺資源要透過血淋淋的爭取。很多事情即使講很多次，還是會有人聽不懂！ Celine 分享開發產品時的四個主要步驟：需求調研需求評審開發測試優化迭代理想的狀況是這樣的：需求調研 - 開發、內部/外部訪談、PRD 撰寫需求評審 - 內部評審、外部評審開發測試 - 敏捷開發、測試優化迭代 - 投訴處理、收集需求現實中是這樣：需求調研 - 查出接口的所有調用方、調研開發可行性、召開 N 遍需求澄清會、梳理業務流程需求評審 - 到 N 個部門講 N 遍需求、跟各部門 PK 優先級、預先爭取測試資源開發測試 - 講 N 遍需求、確認開發負責人、開發功能微調、跨部門溝通優化迭代 - 跨部門講 N 遍需求、修 bug、運營流程優化、用戶反饋整理 Celine 接著分享攜程內部常用的操作方式：盡量找到大部分的調用方（stakeholder）項目管理工具（JIRA-cp4 + Teambetion, Lengoo, etc.）但其實...

Search This Blog

Ying @ Taiwan