《大數據 Big Data:A Revolution That Will Transform How We Live, Work, and Think 》讀書筆記
Big data 已經是所有行動世代耳熟能詳的名詞,即使不曾使用過,也聽聞過。既然大數據的收集與應用門檻已經降低,自然而然在軟體設計工作上,便希望倚賴 big data 來協助,提高身為規劃者做出「有效決定」的機率,因應此,與 team members 共讀摘要《大數據》讀書筆記如下。
Ch. 1
第1章 現在 NOW
該讓巨量資料說話了
該讓巨量資料說話了
- Big data 需要建基於一定的科技發展,因為「收集大數據」本身便已具備一定的科技門檻
- Big data 要我們暫時拋下對因果關係的執著 (Why),轉而擁抱簡單的相關性 correlation (What);但我們在做各種設計決策時,若僅考慮 What 而忽略 Why,很可能會做出誤差判斷… 但這本書又叫我們要「容忍誤差」!
- 原本的抽樣調查誤差可能發生在資料收集的環節,但現在因為資料的量變造成質變,大量收集資料後,不精準的誤差被數據量稀釋了。
- 「當面對極大量的資料時,就不會堅持一切都要作到精準」
- Open questions:
- 掌握 Big data 的一方,已經握有科技時代掌舵的鑰匙。例如 Google 開放了熱門關鍵字搜尋,我們才能據此發展設計或創意,但若 Google 不開放?!
- 目前以工作上應用來說,直接面對的問題是:要抓哪些資料?如何分析所得到的資料?如何依據所得 raw data 定義出設計決策?
- 真的可以忽略 why 而僅考慮 what 嗎?
- Reference
Ch. 2
第2章 更多資料 MORE
「樣本=母體」的時代來臨
「樣本=母體」的時代來臨
- 過去「隨機抽樣」研究方法的廣泛運用甚至無限上綱,起因於歷史上對於樣本研究的科技限制;然而抽樣資訊必然會有所遺漏,且資料無法重複使用或延續再分析。
- 「使用巨量資料做研究,就像是釣魚,一開始的時候,非但不知是否掉得到東西,連『釣得到什麼』也還在未定之數。」因此我們應用在 App develop 上,採用 GA 收集資料,需要想出「大概可以下釣餌」的地方,但也沒辦法確認是否可以拿到想要、有用的研究結果。
- Big data: 攝影師可以先照完像,之後再在數位檔案決定要把焦點對焦在哪裡,可以查看細節或是進行新的分析。
- 倚仗高度科技應用的 Big data 可以在「不影響使用者日常習慣」的前提下收集資料,可以較接近真實。
- Big data 的時代,需要延伸的是 Data mining 的能力:從無意義的資料 (data)中,萃取出有意義的資訊 (information)
- Reference
Ch. 3
第3章 雜亂 MESSY
擁抱不精確,宏觀新世界
擁抱不精確,宏觀新世界
- What's messy:
- 容易蒐集的資料,因易取得、量大而容易產生誤差
- 但量大、易取得,可能「降低成本門檻」且「分散風險」;例如,Google 翻譯本身運用極大量的資料以機率來提供翻譯
- 資料來源多樣
- 資料格式不一致
- 容易蒐集的資料,因易取得、量大而容易產生誤差
- Big data 本身不只是要有一定條件才能達成的作法,而是加上某種讓步(例如:接受雜亂、放棄精確)而後,從神(全知,樣本=母體)那裡偷來的預顏。
- Big data 可接受的「雜亂」是有一定被接受的條件,例如:我們不可能接受銀行帳戶的數字每次查詢都是一個雜亂跳動的數字。
- 前 Google 資訊長 Douglas Merrill:「根本不可能有誰的資料是真正完整的,總是有許多資料無法取得。」
- 過去的妥協:
- 我們想像自己無法取得更大量的資料來做分析;而現今則接近「樣本=母體」的世界,事實上,過去的清晰、明確也可能只是個假象,「就像是印象派繪畫,近看只是凌亂的筆觸,但向後退一步看,就是偉大的畫作。」
- 資訊的品質;「如果只把自己限制在可以分析的資料,對世界的理解就可能變得不完整,甚至產生錯誤的見解。」
- 「世界的架構並不是那麼固定,承認新的可塑性,甚至擁抱新的可塑性,就會讓我們更接近真實一大步。」
- 「不一定對於一切事物,都要找出背後的原因,只要從資料中找出相關性,並據以行動,能這麼做,通常便已足夠。」
Ch. 4
第4章 相關性 CORRELATION
不再拘泥於因果關係
不再拘泥於因果關係
- 只要知道「正是如此 What」即可,不需要了解「為何如此 Why」。
- 核心概念:
- 將兩個資料值之間的統計關係加以量化。兩者之間的相關性愈強,代表如果其中一個值有所變化,則另一個值極有可能也跟著改變。
- 兩者之間的關係並沒有確定性,只有可能性。
- 巨量資料是以相關性作為預測的根據。
- 相關性的應用:預測分析
- 小量資料的時代,由於可用資料很少,常常是先提出假說,再據以調查因果關係或進行相關分析,以驗證假說是否為真。由於大多是從設立假說開始,容易受到先入為主的偏見和錯覺所影響。
- 讓實驗設計更為精準,降低因果分析的成本
- 相關性的應用:預測分析
- Big data 無法脫離理論範疇,前期的資料選擇與理論息息相關,「我們選擇了什麼(資料作為收集、分析依據),就會影響我們的發現」。
- 但 big data 的「結果」是沒有假說的。
Ch. 5
第5章 資料化
當一切成為資料,用途無窮無盡
當一切成為資料,用途無窮無盡
- 資料化不等於數位化
- 資料化 (datafication):將某個現象資料化,指的是將它以量化格式呈現,以便整理分析
- 數位化 (digitization):將類比資訊,轉為二進位的 0 與 1,好讓電腦能夠運算處理
- 巨量資料的真正核心概念,是延續了人類自古以來,希望測量、記錄和分析世界的期許
- 量化世界
- 「資料」指的是能夠紀錄、分析、重組的事物。有了資料化,就能夠重現人類活動
- 有了量化,就能夠進一步預測、規劃,就算只是粗略的猜測
- 當文字成為資料
- 谷歌圖書掃描計畫:圖書的資料化,Google看到的是將書籍資料化的價值。
- 亞馬遜的電子書計畫:圖書的數位化,亞馬遜看到的是將書籍數位化的價值 (將書籍以Kindle格式出版)。
- 文化組學 (culturomics):屬於計算詞彙學領域,透過對文本的量化分析,希望能夠理解人類行為和文化趨勢
- E.g. 透過書籍掃描專案的所取得的資料化文本,改善其機器翻譯成效
- 當位置成為資料-商機無限:
- 位置資料化: 量化、標準化、蒐集這三步驟 (GPS,經緯度),才能讓位置不只是個實際的地點,也能成為資料。
- Case: 保險業不再基於共同的風險評估,而是基於個人行為 (駕駛者行為)。
- 當互動成為資料-掌握社交動態之秘:
- 人際關係、生活體驗、心情。
- Facebook 變成下一個 FICO 信用評分機構?
- Twitter sells data access right to DataSift, and GNIP.
- 用"情感分析技術"來分析推文,希望了解消費者的整體反應或是判斷行銷活動結果。
- 休伯曼(社交網路分析之父) 用推文預測 Hollywood 的票房收入。
- Twitter 的後設資料(關於資料的資料)共有三十三個項目
- 當一切成為資料 - 用途無窮無盡
- 不斷追蹤自己身體情況的人(Quantified self),目前人數還不是很多,但持續增加中。Wellness 可能可以據此為方向。
- 挪威用分析人走路的步態作為手機解鎖的安全系統。
- iTrem 用手機的 sensor 監控人身體顫抖的情形,檢驗疾病。
- 資料化是現代基礎建設
- 一旦取得資訊,便會存放成資料形式,方便重複使用,沒有地點與對象的的限制。
Ch. 6
第6章 價值
不在乎擁有,只在乎充分運用
不在乎擁有,只在乎充分運用
- ReCaptcha: 重複使用資料的重要性
- Our case - Email collects users' account information
- 發覺資料的潛在用途
- Email - when user sends mail? Calendar: how many events per day a user has? Phone: How many calls user made per day? etc.
- 所有資料本身就有其價值,所有資料包括 raw data, 例如貨車不斷傳回的 GPS data.
- 資料是經濟學家所謂的非競爭性 (non-rivalrous) 商品,某個人的使用並不妨礙他人的使用,使用後也不會耗損。
- 資料可以為同樣目的重複使用,也可以為許多不同目的而重複使用,只要不斷重複使用資料,就能做到有效而充分的應用。
- 資料的選項價值:
- 資料的價值,就是所做選項產生的價值之總和。
- 要釋放資料的選項價值,三個重要方式: 重複使用、合併資料、找到買一送一的情況。
- 資料的重複使用:
- Example: Google + Nuance: Google 保留了全部的語音翻譯資料,可以計算出某個聲音片段會對應到哪個詞的機率,不只能改善語音辨識技術,甚至能用來創造全新服務。 Nuance 認為自己只是做軟體授權,而非資料處理。
- Example: 全球銀行電匯系統 SWIFT,基於該公司的電匯資料,提供各國 GDP 預測。
- 重新組合資料 mash-up:
- 有時想要釋放潛藏的資料價值,就必須與其他資料結合。
- Example: 實價登錄加上地圖。
- 讓資料買一送一:(GA 的操作)
- 想要重複使用資料,可以從一開始就加入可延伸的設計,只不過,因為有時候是在蒐集資料之後,才想到可以有什麼用途,所以不見得可行。
- Example: 店家監視器,抓小偷,同時觀察顧客消費行為。
- Example: Google的街景攝影車。
- 資料的重複使用:
- 資料擺久了也會貶值:
- 大多數的資料會隨著時間而失去部分效用,如果一直依賴舊資料,非但無法增加價值,還會影響新增資料的價值。
- Example: 亞馬遜的使用者購書紀錄。
- Example: Google 將 search key word, location 將 search result 的 priority 做調整 (turkey, New York)。谷歌擁有最完整的拼字檢查程式。
- 資料廢氣也有價值 (Data Exhaust):
- Data Exhaust: 使用者留下的數位足跡。
- Example: Google knows 使用者點了搜尋結果中的那一個,進而調整排序結果。
- Example: Facebook 的資料廢氣寶庫,重新設計系統,讓使用者更人一看到朋友的動態,來引發良性循環,讓用戶的活動更熱烈。
- 從政府的公開資料 (free),挖掘新價值:
- Example: Taiwan g0v.tw (零時政府)
- 難以估計的資料價值: 以臉書為例
- 企業的資產負債表必定會將資料裂成一個新的資產類別。
- 讓資料的價值最大化
- 任何一家公司都不可能自己開發出資料的所有潛在價值,因此目標更遠大的做法,就是授權給第三方使用。(by royalty, 抽比例) (For example: Foursquare, license their POI data?)
- 多方的交叉授權,可能成為常態。
- Data broker platform?
- Example: Microsoft Azure Marketplace, focus on high quality data.
- 資料估價模式為何?誰有資格定義資料的價值?
- 資料就是平台!
- 資料價值的關鍵,就在於似乎能夠無限次重複使用,也就是其選項價值。
Ch. 7
第7章 蘊涵資料價值鏈的三個環節
- 資料之所以成為新的價值來源,重點在於所謂的「選項價值」,也就是作為新的用途。
- 與巨量資料相關的公司,目前分為三種類型:資料、技術、思維
- 資料 - 指擁有資料,或至少能夠存取使用資料的公司;但這些公司本身不見得有分析資料價值的技術或巨量資料思維,不一定以資料本身作為業務,例如:Twitter
- 技術 - 往往是顧問公司、技術供應商或分析提供商,擁有實際操作的技能,但本身可能並不擁有資料,或並沒有創新的資料用法。
- 思維 - 能想到如何挖掘資料、發現價值的獨特理念。
- 資料科學家
- 結合了統計學家、軟體工程師、資料圖表設計師的技能,且擅長講故事,樂於宣揚資料科學。
- Google 首席經濟學家 Hal Varian:「如果你想成功,就必須先找到某個便宜而無所不在的東西,然後做一些能夠補足其缺點、而且又很少別人做得到的事。…正因如此,統計學家、資料庫管理人員及機器學習這幾項專業,可說都已經站穩了未來的夢幻位置。」
- 資料價值鍊環節:
- (一)資料持有人:不一定是最初收集資料的人,但現在握有資料存取權,可自己使用資料、或是授權給他人從中取得資料價值。E.g. Mater card
- (二)資料專家:個人或公司擁有相關專業知識或技術,能夠進行複雜的分析。
- (三)有巨量資料思維者:能早別人一步看到機會;就算手中沒有資料,或是沒有能夠處理資料的技術-他們看的是可能性,而不會受到可行性的限制。
- 最關鍵的價值還是在「資料」本身,用開採金礦比喻,當然擁有黃金礦脈還是最重要的。
- 資料持有人之所以願意讓中介機構介入,則是因為有些價值必須透過中介機構,才得以產生。
- 巨量資料帶來最大的影響,就是採用「基於資料的決策」來輔助或推翻人們的判斷。因此,在許多領域裡,專家的影響力正在逐漸減弱。
- 資料規模越大,企業越強
- 現在最重要的是資料的規模,而不是硬體設備的規模;也就是說,要持有許多大型資料來源,並且要能夠輕鬆取用裡面的資料。
- 未來可能會出現「行銷及販售自己的個人資料」的個資市場。
- Open questions:
- 如何在軟體開發時,埋進收集「用戶喜好」的資料的方法?例如使用該功能的頻率?次數?間隔期間?又如何證明相關性?
- Big data 的時代,我們還需要 user research 嗎?或許說 big data 就是 user research 的一種執行方式。
Ch. 8
第8章 風險
巨量資料也有黑暗面
巨量資料也有黑暗面
- 個人隱私受損
- 即使移除了可辨識個人的關鍵資料,因為資料量過大,依舊可以倚賴交叉比對等方式辨識出個人
- 例如:以用電模式推估個人生活習慣/型態
- 現今收集資料時,無法預料那些資料未來會有哪些創新性的用途,而這些用途可能就會侵犯個人隱私。
- 當前的隱私權聲明無法正面表列所有可能資料用途,並請使用者(被蒐集資料者)同意。
- Netflix / AOL 公開匿名搜尋資料,但迅速遭受反匿名。
- 即使移除了可辨識個人的關鍵資料,因為資料量過大,依舊可以倚賴交叉比對等方式辨識出個人
- 預測犯罪並懲罰罪行(predictive policing)
- Big data 的本質是相關性,而非因果關係,相關性不代表有因果關係。濫用 Big data 預測犯罪,等同套用無法以 big data 證實的因果關係來判對個人的責任,因此容易對某些群體造成歧視,而且還有牽連入罪的嫌疑。
- 使用巨量資料的時候,是想找出特定的個人,而非某個群體,讓預測更加個人化。
- 但「預測犯罪並加以懲罰」違反了目前的法律制度與公平正義社會的基礎
- 個人責任應該與個人實際行為選擇互為表裡。若完全依賴預測,則等於否定了人的自由意志;而若選擇遭到剝奪,則個人也無須負擔任何責任,等同否定了人類的道德選擇能力。
- 資料獨裁(dictatorship of data)
- 任由資料來管控一切是為資料獨裁。
- 但資料可能基礎品質不佳,也有可能出現資料分析的誤用。
- Google 有時也過份依賴資料,Marissa Mayer 要求員工測試 41 種色階的藍色,藉以挑選網站工具列的用色:http://buzzorange.com/techorange/2014/11/19/data-based-design-ignore-at-your-own-risk/
- 若是將每個決定都簡化成簡單的邏輯問題,「這些資料最後就會變成拐杖,是每個決定掉拄著的拐杖,讓公司整個癱瘓。」
- Jobs: 「除非你拿出東西給顧客看,不然他們不會知道自己要什麼。」
- 要小心:避免變得對資料瘋狂迷戀,沉迷於其威力和承諾,卻沒有意識到資料的侷限。
- 當心巨量資料的黑暗面
- 真正的風險在於,為了得到巨量資料的好處,就強行使用在不適用的地方,或是對分析結果過度有信心。
Ch. 9 & 10
第9章 管控
打破巨量資料的黑盒子
打破巨量資料的黑盒子
- 面對溢量的資訊,控制的方法不在於審查,而在於法規來盡量避免資訊誤用。
- 由資料使用者負起個資保護責任:
- 個人資料法規的內涵從「個人同意制」變成「使用責任制」。
- 將責任從一般大眾的身上,轉移到資料使用者身上;且這些資料使用者是資料重複使用只的最大獲利者,獲利者負責。
- 資料使用者必須先評估預計使用方式的風險,並且找出怎樣才能避免或減輕可能造成的危害。
- 設定使用資料使用時限。
- 差分隱私/差分個資 (differential privacy):
- 將資料刻意模糊,在查詢大型資料集時,不會透露確切的結果,而只是近似結果。
- 在巨量資料時代,我們必須嚴正要求:司法必須維護每一個人的能動性 (human agency);人類出於自由意志而選擇其行動。
- 個人能夠、也應該為其行為負責,但不用為過去的習性、或資料預測的習性而負責。
- 藉著保障人民的能動性,就能確保政府對人民的判斷是基於實際的行動,而不只是巨量資料分析的「預測」。政府只能叫人民為過去的確實行為負責,而不用為統計所預測的未來負責。
- 企業對民眾的種種決定須有一定的保障措施:
- 開放:關於會影響到個人的預測,必須公開資料和演算法
- 認證:針對某些敏感用途的演算法,必須先由專業的第三方,認證為完善有效
- 反駁:必須明定具體的方式,讓民眾可以反駁對自己的預測
- 保障每一個人的能動性,才能夠避免資料獨裁的威脅,不讓資料賦有超出合理範圍的意義和重要性。
- 保持「個人責任」的概念:
- 愈不讓個人為自己的行為負責,而是依賴資料導向的介入措施來減少社會風險,也就等於愈是把個人責任看得低
- 不讓人為他們的行為而負責,等於是否定他們有選擇行為的基本自由
- 如果沒有罪惡,當然也就沒有清白的概念。
- 想用巨量資料來治理國家,重點之一就是堅守個人必須對自己確實做出的行為負責,而不是「客觀」從「資料」判定他們是否可能做錯事。把人民視之為人。
- 打破巨量資料的黑盒子:演算學家興起,巨量資料需要有人監控、維持透明度。
- 外部的演算學家:公正的審計官、稽核師
- 內部的演算學家:受雇於企業,在企業內部監控巨量資料活動的演算學家,不僅要維護公司利益,也要維護那些受到巨量資料分析影響的人
- 「資料大亨」
- 各時期的重要首創技術,後來都成為整體經濟核心的「資訊基礎設施」,因而效用法律的強致力,避免形成不健康的霸權壟斷。
- 反壟斷的原則就是「不偏好任何一種科技」。
- 三大管控策略:
- 將個人保護由「個人同意制」,轉成資料使用者的「使用責任制」
- 運用巨量資料進行預測時,要尊重每一個人的能動性
- 培養「演算學家」這種巨量資料的審計師
第10章 未來
巨量資料只是工具,勿忘謙卑與人性
巨量資料只是工具,勿忘謙卑與人性
- 具備巨量資料思維的分析師,不見得直接跳入討論數學方法:「我甚至根本還沒想到要用什麼模型,只是想知道有什麼可以用的觀點,如此而已。」
- Mike Flowers:「我必須先能得到一個我能使用的資料點,並且這個資料點得告訴我,它有多重要。如果夠重要,我們就採取行動,否則就按兵不動。」
- 巨量資料:
- 過去對知識的概念是對過去的理解,但現在的隻是將會是能夠預測未來。
- 有時候不用追根究柢、找出真正的原因,只要能做出更好的選擇、得到改善,就已經足夠了。持續做下去,就能得到良性循環。
- 資料的價值,大部分會來自延伸用途、選項價值,而不是我們平常想到的原始用途。
- 巨量資料正在改變我們的世界觀
- 我們接受資料的雜亂,是因為看到了整體的好處;是以,我們也應該接受人的不精準,因為這正是人性的一部分。
- 人類最偉大的地方,正是那些無法資料化的特質,正是演算法和矽晶片無法精確揭示的本性。
- 在巨量資料的世界裡,需要培養的仍然是最人性的特質:創造力,直覺,有知識的雄心壯志。人類的聰明才智,才是社會進步的泉源。
- 巨量資料是一項資源、一項工具。它的目的是通知,而不是解釋;它指出我們可以追尋理解的方向,但它也可能造成誤解,端看應用得巧妙與否。只要是尚未存在的事物,無論有再大量的資料,也無法確認或證實。假設亨利福特想靠巨量資料演算法,知道客戶想要什麼,得到的答案會是"更快的馬"。(Same as Steve Jobs)
Comments
Post a Comment