歡迎光臨
每天分享高質量文章

你天天看手機,手機也在看你

這裡有一份節目預告:

十一長假開始了

不管你是宅在家裡

奔波於旅游景點之間

還是很苦逼地攤在加班的地鐵上

你或許都需要讀點什麼


大資料(ID:hzdashuju)在長假期間

將推送6篇入門級科普,包括:

量子計算機 | 自動駕駛 | 資料與隱私

黃金比例 | AI與就業 | 資料科學職業

另外還為既聰明又努力的孩子們

準備了一份充電書單

等你來圍觀!

今天是我們一起充電的第1天

導讀:“當你看著因特網夠久時,因特網也會回看向你。”——改編自弗里德里克·尼采的名言,原文出自於尼采發表於1888年的著作《超越善惡》。

你在用計算機、手機或信用卡做的每一件事所產生的與你有關的資料幾乎都被仔細地收集、分析,並且永遠地儲存了起來,這些信息往往被賣給了你對其一無所知的機構。

在網上,我們進行搜索,購物,並且通過電影和電視節目進行娛樂。我們用郵件和短信,以及偶爾的語音電話與朋友及家人聯繫。利用Facebook與朋友及熟人保持聯繫,通過領英獲得可能的工作連接,也許還會用約會網站尋求愛戀。我們閱讀博客與推特的推送以及在線新聞來瞭解周邊的世界。我們在網上管理自己的錢財以及進行支付。

我們長期帶著手機活動,而手機一直知道我們的確切位置。

作者:布萊恩·柯尼漢

本文摘編自《普林斯頓計算機公開課》,如需轉載請聯繫我們

01 社交網絡

事實上,社交網絡的使用者自願的提供了大量的個人隱私以換取娛樂以及與其他人保持聯繫。

幾年前,我看到過有著類似內容的網帖,“在求職面試時,他們問我了一些個人簡歷以外的內容。他們在瀏覽我的Facebook主頁,這簡直駭人聽聞!Facebook上展示的是我的私生活,這和他們一點關係都沒有。

發表這樣的言論表現出一種令人痛心的幼稚和無辜,但是很多Facebook使用者都會有相同的震驚感,即使眾所周知雇主和大學招生辦公室會定期通過搜索引擎、社交網站和類似資源來更好的瞭解他們的申請者。

在美國,詢問求職者的年齡、人種、宗教、性取向、婚姻狀態和很多其他的個人信息都是違法的,但是在社交網絡上搜索這些,一切都在不聲不響中變的觸手可得。

幾乎從定義上來說,社交網絡站點都是觸及隱私問題的,因為他們搜集來很多有關使用者的信息,並且通過向廣告商出售這些信息獲利。在短時間內這些網站誕生了,並戲劇化地壯大。

Facebook創於2004年,目前號稱月活躍用戶超過17億,這超過了20%的世界人口。社交網絡用戶的增長趨勢如此之快,相關政策沒有時間餘地來仔細斟酌字句,旺盛的計算機系統也沒有餘裕進行悠閑地發展。

這導致的結果就是,每個社交網絡站點都遇到了泄露隱私信息的問題,這往往是由於網站的一些欠考慮的特征,以及由於頻繁更改的隱私設置和整個程式固有的軟體錯誤與資料泄漏,引起用戶混淆所致。

作為規模最大也最成功的一個社交網絡,Facebook出現的問題是最明顯的。一些問題的產生是由於Facebook為第三方提供了API,這些API用於編寫Facebook用戶在Facebook體系內使用的一些應用,這些軟體會以違反官方隱私政策的方式泄露隱私信息。當然,這些問題也不是Facebook所獨有的。

地理位置服務在手機顯示上顯示用戶的位置,這樣就比較容易和朋友私下見面,在玩基於地理定位的游戲也更加方便。如果知道潛在顧客的實際位置,定向投放廣告的效果更加顯著;當你正站在一家餐館門口時,相比你在報紙上看到該餐館的廣告,你對這家餐館的廣告作出回應的可能性更大。

在另一方面,當你意識到你的手機被用於跟蹤你,即使你在商店里也不例外時,你也會覺得這個世界是如此恐怖吧。不僅如此,商店正開始使用店內信標。如果你選擇加入系統,通常下載一個特定的應用,就代表你預設許可店家的跟蹤。

信標通過藍牙和你手機上的應用通信,監控你在店內的位置,併在你看起來對某些特定商品有興趣時向你推送優惠信息。取用一個製作信標系統的公司的話,“信標正引領一場室內營銷革命。”

位置隱私指個人將所在位置信息作為個人隱私的權利。事實上,位置隱私受到諸如信用卡、高速公路上的收費系統和公共交通系統,當然還有手機的危害。想要避免留下你曾經到過哪些地方的蹤跡越來越難了。

在這方面,手機應用是最嚴重的“侵權者”,經常申請獲得手機上你的幾乎所有信息,包括通話資料,物理位置,等等。然而,一個手電筒app真的需要我的位置,聯繫人和通話記錄嗎?

在很長一段時間里,情報機構都以擅長通過分析通信物件獲取大量信息而為人所知。在這個過程中,他們甚至不需要知道雙方交談了什麼。這也是為什麼美國國家安全域性一直在收集美國境內撥出所有電話的元資料,這些資料包括電話號碼,何時撥出及通話時長。

最初的信息收集是作為2001年9月11日世貿中心恐怖襲擊的應對措施獲得授權的,然而直到2013年通過斯諾登的檔案揭露之前,沒有人意識到信息收集的範圍是如此之廣。

即使說接受了這個事實,並且聲稱“這隻是元資料,不是對話內容”,元資料暴露的內容可能異常的多。在2013年10月的參議院司法委員會聽證會的證詞,Ed Felten給出了幾個假設的情景,在這些情景中,元資料可以使私人故事完全公開:

親密關係中的兩個人常常在深夜打電話。如果這些電話不再頻繁,甚至不再互相聯繫,那麼這兩個人的關係可能已經結束了。當一段新的關係開始時,元資料同樣可以告訴我們。換句話說,一年聯繫一次的朋友肯定不如每周都聯繫的朋友來得那麼親密。

想想下麵這個假設的例子:一個年輕的女人和她的婦科醫生打了電話,然後立刻給她的母親打了電話。之後她給一個男性打了電話,在過去的幾個月,她經常在晚上11點之後和這個男性通過電話聯繫,接著她給一個提供流產手術的計劃生育中心打了電話。如果僅僅通過檢驗單一的電話通話記錄,類似的故事線不會這麼顯而易見。

同樣的,雖然元資料顯示給賭註服務處打一個電話可能意味著監視標的準備下註,對於長期通話記錄元資料進行分析則可能提示標的有著賭博問題,尤其是當通話記錄顯示了一些與發行日貸款服務的通話。

如果一個政府雇員突然和與新聞機構聯繫在一起的一些電話號碼聯繫,接著就聯繫ACLU(美國公民自由聯盟),然後是刑事辯護律師,那麼這個人的身份可以推斷為新聞機構潛在的線人或告密者。

社交網絡中的顯性和隱性連接也是如此。當人們明確地提供鏈接時,在人們之間建立聯繫要容易得多。例如,Facebook的“喜歡”,可以用來準確預測性別、種族背景、性取向和政治傾向等特征,對於這些特征的推斷可以通過社交網絡用戶免費提供的信息進行。

Facebook,Twitter、領英和其他網絡的點贊按鈕,使得跟蹤和關聯更加容易。看上去僅僅是頁面上出現的社交標誌,它實際上是一個可見而非隱藏的廣告形象,用於確認你在看這個頁面,它給了供應商一個發送cookie的機會。如果單擊它,這將會發回有關你的偏好的信息。

即使不是這些網站用戶的個人信息也會通過社交網絡和其他站點泄露。例如我收到了來自非常要好朋友的一份電子派對邀請“e-vite”,即使說我沒有回應這份邀請,也沒有許可他們使用我的地址,經營邀請業務的公司通過這個方法即可得到確認屬於我的電子郵箱地址。

如果我的朋友在Facebook照片中標記了我,我的隱私也在未經許可的情況下受到了侵犯。Facebook提供的人臉識別功能,這讓朋友們可以更方便地互相標記,同時其初始設置允許在未經被標記者許可的情況下進行。

這意味著,有著較大使用人群的系統都可以輕易地繪製出該用戶的社交圖像,通過圖像展示直接用戶之間的互動,同時可以包括那些在未經允許,甚至不知情的情況下間接地被介紹進來的人。在以上這些情形中,個人無法提前避免情況的發生了,也很難將已有的信息移除。

我不使用Facebook,因此當我發現我“有”一個Facebook主頁時非常驚訝。顯然,這個主頁是根據維基百科頁面自動生成的。

請仔細想想你如何向這個世界介紹你自己。在發郵件,網貼或是發推之前,請暫停一下,問自己,如果你的陳述句或是圖像出現在《紐約時報》頭版或是成為電視新聞中的主題故事時,你是否會感到任何不適。你的郵件,發出的短信和推特都很可能被永久儲存在網路上,甚至可能在數年之後重新出現在一些令人尷尬的內容里。

02 資料挖掘與聚合

因特網和萬維網已經徹底改變了人們收集、儲存和展現信息的方式。搜索引擎和資料庫對每個人都具有不可估量的價值。很難想象之前沒有因特網的時代我們是怎麼過來的。海量的資料(“大資料”)為語音識別、語言翻譯、信用卡防偽檢測、推薦系統、實時交通信息,以及很多其他的無價服務提供了大量原材料。 

對於網上資料的增生也有利弊兩面,尤其是那些可能會過多暴露我們的信息如果傳出去,會令人相當不自在。 

有些信息明顯就是公開的,還有些信息收集起來就是為了供人搜索和索引的。如果我寫了一個網頁,希望大家都能看到,假設就是這本書的頁面吧,那麼我肯定願意人們通過搜索引擎可以輕易發現它。 

那怎麼看待公共檔案呢?法律上,某些信息屬於任何人通過申請都可以查閱的。在美國,公共檔案包括可以公開的庭審記錄、抵押檔案、房價、地方房產稅、出生和死亡記錄、結婚證、政治捐助,等等。(查閱出生記錄通常是為了知道“媽媽婚前的姓氏”,以便輔助確認一個人的身份。)

很早以前,要知道這些信息必須不辭勞苦,親自前往當地政府駐地查閱。因此,雖然這些檔案名義上是“公開”的,但不付出點代價也不可能看到。誰要想獲得這些資料,就得親自跑一趟,或許需要出示身份證件,要想複製一份可能還得花點錢。

今天,如果這些資料上了網,我坐在自己家裡就可以輕輕鬆松查閱這些公共檔案。我甚至可以開個公司,收集彙總這些信息,然後與其他信息整合起來。

比如很多人都知道的zillow.com,就整合了地圖、房地產廣告、有關財產和交易的公開資料,通過地圖來直觀地顯示房價。如果你想買賣房屋,這是有價值的服務,否則可能會被視為侵擾。通過查詢聯邦選舉委員會(Federal Election Commission,簡稱 FEC)的選舉捐款資料庫(fec.gov),可以知道哪位候選人得到哪些朋友和要人的捐贈,或許可以查到他們的家庭住址等信息。

在FEC提供信息的基礎上,fundrace.huffingtonpost.com在一張地圖上給我們標出了這些人的名字、地址、職業。這種做法擊中了公眾知情權和個人隱私權之間來之不易的平衡。 

什麼樣的信息才應該讓人如此輕而易舉地得到?這個問題很難回答。政治捐款應該公開,但門牌號碼可能就應該稍加隱藏。包含美國社會保險號等個人身份識別信息的公共檔案似乎不該放在網上,因為這就給盜用別人身份打開了方便之門。

逮捕記錄和照片有時會公佈,有些網站會發表這些信息,他們的商業樣式就是個人為其付款才能從網站上撤下照片!可當前的法律無法完全阻止這種信息的公佈,而這種信息一旦上網,就覆水難收了。歐盟的“遺忘權利”法律可以使這些信息難以尋找,但該法律仍然是不完美的工具。

隨著在多個各不相關的來源都能查到同一類信息,這個問題就變得愈發嚴重了。比如,很多提供Web服務的公司都有大量的客戶信息。搜索引擎會記錄所有查詢,也包括查詢人的許多信息。最低限度也會記錄查詢人的IP地址,還有用戶之前訪問過網站時儲存在計算機上的cookie 。 

2006年8月, AOL出於好意而公開了一大批查詢日誌樣本,供人研究。這些日誌涉及三個多月以來65萬用戶的2000萬查詢,已經做了匿名處理,因此從理論上講,不存在任何可以用於辨識個人身份的信息。

儘管是善意之舉,但人們也很快就發現這些日誌在實踐中不會像AOL想象的那樣做到完全匿名。每個用戶在查詢時都會被賦予一個隨機但唯一的識別符號,有了這個識別符號,就很容易知道同一個人都查詢過什麼內容。進而,確定一些人的身份也就成為可能。

因為不少人都搜索過自己名字、地址、社會保險號以及其他個人信息,通過搜索相關性分析暴露出來的信息比AOL認為的多,也肯定比原始用戶自己想到的多得多。AOL很快從自己網站上刪除了這些日誌,當然為時已晚。這些資料早已傳遍世界各地了。 

查詢日誌對經營企業和改進服務有價值,但很明顯其中可能包含敏感的個人信息。搜索引擎應該把查詢日誌保留多長時間?這裡有個矛盾:考慮個人隱私則保留的時間應該短,而考慮執法目的則保留的時間應該長。

為了達到一定的匿名程度,這些公司內部該對資料進行怎樣的處理?雖然他們全都聲稱會刪除每條查詢對應的部分IP地址信息(一般是最右邊的位元組),但僅僅如此似乎還不夠,還達不到反識別用戶的目的。

政府機關查詢這些信息的權限有多大?打一次官司會查詢多少信息?所有這些問題都沒有明確的答案。AOL公佈的查詢日誌中有些是很嚇人的,比如有人查詢怎麼殺死自己的配偶。因此,有限度地向司法機關開放這些資料是合理的,但問題是這個限度應該放多大,很難說清楚。 

AOL事件揭示了一個廣泛存在的問題,即真正做到資料匿名化是非常困難的。刪除身份識別信息可以降低識別度,單就特定的資料而言,確實無法定位到用戶,因此可以說它是無害的。但現實當中信息的來源是多方面的,把多個來源的信息組合起來則很可能挖掘出更多身份特征。而且某些來源的信息甚至連提供者自己都不知道,這些信息將來也未必還能找得到。 

有關這種再識別問題,下麵可以給大家講一個真實的案例。1997年,當時在MIT讀博士的拉坦婭·斯威尼分析了馬薩諸塞州135000名雇員的體檢記錄,這些記錄都做了反識別處理。資料來源是該州的保險委員會,可用於研究目的,甚至被賣給了私人公司。每條體檢記錄中除了大量其他信息外,都包括生日、性別和郵政編碼。

斯威尼發現有6個人的生日都是1945年7月31日,其中3個男性,而只有1人住在坎布里奇。把這些信息和公開的選民登記名單一對照,她便知道了這個人就是時任州長威廉·韋爾德。

他們瞭解的不夠多,所以沒有人可以發現這些秘密,這種想法很誘人。然而,很可能敵人掌握的信息之多已經超出了你想象,即使他們現在還不知道那麼多信息,將來也有可能知道。

關於作者:布萊恩 W.柯尼漢,世界頂尖計算機科學家,普林斯頓大學教授,曾任職於貝爾實驗室計算機科學研究中心。他與C語言之父Dennis Ritchie共同撰寫的《C程式設計語言》是編程語言書籍中的典範,對世界各地的程式員產生了深遠的影響。


本文摘編自《普林斯頓計算機公開課》,經出版方授權發佈。

延伸閱讀《普林斯頓計算機公開課

點擊上圖瞭解及購買

轉載請聯繫微信:togo-maruko


推薦語:智慧新時代不可不知的計算常識!人人都能讀懂的數字生活必修課!


更多精彩


在公眾號後臺對話框輸入以下關鍵詞

查看更多優質內容!


PPT | 報告 | 讀書 | 書單

Python | 機器學習 | 深度學習 | 神經網絡

區塊鏈 | 揭秘 | 乾貨 | 數學

猜你想看

Q: 還敢在社交網絡中表達真實的自己嗎

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯繫:baiyu@hzbook.com

更多精彩,請在後臺點擊“歷史文章”查看

點擊閱讀原文,瞭解更多

赞(0)

分享創造快樂