摘要
近年來,社群網路服務(Social Networking Services, 簡稱SNSs) 非常流行。為了參與線上的社交活動,使用者通常會把他們的個人資料、相片及影像等資訊上傳到網路。這可能會在無意間洩露了個人隱私-因為我們不知道除了自己的朋友外,還有誰會看到我們的資料。即使有些使用者不在社群網路上公開自己的個人資訊,有心人士還是有可能從他們的交友資訊或朋友對他們的描述中推測出使用者的性別、興趣、職業甚至姓名等等。
在本篇論文中,我們測量及分析在社群網路服務中使用者真實姓名被他人洩露的可能性。我們從國內最龐大的社群網路服務-無名小站-收集使用者資料並進行分析,發現無名小站所提供的「好友描述」功能可能導致使用者真實姓名在非自願的情況之下被洩露。在我們蒐集到的樣本中,有30% 使用者的全名以及72%使用者的名字(不包括姓)可以從本篇論文所提出的演算法推測而得,我們同時在本篇論文中討論防治此問題的幾種可行方案。
關鍵詞:網路測量、線上社群網路、網路隱私、資訊洩露
一、引言
社群網路服務(Social Networking Services, 簡稱SNSs)例如Myspace、Facebook、Flickr、Orkut以及Yahoo! 360等,被歸納為Web 2.0服務,它們提供平台讓使用者在網路上介紹自己、認識朋友以及跟其他使用者互動。這些服務近年來非常流行並吸引大量的使用者參與;但,隨著社群網路服務迅速成長【註15】,大量的個人資料也史無前例地被使用者上傳到網際網路。基於網際網路的開放性,已上傳的個人資料很可能就變成了全球分享的資料。因此,社群網路服務使用者的隱私問題如今已成為學術界關注的議題【註7】。
在網路上公開的個人資料很可能會被駭客或惡意使用者利用,例如使用在垃圾郵件(spamming)、網路釣魚(phishing)及惡意追蹤(stalking)等。一般來說,若一封郵件包含接收者的真實姓名,往往能提高它的可信程度,同時較不會遭垃圾郵件過濾器刪除。當使用者將他們的個人資料公開到網路上後,惡意攻擊者就可能會從社群網路服務中查詢到使用者的姓名、生日及職業等資料,再把這些個人資料應用在寄給受害者的詐騙信件或網頁裡。因為包含個人資料的詐騙信件更容易取得受害者的信任【註21】,加上使用者傾向在社群網路上公開個人資料,社群網路服務的普及可能會使網路詐騙的情況更加嚴重。
在本篇論文中,我們研究社群網路服務中非自願姓名洩露(involuntary name leakage)的程度及成因。我們以國內用戶數最多的社群網路服務—無名小站作為研究案例。雖然無名小站的使用者大部分都是匿名參與,我們的分析卻發現,在無名小站上許多使用者的真實姓名可以從朋友之間的相互描述推測而得。儘管使用者沒有在個人資料公開其真實姓名,有心人士還是可能從其朋友對於他(她)的描述中推測而得。
為了量化非自願姓名洩露的程度,我們由無名小站下載70餘萬使用者的個人資料與交友狀況為樣本,並提出一套演算法,根據使用者的朋友對他們的描述來推測其真實姓名。我們的結果顯示,在蒐集的樣本中,至少78%的使用者遭受非自願姓名洩露的風險。其中,38%使用者的全名(連名帶姓)遭受洩露可能,其餘的62%使用者的名字(不含姓)亦可能遭受洩露。我們同時分析非自願姓名洩露的原因,發現許多使用者習慣在網路上以真實姓名稱呼他們的朋友。針對這項問題,我們討論三個可能的解決方案,包含提供個人隱私性設定、提供瀏覽限制範圍設定以及取得使用者的確認。
接下來的部分,在第二節我們討論社群網路服務的相關研究,在第三節中我們說明資料收集的方法以及簡單分析蒐集到的資料。在第四節我們提出推測使用者真實姓名的方法以及分析結果;在第五節中,我們討論姓名洩露的成因及其可能引發的資安風險。最後,我們在第六節作出結論。
二、相關研究
社群網路服務近年的快速成長吸引了不少的學者以及媒體的注意【註9】,而社群網路服務也提供前所未有的機會讓研究者大規模地分析線上社群網路(online social network)的性質及其圖形結構(graph structure)。Ahn等研究者分析線上社群網路的結構,並找出真實社群網路(off-line social network)與線上社群網路之間的一致性【註2】。Alan等研究者對數個線上社群網路在固定時間點的圖型結構進行大規模分析,證明線上社群網路擁有真實社群網路的圖形特性【註16】。Kumar等研究者分析兩個線上社群網路的結構演化,發現了線上社群網路的高連結核心(highly-connective core)以及星形結構(star structure)【註15】。OMurchu等學者對於流行的線上社群及商業社群作出評價、分析及比較【註17】。
使用者在社群網路上的互動及相互關係亦吸引不少學者的關注。Boyd從人因(human factor)角度分析社群網路服務,發現社群網路服務的使用者彼此不需要認識或信任就可以互相設為朋友【註3】。此外,研究者也發現線上社群網路中使用者之間的連結關係比在真實社群網路中來得弱【註9】。
Gross等學者從Facebook.com網站收集4,000個學生的個人資料,並分析線上社群網路中個人隱私洩露的危險性。他們發現網路使用者普遍「慷慨地」提供個人資訊,只有極少數的使用者更改系統所提供的資料保密性設定【註9】。
三、資料收集
1. 無名小站
無名小站成立於1999年,現在由雅虎台灣所經營。它吸引了約392萬的使用者,是國內用戶數最多的社群網路服務。無名小站提供整合式的相簿、個人部落格、BBS系統(bulletin board system)、影音串流及留言板等服務。它提供的基本服務是免費的,但使用者可以選擇成為付費的「金卡VIP會員」或「銀卡VIP會員」以獲得更大的儲存空間以及更多的功能。免費使用者的好友名單上限人數為50人,而付費的使用者的好友人數上限分別是100人(銀卡)及500人(金卡)。
在無名小站中,使用者的朋友關係有兩種,分別是「加我好友」(incoming friends, 或連入朋友)及「我的好友」(outgoing friends, 或連出朋友)。若A設B為好友,則B為A的「我的好友」,而A為B的「加我好友」。在無名小站中,使用者設定其他使用者為朋友不需要經過該使用者的同意,亦即,A設B
為好友不需要經過B的同意。
2. 資料採集
我們撰寫一支網頁自動分析/下載程式(crawler)來抓取無名小站使用者的「名片」網頁(個人資訊)以及「好友」網頁(交友資訊),然後我們透過分析網頁HTML原始碼的方式來取得所需資訊。由於使用者個人資訊中大部分資料欄位都無格式限定(i.e., free-formed),我們利用關鍵字及範圍限定(limited range)來驗證它們的值。例如在驗證「體重」欄位時,我們會檢查欄位資料是否為數字並且介於10到300之間。對於無法驗證或未通過格式檢查的欄位資料我們都視它們為空值(等於使用者沒有填)。
我們首先從無名小站的主頁取得10個熱門的使用者帳號,從這些帳號開始,透過使用者之間的好友連結取得無名小站的社群網路。下載使用者資料時,程式也會從他們的好友名單取得其他使用者的帳號,如果發現未曾下載的帳號,程式就會把它們儲存到等候列表(waiting list)中。我們的程式會從等候列表隨機取得帳號,將之由列表中刪除,進行下一步的資料擷取,並持續資料擷取的動作直到等候列表清空為止。
表1 資料概況
從2007年9月到11月,我們共下載了766,972份使用者資料,約無名小站總用戶量的20%。因為其中有不少使用者只註冊帳戶卻沒有實際參與社交活動,我們只選擇其中的「有效使用者」,即同時最少有1個連入朋友和1個連出朋友的使用者,進行分析。在我們的樣本中,有效使用者的總數為592,548,約無名小站使用者數的15%,共包含7,619,212個朋友連結。【表1】是無名小站樣本的資料概況,每個使用者的平均朋友數目為11.5。
圖1 使用者性別及年齡分佈
圖2 使用者性別及學歷分佈
3. 使用者人口統計
在採集到的無名小站資料中,有28%的使用者是男性,51%的使用者是女性,剩餘的21%使用者沒有公開性別。從【圖1】中我們可以看到大部分的使用者(82%)年齡分佈在16至26歲之間。【圖2】是使用者的性別與學歷(樣本的34%),使用者公開的學歷大部分為高中職到大學。此外,93%有公開其職業的使用者(佔樣本的42%),宣稱他們的職業為學生。
(1) 自我資訊透露
自我透露(self-disclosure)是「告訴別人一些他們之前不知道的訊息,而這些訊息則成為了彼此共享的消息」【註13】。它的功能為加強人與人之間的瞭解、建立信任、強化人與人之間的關係以及促成朋友或愛情的關係【註11】。【圖3】呈現無名小站樣本中使用者自我資訊透露的狀況,幾乎每位使用者都會填寫暱稱(96%),性別(79%)跟生日(73%)也非常普遍的被公開。在其他生理相關的資訊中,有不少使用者公開血型跟身高(分別為53%與44%),體重卻是最少使用者公開的資訊(26%)。
圖3 使用者資訊透露情況
(2) 自我透露程度
我們定義自我透露程度(degree of self-disclosure, 簡稱DSD)來量化使用者的自我資訊透露。DSD的定義如下(對於每個使用者):
其中n為個人資料欄位的總數,Fi是一個布林值(boolean),記錄使用者的每一個欄位i是否公開。而Wi則是每一個欄位i的權重(weight),它的計算方法如下:
Ri為樣本中每個欄位i的平均自我資訊透露比例(average ratio of disclosure),它的計算方法是把整個樣本中,公開欄位i的使用者數目除以總使用者數目。例如,若1,000個使用者中,有100個填寫「體重」欄位,則體重欄位的Rw為100/1000 = 0.1。
在DSD的計算中,我們排除無法確認有效性的欄位,包含「暱稱」及「自我介紹」。此外由於不見得所有使用者都擁有「MSN帳號」、「Yahoo!帳號」以及「Skype帳號」等資訊,這些欄位也不列入DSD的計算。
圖4 使用者自我資訊透露程度的年齡分佈
圖5 使用者自我資訊透露程度的學歷分佈
(3) 自我透露程度分析
從【圖4】中我們可以看到使用者的自我透露程度(DSD)與其年齡以及性別的關係。使用者的年齡越大,自我透露的程度則會下降。普遍來說,男性使用者的自我透露程度比女性使用者的高,表示在無名小站中男性使用者與別人建立關係的動機比女性使用者的強。DSD在年齡為27歲以後的使用者群有稍為上昇的趨勢,這可能是因為這些使用者已進入社會,相較於年紀較輕的使用者有更強的動機去建立社交連結【註12】。
【圖5】描述DSD與使用者學歷的關係。自我透露程度較高的使用者,其學歷主要為高中到大學,而無名小站的使用者大部分為高中生及大學生,由此可知無名小站樣本中大部分使用者的自我透露程度都相對偏高。(原文刊載於《RUN!PC旗標資訊月刊》2008年2月號,經作者同意轉載;全文之參考文獻將於下期中同本文刊出)(待續)
留言列表