一级黄片免费在线播放_国产黄片在线免费看_日本8X无码毛片_日韩无码一级簧片_中日韩一级免费黄片_www.黄色视频.com_亚洲免费成人电影大全_韩国一级黄片在线免费看_一级免费黄片视频

羅戈網(wǎng)
搜  索
登陸成功

登陸成功

積分  

中通帳號安全實(shí)踐

[羅戈導(dǎo)讀]帳號風(fēng)控主要包括三個模塊:設(shè)備指紋、異地登錄檢測、用戶登錄行為分析。設(shè)備指紋模塊主要用于對用戶設(shè)備進(jìn)行跟蹤,檢驗(yàn)用戶是否在其常用設(shè)備上登錄。異地登錄檢測模塊用來判斷用戶是否在其常在地登錄,這里我們對用戶登錄地點(diǎn)進(jìn)行精細(xì)分析以便作為帳號安全判斷的重要參考依據(jù)。


隨著信息技術(shù)的高速發(fā)展,信息安全問題已經(jīng)成為最受關(guān)注的焦點(diǎn)之一,而帳號安全又是引發(fā)企業(yè)安全問題的起始點(diǎn),往往危害巨大。中通作為一家集快遞、物流、電商等業(yè)務(wù)于一體的大型集團(tuán)公司,在內(nèi)部,每天有幾十萬員工在使用各類信息系統(tǒng), 帳號管理難度非常大,存在大量的帳號違規(guī)行為,如帳號共用、混用、借用等,特別是部分高權(quán)限的用戶帳號,一旦發(fā)生意外可能導(dǎo)致不可估量的損失。在外部,帳號安全領(lǐng)域的問題也頻頻發(fā)生,比如帳號爆破、撞庫、帳號被盜、弱密碼等,這些都時刻要求我們建立一個更加可靠的帳號安全體系。 

帳號登錄特點(diǎn)



中通帳號登錄的方式相對豐富,帳號登錄設(shè)備類型即為常見的終端(見圖1), 內(nèi)部不同的應(yīng)用允許登錄的方式可能不同。


圖1.登陸方式和設(shè)備類型


下面簡單介紹其中幾種登錄方式:


  • 靜態(tài)密碼登錄:內(nèi)部僅少量特殊應(yīng)用允許使用靜態(tài)密碼登錄。

  • 數(shù)字動態(tài)碼登錄: 內(nèi)部全部應(yīng)用允許使用中通寶盒動態(tài)碼登錄。

  • session登錄: web應(yīng)用在sso已登錄情況下的直接通過。

  • 二維碼/推送登錄: web以及原生應(yīng)用使用中通寶盒登錄。


終端設(shè)備類型是常見的四種: web、iOS、Android和windows客戶端,內(nèi)部部分應(yīng)用提供windows客戶端。

帳號風(fēng)控架構(gòu)


帳號風(fēng)控主要包括三個模塊(如圖2所示):設(shè)備指紋、異地登錄檢測、用戶登錄行為分析。設(shè)備指紋模塊主要用于對用戶設(shè)備進(jìn)行跟蹤,檢驗(yàn)用戶是否在其常用設(shè)備上登錄。異地登錄檢測模塊用來判斷用戶是否在其常在地登錄,這里我們對用戶登錄地點(diǎn)進(jìn)行精細(xì)分析以便作為帳號安全判斷的重要參考依據(jù)。用戶登錄行為分析模塊主要用來做用戶帳號登錄畫像以識別異常登錄情形。


圖2.帳號風(fēng)控模塊


3.1 設(shè)備指紋模塊


設(shè)備指紋作為用戶識別的一種技術(shù)手段已有很長的一段發(fā)展歷史,從獲取數(shù)據(jù)的手段來說主要包括主動式、被動式和混合的方式。


主動式的方法是通過SDK(App)/JS主動收集設(shè)備特征信息,根據(jù)算法生成唯一的設(shè)備指紋ID。這種方式的優(yōu)點(diǎn)是準(zhǔn)確率相對較高,但因隱私和安全性而受限制,而且隨著時間的推移,在數(shù)據(jù)隱私安全保護(hù)越來越嚴(yán)格的大趨勢下限制可能會越來越多。該方式的另一個缺點(diǎn)是不能跨app和瀏覽器識別,而且相關(guān)設(shè)備數(shù)據(jù)易被篡改。


被動式的方法是基于通信OSI協(xié)議棧、網(wǎng)絡(luò)狀態(tài)特征等識別(數(shù)據(jù)報(bào)文),結(jié)合機(jī)器學(xué)習(xí)算法來對設(shè)備進(jìn)行跟蹤和標(biāo)記。該方式僅收集用戶允許的公開信息,存在技術(shù)壁壘,部分領(lǐng)域準(zhǔn)確率較高,但從業(yè)界實(shí)踐來看,其準(zhǔn)確度受到時間維度限制。


混合式的方法在識別率、應(yīng)用場景和對抗性三方面平衡了主動式和被動式的方法。


由于登錄設(shè)備類型不同,所以相關(guān)設(shè)備指紋采集維度也各不相同,下面對瀏覽器、iOS、Android類型分別闡述。圖3展示了瀏覽器相關(guān)追蹤技術(shù)的歷史發(fā)展過程。


圖3. 瀏覽器指紋技術(shù)


1.0時代核心技術(shù)是服務(wù)器在客戶端設(shè)置標(biāo)識。evercookie將cookie等信息通過多種機(jī)制保存到系統(tǒng)多個地方,即使用戶清除某處的cookie,依然能夠獲取其他地方的數(shù)據(jù)從而進(jìn)行恢復(fù)。





2.5 時代增加了os和硬件級的特征,這類特征在跨瀏覽器上更可靠穩(wěn)定。比如Graphic Card、CPU、Audio Context等。值得一提的是HTML5 AudioContext API可提供一個音頻播放的實(shí)時頻域和時域分析來創(chuàng)建音頻可視化。方法如下(如圖4):首先用OscilatorNode生成音頻信息流(三角波),AnalyserNode進(jìn)行FFT變換,轉(zhuǎn)換成頻域,計(jì)算SHA1值作為指紋,音頻輸出到音頻設(shè)備之前進(jìn)行清除,用戶無感知;然后用OscilatorNode生成音頻信息流(正弦波)DynamicsCompressorNode(調(diào)節(jié)聲音信號處理模塊)進(jìn)行動態(tài)壓縮處理,計(jì)算MD5值。和canvas原理很相似,頻域在不同瀏覽器中是不同的,該特征受到瀏覽器的影響因而不能完全反映出聲卡特征,適用于單瀏覽器指紋;但峰值和它們對應(yīng)的頻率,在跨瀏覽器上是相對穩(wěn)定的。然后將峰值和對應(yīng)的頻率映射成一個列表來作為瀏覽器特征。事實(shí)上我們在查找設(shè)備指紋相關(guān)專利的時候的確也有利用audio做設(shè)備指紋的。


圖4. AudioContext指紋


3.0 時代UnifyID從用戶無意識的日常行為中收集數(shù)據(jù),包括走路的方式、所在的地方、周圍的設(shè)備等,結(jié)合機(jī)器學(xué)習(xí)方法,提取出每個人獨(dú)一無二的特征進(jìn)行身份識別,實(shí)現(xiàn)安全性和用戶體驗(yàn)的平衡。


在web端我們結(jié)合了1.0-2.5時代的特點(diǎn),基于Fingerprintjs2利用js采取多維度的瀏覽器設(shè)備數(shù)據(jù),如OS信息、Platform、Timezone、Language、Screen_x、Screen_y、位置信息、瀏覽器WebGL(Hash后)、EverCookie 、Java_Enabled、FileSystem_Access、Popup_blocker(是否開啟窗口攔截器)、User-agent、Plugins Count、Cookie Enabled、Canvas、Plugins and plugins version等信息。


在iOS端我們采集了MAC、IDFA(identifier For Identifier)、IDFV(identifier For Vendor)等信息。


在Android端我們采集了Deviceid(Android系統(tǒng)為開發(fā)者提供的用于標(biāo)識手機(jī)設(shè)備的串號,根據(jù)不同的手機(jī)設(shè)備返回IMEI,MEID或者ESN碼)、IMEI (國際移動設(shè)備識別碼)、MEID/ESN (CDMA)、MAC ADDRESS(wifi or 藍(lán)牙)、Sim Serial Number(ICCID)、IMSI(國際移動用戶識別碼)、ANDROID_ID等信息。值得一提的是仍然有方法可以拿到端上的MAC地址,如果能夠拿到MAC地址則可以將其作為一個非常穩(wěn)定的信息。


Windows客戶端由于是自有的客戶端,我們會采集內(nèi)部生成的唯一標(biāo)識符。


我們會在用戶初始登錄的時候在多個位置植入一個唯一標(biāo)識符,后面用戶實(shí)時登錄的時候我們會去做唯一標(biāo)識符匹配,如果匹配成功則目標(biāo)設(shè)備選取成功;否則我們要去用戶歷史設(shè)備指紋庫去匹配相關(guān)信息以召回相關(guān)指紋信息,由于相關(guān)維度信息變動可能頻繁,我們利用一種指紋相似性模型計(jì)算相似度程度是否大于閾值(具體流程見圖5)。


  圖5. 設(shè)備指紋匹配流程


下面介紹指紋相似性模型離線生成計(jì)算的算法,主要基于局部敏感哈希(Locality Sensitive Hashing,LSH)算法, 其是谷歌用來衡量文本相似度的一種算法。它的主要作用就是從海量的數(shù)據(jù)中挖掘出相似的數(shù)據(jù),可以具體應(yīng)用到文本相似度檢測、網(wǎng)頁搜索等領(lǐng)域,由于其對局部的變動不敏感所以可以用來應(yīng)對設(shè)備維度的微小變化而保持較小變動(某種程度上這也是個文本相似度檢測的問題,采集的數(shù)據(jù)維度變動前后文本相似性)。


圖6. simhash算法原理


算法的具體原理可以參考谷歌的原始論文,這里我們將瀏覽器指紋采集的各個維度看做feature,然后根據(jù)各個feature的重要性賦予weight 最后生成fingerprint。算法結(jié)果的穩(wěn)定性和weight關(guān)聯(lián)很大,weight越大的變動對最終的算法結(jié)果的影響越大。按照作者Charikar在論文中闡述的,64位simhash,海明距離在3以內(nèi)的文本都可以認(rèn)為是近重復(fù)文本。當(dāng)然,具體數(shù)值可以結(jié)合具體業(yè)務(wù)以及經(jīng)驗(yàn)值來確定。


3.2 用戶異地登錄檢測模塊


用戶異地登錄的檢測基于用戶常在地位置的計(jì)算,然后每次實(shí)時和其常在地比較,常在地位置的計(jì)算可以歸為地理位置聚類問題。目前聚類的方法很多,我們用戶常在地檢測主要選取了基于密度的DBSCAN算法和基于劃分的Kmeans算法結(jié)合來處理。


1. 基于劃分的Kmeans算法


一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點(diǎn)不一定是聚類中的一個點(diǎn)。其目的是使各個簇(共k個)中的數(shù)據(jù)點(diǎn)與所在簇質(zhì)心的誤差平方和SSE(Sum of Squared Error)達(dá)到最小,這也是評價Kmeans算法最后聚類效果的評價標(biāo)準(zhǔn)。 


2. 基于密度的DBSCAN算法


全稱Density-based spatial clustering of applications with noise, DBSCAN是具有過濾噪聲作用的基于密度的空間聚類算法,可以根據(jù)用戶指定的參數(shù)radius(鄰域半徑)和minPts(密度域值),對數(shù)據(jù)集合進(jìn)行自動聚類。其最大的特點(diǎn)就是算法本身可以自己決定聚類的數(shù)量而不像Kmeans算法需要人工指定聚類的數(shù)目,可以發(fā)現(xiàn)任意形狀的類簇,同時可以過濾噪聲點(diǎn)和低密度區(qū)域。


在DBSCAN算法中將數(shù)據(jù)點(diǎn)分為一下三類:


  • 核心點(diǎn):在半徑eps內(nèi)含有超過minPts數(shù)目的點(diǎn) 

  • 邊界點(diǎn):在半徑eps內(nèi)點(diǎn)的數(shù)量小于minPts,但是落在核心點(diǎn)的鄰域內(nèi) 

  • 噪音點(diǎn):既不是核心點(diǎn)也不是邊界點(diǎn)的點(diǎn) 


這里有兩個模型超參數(shù),一個是半徑eps,另一個是指定的數(shù)目minPts。


算法的過程描述如下: 


輸入:初始數(shù)據(jù)集合、鄰域半徑(radius)和密度域值(minPts)

建立聚類集合:分別以每個對象為考察對象判斷其是否為核心對象,如果是核心對象則建立聚類集合

合并集合:根據(jù)密度相連的原則合并聚類集合

輸出:輸出整理合并達(dá)到密度域值要求的集合 


由于Kmeans算法對數(shù)據(jù)噪聲特別敏感,而DBSCAN算法輸出的結(jié)果是一個個類簇,因此可以根據(jù)用戶過去一段時間登錄或者主動上報(bào)地理位置時采集的經(jīng)緯度信息,先應(yīng)用DBSCAN算法計(jì)算出用戶數(shù)據(jù)的相關(guān)類簇,然后在此基礎(chǔ)上對形成的一個個類簇再次應(yīng)用Kmeans(設(shè)k=1)找出類簇中心,作為最終的用戶常在地。圖7即為根據(jù)該算法過程得到的結(jié)果,圖中紅色的小點(diǎn)是用戶歷史地理位置,其構(gòu)成一個集群(DBSCAN算法已過濾掉偶然在某地登錄時產(chǎn)生的噪音點(diǎn)),黑色五角星位置是Kmeans算法在集群上進(jìn)行k=1的聚類時得到的中心,其代表該集群,即為一個用戶常在登錄地理位置,同一個用戶可能有多個登錄常在地。


圖7. 某用戶常在地結(jié)果展示


3.3 用戶登錄行為分析模塊


用戶登錄行為分析模塊,我們著眼于用戶行為的模式,然后應(yīng)用算法和統(tǒng)計(jì)分析來檢測那些模式中有意義的登錄異常,目前我們分析模塊主要包括用戶登錄頻率、ip登錄頻率、是否換手機(jī)號、是否修改密碼、登錄時間和方式的分布、登錄失敗次數(shù)等信息(如圖8所示)。


我們會給予每個維度一定分?jǐn)?shù),當(dāng)其偏離該用戶歷史行為模式的時候我們會基于其相應(yīng)懲罰。用戶歷史行為特征我們通過spark離線計(jì)算出來存儲到redis緩存以做相應(yīng)實(shí)時計(jì)算。


圖8. 用戶行為分析維度信息



我們工程實(shí)踐分為兩部分,實(shí)時和離線計(jì)算,主要的計(jì)算架構(gòu)如圖9所示。


實(shí)時部分用戶登錄信息數(shù)據(jù)實(shí)時寫入kafka以待帳號風(fēng)控檢測,經(jīng)過spark streaming實(shí)時計(jì)算用戶設(shè)備指紋維度、異地登錄檢測維度、用戶行為分析維度的得分,然后返回最終風(fēng)控結(jié)果。


離線部分會實(shí)時用flume從kafka中把所有登錄信息拉去到hdfs以備離線分析計(jì)算使用。


利用spark、hive進(jìn)行相關(guān)特征和模型的計(jì)算存到mysql、redis、hive中以供后續(xù)分析。jupyter notebook、zepplin、hue等提供了方便的交互式分析工具,可以更方便的探索數(shù)據(jù)、發(fā)現(xiàn)異常。另外由于離線特征計(jì)算需要每隔一段時間更新一次,且我們的場景相對簡單,采用了azkaban作為調(diào)度工具。


圖9. 計(jì)算架構(gòu)圖


總結(jié)和展望

總體來說,我們帳號風(fēng)控綜合了多個維度信息,利用信息采集、大數(shù)據(jù)和算法的優(yōu)勢保障用戶帳號安全。 值得一提的是在做該項(xiàng)目時,我們利用過機(jī)器學(xué)習(xí)技術(shù)進(jìn)行異常流量檢測,而且取得了不錯的結(jié)果,由于考慮到異常流量對我們的最終的帳號安全沒有影響且缺乏真實(shí)環(huán)境中的標(biāo)簽數(shù)據(jù),故而這項(xiàng)工作會單獨(dú)進(jìn)行深入研究,主要思路有傳統(tǒng)的機(jī)器學(xué)習(xí)方式和深度學(xué)習(xí)的方式。


傳統(tǒng)的機(jī)器學(xué)習(xí)方式會通過特征工程的方式提取一些特征,這里應(yīng)用到異常流量檢測里面有基于char的n-gram、tf-idf等,然后將特征放入傳統(tǒng)機(jī)器學(xué)習(xí)模型比如LR、Xgboost、SVM以及一些組合模型中,利用這種思路我們在搜集到的100w+(4w+的黑樣本)的異常流量樣本中得到99.9%的測試準(zhǔn)確率和0.92+的auc,但由于眾所周知的泛化原因,該成果在真實(shí)環(huán)境的表現(xiàn)可能沒有這么好,因?yàn)閮烧叩臄?shù)據(jù)分布可能是有差異的。深度學(xué)習(xí)的思路我們也嘗試了CNN和RNN的模型。CNN做異常流量分析思路來源于CNN做文本分類。RNN做異常流量檢測的思路主要是可以把異常流量的payload看成一個字符序列,RNN天然適合對序列建模。我們初步實(shí)驗(yàn)結(jié)果是深度學(xué)習(xí)模型沒有傳統(tǒng)機(jī)器學(xué)習(xí)模型效果好,當(dāng)然模型還是可以調(diào)優(yōu)的。安全領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)很多場景下也需要有標(biāo)簽數(shù)據(jù)的支持,怎么擺脫對大量標(biāo)簽數(shù)據(jù)的依賴是機(jī)器學(xué)習(xí)領(lǐng)域正在熱門研究的問題,期望這方面我們會有越來越多的突破。


參考資料:

  • Charikar(2002).Similarity estimation techniques from rounding algorithms.

  • M Ester.A density-based algorithm for discovering clusters a density-based algorithm for discovering clusters in large spatial databases with noise

  • Yoon Kim. Convolutional Neural Networks for Sentence Classification



免責(zé)聲明:羅戈網(wǎng)對轉(zhuǎn)載、分享、陳述、觀點(diǎn)、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權(quán)歸原作者。如無意中侵犯了您的版權(quán),請第一時間聯(lián)系,核實(shí)后,我們將立即更正或刪除有關(guān)內(nèi)容,謝謝!
上一篇:智能預(yù)測技術(shù)怎樣做的?看看京東的實(shí)踐!
下一篇:細(xì)說順豐智慧物流黑科技:IoT機(jī)器人、人工智能、智慧地圖
羅戈訂閱
周報(bào)
1元 2元 5元 10元

感謝您的打賞

登錄后才能發(fā)表評論

登錄

相關(guān)文章

2025-03-05
2025-02-25
2025-02-19
2025-02-17
2025-02-10
2025-02-06
活動/直播 更多

倉庫管理實(shí)戰(zhàn)力最全超值線上課程

  • 時間:2024-09-01 ~ 2025-04-25
  • 主辦方:葉劍
  • 協(xié)辦方:羅戈知識

¥:1500.0元起

報(bào)告 更多

2025年2月物流行業(yè)月報(bào)-個人版

  • 作者:羅戈研究

¥:9.9元