一级黄片免费在线播放_国产黄片在线免费看_日本8X无码毛片_日韩无码一级簧片_中日韩一级免费黄片_www.黄色视频.com_亚洲免费成人电影大全_韩国一级黄片在线免费看_一级免费黄片视频

羅戈網
搜  索
登陸成功

登陸成功

積分  

數據分析經典模型——貝葉斯理論,10分鐘講清楚

[羅戈導讀]貝葉斯理論,10分鐘講清楚

說到貝葉斯模型,就算不是搞數據分析的人應該都會有所耳聞,因為它的應用范圍實在是太廣了,大數據、機器學習、數據挖掘、數據分析等領域幾乎都能夠找到貝葉斯模型的影子,甚至在金融投資、日常生活中我們都會用到,但是卻很少有人真正理解這個模型。

什么是貝葉斯模型

在介紹貝葉斯模型之前,我們先看一個經典的貝葉斯數據挖掘案例:

如果你在一家購房機構上班,今天有8個客戶來跟你進行了購房溝通,最終你將這8個客戶的信息錄入了系統之中:

此時又有一個客戶走了進來,經過交流你得到了這個客戶的信息:

那么你是否能夠判斷出這位客戶會不會買你的房子呢?

如果你沒有接觸過貝葉斯理論,你就會想,原來的8個客戶只有3個買房了,5個沒有買房,那么新來的這個客戶買房的意愿應該也只有3/8 。

這代表了傳統的頻率主義理論,就跟拋硬幣一樣,拋了100次,50次都是正面,那么就可以得出硬幣正面朝上的概率永遠是50%,這個數值是固定不會改變的。例子里的8個客戶就相當于8次重復試驗,其結果基本上代表了之后所有重復試驗的結果,也就是之后所有客戶買房的幾率基本都是3/8 。

但此時你又覺得似乎有些不對,不同的客戶有著不同的條件,其買房概率是不相同的,怎么能用一個趨向結果代表所有的客戶呢?

對了!這就是貝葉斯理論的思想,簡單點講就是要在已知條件的前提下,先設定一個假設,然后通過先驗實驗來更新這個概率,每個不同的實驗都會帶來不同的概率,這就是貝葉斯公式:

按照這個公式,我們就可以完美解決上面的這個例子:

先找出“年齡”、“性別”、“收入”、“婚姻狀況”這四個維度中買房和不買房的概率:

年齡

P(b1|a1) :30-40買房的概率是1/3

P(b1|a2) :30-40沒買房的概率是2/5

收入

P(b2|a1) --- 20-40買房的概率是2/3

P(b2|a2) --- 20-40沒買房的概率是2/5

婚姻狀況

P(b3|a1) --- 未婚買房的概率是1/3

P(b3|a2) --- 未婚沒買房的概率是3/5

性別:

P(b4|a1) --- 女性買房的概率是1/3

P(b4|a2) --- 女性沒買房的概率是1/5

OK,現在將所有的數據代入到貝葉斯公式中整合:

新用戶買房的統計概率為P(b|a1)P(a1)=0.33*0.66*0.33*0.33*3/8=0.0089

新用戶不會買房的統計概率為P(b|a2)P(a2)=0.4*0.4*0.6*0.2*5/8=0.012

所以可以得出結論:新用戶不買房的概率更大一些。

怎么做貝葉斯模型

貝葉斯的工作流程可以分為三個階段進行,分別是準備階段、分類器訓練階段和應用階段。

1、準備階段:

這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,去除高度相關性的屬性,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。

這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。(相當于上述例子中那8個客戶的信息,這個步驟是需要人工進行整合的)

2、分類器訓練階段:

這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。

這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。

3、應用階段:

這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。

這一階段也是機械性階段,由程序完成。

貝葉斯有什么優缺點?

貝葉斯模型的優點有4個,分別是:

  1. 貝葉斯模型發源于古典數學理論,有穩定的分類效率。

  2. 對缺失數據不太敏感,算法也比較簡單,常用于文本分類。

  3. 分類準確度高,速度快。

  4. 對小規模的數據表現很好,能處理多分類任務,適合增量式訓練,當數據量超出內存時,我們可以一批批的去增量訓練

貝葉斯模型的缺點有3個,分別是:

  1. 對訓練數據的依賴性很強,如果訓練數據誤差較大,那么預測出來的效果就會不佳。

  2. 在實際中,屬性個數比較多或者屬性之間相關性較大時,分類效果不好。

  3. 需要知道先驗概率,且先驗概率很多時候是基于假設或者已有的訓練數據所得的,這在某些時候可能會因為假設先驗概率的原因出現分類決策上的錯誤。

運營數據分析中的貝葉斯陷阱

通過以上案例大家對貝葉斯定律肯定都有了一定的了解,貝葉斯在運營工作中有什么應用呢?說實話,本來我對貝葉斯在運營工作中能有多大的作用,并沒有概念,直到我在日常一活動復盤中發下了下面的案例。

我們經常會舉辦一些訓練營活動,活動分為招募期、課程期兩個時段。在招募過程我們會投放很多渠道,在結束后我們都會做復盤報告。

在復盤的過程中我們發現了一個有趣的數據,參與我們訓練營的用戶畫像調研中,工作經驗為1-3年的開發者居多,占比在70%以上。因此,我們每一期活動復盤報告中,都會如下分析:

參與活動的開發者以1-3年工作經驗者居多,說明我們的課程內容對此類開發者更具有吸引力,可以針對此類開發者,做課程設計上的優化。

那么大家有沒有發現關于這個數據的復盤分析有沒有什么問題?

我們的訓練營報名用戶的工作年限是1-3年居多,這是一個結果,我們只針對這個結果進行了分析。那么按照貝葉斯定律,很明顯我們忽略了導致這個結果的前提條件。這個前提條件的忽略最終可能影響了我們對整件事情的判斷。這個前提條件就是:我們的投放渠道。

我們投放渠道所覆蓋的用戶的工作年限是多少?如果該活動投放的渠道所覆蓋的用戶就是1-3年工作經驗開發者居多,自然報名訓練營的用戶也會是這個群體,那我們的復盤就是錯誤的,并不能說明我們的課程對工作1-3年的開發者更具有吸引力。

如果我們的投放渠道用戶分布平均,而活動報名用戶出現了如上的分布,那我們的復盤總結便是有意義的。

在意識到以上因素后,我們在后續活動的數據模型中,增加了投放渠道用戶畫像的收集,用以完善數據完整度,避免出現原先錯誤的分析結論。

所以,以上便是貝葉斯定律在日常運營活動中的應用,掌握貝葉斯理論,在運營活動中可以避免我們做出錯誤的數據分析,以免被錯誤數據誤導而對運營策略產生影響。

免責聲明:羅戈網對轉載、分享、陳述、觀點、圖片、視頻保持中立,目的僅在于傳遞更多信息,版權歸原作者。如無意中侵犯了您的版權,請第一時間聯系,核實后,我們將立即更正或刪除有關內容,謝謝!
上一篇:【干貨】26頁PPT詳解運輸車線智能推薦的作業應用
下一篇:項目調研如何更完美的落地執行?(附完整文檔分享)
羅戈訂閱
周報
1元 2元 5元 10元

感謝您的打賞

登錄后才能發表評論

登錄

相關文章

2025-02-12
2025-02-12
2025-02-10
2025-02-10
2025-02-08
2025-02-07
活動/直播 更多

2.22北京【線下公開課】倉儲精細化管理:從混亂到有序

  • 時間:2025-02-22 ~ 2025-02-23
  • 主辦方:馮銀川
  • 協辦方:羅戈網

¥:2580.0元起

報告 更多

2025年1月物流行業月報-個人版

  • 作者:羅戈研究

¥:9.9元