Hi,我是鳥哥筆記小助手
APP推廣報價    產品Bug反饋
春羽計劃投稿   媒體合作咨詢
鳥哥筆記公眾號
學運營推廣 上鳥哥筆記

推薦算法為啥這么“靈”,又為啥會“失靈”?

2020-06-08

推薦算法為啥這么“靈”,又為啥會“失靈”?

華章計算機
2020-06-08
一句話概括推薦算法的原理。
鳥哥筆記,數據運營,華章計算機,大數據,分析方法

推薦系統是為用戶推薦所需物品的軟件工具和技術。提供的推薦旨在通過各種決策過程來支持用戶,例如,買什么物品、聽什么歌曲或讀什么新聞。推薦系統的價值在于幫助用戶解決信息過載和做出更好的選擇,也是現在互聯網領域最強大和最流行的信息發現工具之一。

今天就和大家聊聊:推薦算法為啥這么“靈”,又為啥會“失靈”?

01 推薦算法為啥這么“靈”?

要回答這個問題,首先得講清楚推薦算法的原理是什么。

我們知道,互聯網最大的特點就是有海量的信息。不過,光是數量龐大是沒有任何意義的,需要信息真正發揮作用才能產生價值。所以,如何讓信息發揮價值,始終是互聯網發展的一條主軸。為此,我們想了很多辦法。

“算法推薦系統”出現前,我們的做法是發現信息,這就是搜索引擎。搜索引擎很有用,但限制也很明顯,遺留了很多問題。回想一下:我們要用搜索引擎找信息,不是直接就得到想要的結果,而是得首先掏出一個“關鍵詞”輸入進去,然后才能看到命中的結果。

這個過程叫信息檢索,也就是你得首先知道自己對什么信息感興趣,得有線索,然后才能通過搜索引擎檢索信息。但這就有個問題,互聯網實在太大了,而人的認知圈子實在太小了,這就導致了大量本該有價值的信息,因為沒被人看到,而只能靜靜躺在角落被白白浪費了。

這個問題初看不可能有解,畢竟從常識推斷,我們得首先知道那條信息,才可能判斷對它是否感興趣,這個過程應該沒法顛倒過來,去發現我們不知道但感興趣的信息。但推薦算法做到了,它改變了搜索引擎的做法,不再是發現信息,而是發現興趣。

推薦算法是怎樣發現興趣的呢?聽起來好像很玄乎,不過原理遠沒有想象中的那么復雜,我用一句話概括——就是依靠人和物的關聯關系,最少只要經過三次關聯,就能完成興趣發現,進行一次推薦。

這么說不太形象,我舉一個例子。

  • 我愛喝快樂水,經常去家旁邊的便利店買快樂水,店長當然很快就知道我對快樂水感興趣,這是第一次關聯——我關聯快樂水。

  • 接著,店長收完錢,想起來有另一位顧客也對快樂水感興趣,名字就叫小編吧。小編也常到店里買快樂水,這是第二次關聯——快樂水關聯小編。

  • 這位小編和我一樣,對快樂水有著相同的執念,但又有點不同:除了到店里買快樂水,小編還常買另一樣東西——薯片,這就是第三次關聯——小編關聯薯片。

想到這里,店長覺得:既然我們都愛喝快樂水,那沒準你們也都喜歡吃薯片呢?于是,店長就向我推薦了薯片。這就是基于興趣的推薦算法,大數據分析常舉的例子——啤酒尿布,就是上面的這個原理。

鳥哥筆記,數據運營,華章計算機,大數據,分析方法


我最近看到很多文章,說推薦算法比女朋友更懂你,外人一看都覺得挺神奇的,其實明白了推薦算法的原理,就應該知道這是理所當然的,術業有專攻,除非你的女朋友正好是店長。

當然了,推薦算法原理不復雜,但實際要發揮好作用,還需要根據應用場景作很多調整。推薦算法的重心在于發現人與人之間的共同點,但怎么劃分共同點,是有很多不同的方法的。

就拿我們常見的推薦來說,既有“看過這個視頻的觀眾還看過”這類基于視頻節目的推薦,也有“同城的觀眾都在看”這類基于地理位置的推薦。

早期做推薦很簡單,是基于點擊量來推薦,但大家很快發現:基于點擊量的推薦沒法發現差異化的興趣。所以,要想實現一套好用的推薦算法,通常要綜合方方面面去考慮,而不只是單獨的一兩個點。

02 推薦算法為啥會“失靈”?

推薦算法平時沒什么問題,但一旦出現極端情況,譬如說爆發大規模疫情,就會出現前面我們看到的推薦算法“失靈”的問題,大量推薦的都是疫情相同的信息,把其他信息都湮沒了。

不過說實話,推薦算法有這樣的結果,其實是“合理”的。你想一下:疫情期間你的朋友、家人、同學或者同事,包括你自己,最關心的是什么?就是疫情。

推薦算法這邊呢,我們一再強調推薦算法要做的是發現興趣,而恰恰是正確地發現了你對疫情的“興趣”,所以推薦算法才給你大量推薦了疫情相關的信息。非要說這是問題的話,恐怕首先也得是社會學的問題。

但是,深入地想一想就會發現,這個問題沒這么簡單?;ヂ摼W經濟在過去很長一段的時間里是推崇一種理論的,叫長尾理論,大概意思是:人類社會中存在著大量的小眾需求,你販賣的東西再離經叛道,也總會能得到真愛的捧場,互聯網就是溝通小眾需求的橋梁。

推薦算法在很大程度上也受了這種理論的影響,所以有一種說法是:推薦算法的最終目標就是能發現這一個一個的小眾圈子,把小眾的信息推薦給圈子里的人。

但現實卻是另外一回事。近幾年大家討論更多的是另一種互聯網現象,如果你經營過公眾號或者當過UP主,應該會對這種現象印象深刻,這就是頭部效應。

大部分甚至絕大部分的互聯網流量,實際上是被少數幾個“頭部”信息生產者吸走了,剩下絕大多數的信息生產者,則仍然是靜靜地呆在角落里面被人遺忘。

鳥哥筆記,數據運營,華章計算機,大數據,分析方法


本該打破這一現象的推薦算法,反而加劇了這種現象。因為占據頭部,所以容易被推薦,因為容易被推薦,所以繼續占據頭部,推薦算法導致的這種上升螺旋,讓頭部效應更加明顯。如果把本次疫情看作是一個新的頭部,也許能更好地理解推薦算法為什么會在疫情中出現失靈。

那么,這個問題應該怎么解決呢?這個問題,容易回答,也不容易回答。從技術的角度看,這個問題想要解決,思路是很清晰的,就四個字:去極端化。

理論研究和真實環境往往有差別。理論研究都愛對環境條件進行簡化假設,智能算法也不例外,通常假設各種情況出現的概率是服從均勻分布的,大家應該是旗鼓相當的公平競爭,誰也壓不住誰,然后再在這個假設條件下構建算法的各種邏輯。

但實際上,一枝獨秀也許才是真實環境中最為常見的情況。其它的所謂競爭者,要么是萌新,躲在角落瑟瑟發抖,要么是菜雞,互啄上不了臺面。在算法看來,這種現實情況假設情況相差實在太遠,太極端,所以,會出現奇奇怪怪的結果自然也就不值得奇怪了。

要讓算法恢復正常怎么辦呢?只要把極端情況變得不那么極端就可以了,很多依靠評委打分的比賽為了避免受極端情況影響,通常會選擇采取去掉一個最高分和一個最低分的做法,就是類似的思路。

不過,技術本身是中立的,是正是邪,要看使用的人,就好比菜刀,究竟是用來切菜還是砍人,不是由菜刀自己說了算?,F在討論的很多問題看起來是技術的問題,其實還是人的問題。譬如人工智能,說到自動駕駛,我們就很愛討論一個話題,說算法應該怎么處理電車難題。

但實際上,算法自己是不會產生價值觀的,算法的價值觀,說到底還是人的價值觀。推薦算法究竟要怎么改,說到底還是要看推薦算法的使用者怎么定義價值。

我想,推薦算法最后一定能夠滿足“推薦有價值信息”這一要求的,但是,這里的“有價值”究竟是對誰而言的有價值,那就是另一個問題了。

-END-

鳥哥筆記,數據運營,華章計算機,大數據,分析方法

推薦系統是為用戶推薦所需物品的軟件工具和技術。提供的推薦旨在通過各種決策過程來支持用戶,例如,買什么物品、聽什么歌曲或讀什么新聞。推薦系統的價值在于幫助用戶解決信息過載和做出更好的選擇,也是現在互聯網領域最強大和最流行的信息發現工具之一。

今天就和大家聊聊:推薦算法為啥這么“靈”,又為啥會“失靈”?

01 推薦算法為啥這么“靈”?

要回答這個問題,首先得講清楚推薦算法的原理是什么。

我們知道,互聯網最大的特點就是有海量的信息。不過,光是數量龐大是沒有任何意義的,需要信息真正發揮作用才能產生價值。所以,如何讓信息發揮價值,始終是互聯網發展的一條主軸。為此,我們想了很多辦法。

“算法推薦系統”出現前,我們的做法是發現信息,這就是搜索引擎。搜索引擎很有用,但限制也很明顯,遺留了很多問題。回想一下:我們要用搜索引擎找信息,不是直接就得到想要的結果,而是得首先掏出一個“關鍵詞”輸入進去,然后才能看到命中的結果。

這個過程叫信息檢索,也就是你得首先知道自己對什么信息感興趣,得有線索,然后才能通過搜索引擎檢索信息。但這就有個問題,互聯網實在太大了,而人的認知圈子實在太小了,這就導致了大量本該有價值的信息,因為沒被人看到,而只能靜靜躺在角落被白白浪費了。

這個問題初看不可能有解,畢竟從常識推斷,我們得首先知道那條信息,才可能判斷對它是否感興趣,這個過程應該沒法顛倒過來,去發現我們不知道但感興趣的信息。但推薦算法做到了,它改變了搜索引擎的做法,不再是發現信息,而是發現興趣。

推薦算法是怎樣發現興趣的呢?聽起來好像很玄乎,不過原理遠沒有想象中的那么復雜,我用一句話概括——就是依靠人和物的關聯關系,最少只要經過三次關聯,就能完成興趣發現,進行一次推薦。

這么說不太形象,我舉一個例子。

  • 我愛喝快樂水,經常去家旁邊的便利店買快樂水,店長當然很快就知道我對快樂水感興趣,這是第一次關聯——我關聯快樂水。

  • 接著,店長收完錢,想起來有另一位顧客也對快樂水感興趣,名字就叫小編吧。小編也常到店里買快樂水,這是第二次關聯——快樂水關聯小編。

  • 這位小編和我一樣,對快樂水有著相同的執念,但又有點不同:除了到店里買快樂水,小編還常買另一樣東西——薯片,這就是第三次關聯——小編關聯薯片。

想到這里,店長覺得:既然我們都愛喝快樂水,那沒準你們也都喜歡吃薯片呢?于是,店長就向我推薦了薯片。這就是基于興趣的推薦算法,大數據分析常舉的例子——啤酒尿布,就是上面的這個原理。

鳥哥筆記,數據運營,華章計算機,大數據,分析方法


我最近看到很多文章,說推薦算法比女朋友更懂你,外人一看都覺得挺神奇的,其實明白了推薦算法的原理,就應該知道這是理所當然的,術業有專攻,除非你的女朋友正好是店長。

當然了,推薦算法原理不復雜,但實際要發揮好作用,還需要根據應用場景作很多調整。推薦算法的重心在于發現人與人之間的共同點,但怎么劃分共同點,是有很多不同的方法的。

就拿我們常見的推薦來說,既有“看過這個視頻的觀眾還看過”這類基于視頻節目的推薦,也有“同城的觀眾都在看”這類基于地理位置的推薦。

早期做推薦很簡單,是基于點擊量來推薦,但大家很快發現:基于點擊量的推薦沒法發現差異化的興趣。所以,要想實現一套好用的推薦算法,通常要綜合方方面面去考慮,而不只是單獨的一兩個點。

02 推薦算法為啥會“失靈”?

推薦算法平時沒什么問題,但一旦出現極端情況,譬如說爆發大規模疫情,就會出現前面我們看到的推薦算法“失靈”的問題,大量推薦的都是疫情相同的信息,把其他信息都湮沒了。

不過說實話,推薦算法有這樣的結果,其實是“合理”的。你想一下:疫情期間你的朋友、家人、同學或者同事,包括你自己,最關心的是什么?就是疫情。

推薦算法這邊呢,我們一再強調推薦算法要做的是發現興趣,而恰恰是正確地發現了你對疫情的“興趣”,所以推薦算法才給你大量推薦了疫情相關的信息。非要說這是問題的話,恐怕首先也得是社會學的問題。

但是,深入地想一想就會發現,這個問題沒這么簡單?;ヂ摼W經濟在過去很長一段的時間里是推崇一種理論的,叫長尾理論,大概意思是:人類社會中存在著大量的小眾需求,你販賣的東西再離經叛道,也總會能得到真愛的捧場,互聯網就是溝通小眾需求的橋梁。

推薦算法在很大程度上也受了這種理論的影響,所以有一種說法是:推薦算法的最終目標就是能發現這一個一個的小眾圈子,把小眾的信息推薦給圈子里的人。

但現實卻是另外一回事。近幾年大家討論更多的是另一種互聯網現象,如果你經營過公眾號或者當過UP主,應該會對這種現象印象深刻,這就是頭部效應。

大部分甚至絕大部分的互聯網流量,實際上是被少數幾個“頭部”信息生產者吸走了,剩下絕大多數的信息生產者,則仍然是靜靜地呆在角落里面被人遺忘。

鳥哥筆記,數據運營,華章計算機,大數據,分析方法


本該打破這一現象的推薦算法,反而加劇了這種現象。因為占據頭部,所以容易被推薦,因為容易被推薦,所以繼續占據頭部,推薦算法導致的這種上升螺旋,讓頭部效應更加明顯。如果把本次疫情看作是一個新的頭部,也許能更好地理解推薦算法為什么會在疫情中出現失靈。

那么,這個問題應該怎么解決呢?這個問題,容易回答,也不容易回答。從技術的角度看,這個問題想要解決,思路是很清晰的,就四個字:去極端化。

理論研究和真實環境往往有差別。理論研究都愛對環境條件進行簡化假設,智能算法也不例外,通常假設各種情況出現的概率是服從均勻分布的,大家應該是旗鼓相當的公平競爭,誰也壓不住誰,然后再在這個假設條件下構建算法的各種邏輯。

但實際上,一枝獨秀也許才是真實環境中最為常見的情況。其它的所謂競爭者,要么是萌新,躲在角落瑟瑟發抖,要么是菜雞,互啄上不了臺面。在算法看來,這種現實情況假設情況相差實在太遠,太極端,所以,會出現奇奇怪怪的結果自然也就不值得奇怪了。

要讓算法恢復正常怎么辦呢?只要把極端情況變得不那么極端就可以了,很多依靠評委打分的比賽為了避免受極端情況影響,通常會選擇采取去掉一個最高分和一個最低分的做法,就是類似的思路。

不過,技術本身是中立的,是正是邪,要看使用的人,就好比菜刀,究竟是用來切菜還是砍人,不是由菜刀自己說了算?,F在討論的很多問題看起來是技術的問題,其實還是人的問題。譬如人工智能,說到自動駕駛,我們就很愛討論一個話題,說算法應該怎么處理電車難題。

但實際上,算法自己是不會產生價值觀的,算法的價值觀,說到底還是人的價值觀。推薦算法究竟要怎么改,說到底還是要看推薦算法的使用者怎么定義價值。

我想,推薦算法最后一定能夠滿足“推薦有價值信息”這一要求的,但是,這里的“有價值”究竟是對誰而言的有價值,那就是另一個問題了。

-END-

鳥哥筆記,數據運營,華章計算機,大數據,分析方法

華章計算機
分享到朋友圈
收藏
評分
評論

綜合評分:

我的評分

參與評論(2)

評論規則

登錄后參與評論
發布評論

再哭不是好孩子

2020-06-08 15:32

信息繭房
用戶321360

2020-06-08 14:33

很認同:說到底還是要看推薦算法的使用者怎么定義價值。
《運營增長實戰手記》小紅書電子版
18篇運營實操干貨,篇篇皆實戰經驗總結
1羽毛
立即兌換
來畫視頻創作工具30天尊享版會員
來畫視頻尊享版會員,海量視頻模板、素材免費用,高效創作短視頻。
30羽毛
立即兌換
鳥哥筆記靈感周歷
精選53個營銷知識,每周get一個靈感來源
500羽毛
立即兌換

用戶評論

再哭不是好孩子

2020-06-08 15:32

信息繭房

用戶321360

2020-06-08 14:33

很認同:說到底還是要看推薦算法的使用者怎么定義價值。
確認要消耗 0羽毛購買
推薦算法為啥這么“靈”,又為啥會“失靈”?嗎?
考慮一下
很遺憾,羽毛不足
我知道了

為了促進廣大用戶對鳥哥筆記網站的干貨文章做出更加客觀、真實、優質的評論,為其他讀者在學習干貨時提供參考,特地制定本評論規則。

一、什么樣的評論內容會被通過

15字以上的、基于文章內容的優質評論。

二、什么樣的評論內容不會被通過

1、15字以下的評論;
2、“已閱”,“1”,“11”,”666”,“學習”,“學習了”等明顯劃水的內容;
3、重復評論,即在多篇文章下面發布同樣的內容;
4、帶廣告性質的內容(含網址、電話、微信等);
5、評論內容與本文無關的;
6、帶詆毀,辱罵,色情,賭博、暴力等不符合社會主義核心價值觀的內容,及一切法律法規不允許的內容。

最后,你的評論在審核通過的同時,還可以獲得5羽毛的獎勵,羽毛可在 "羽毛精選" 兌換各類小禮品哦~

我知道了
恭喜你~答對了
+5羽毛
下一次認真讀哦
成功推薦給其他人
+ 10羽毛
評論成功且進入審核!審核通過后,您將獲得10羽毛的獎勵。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
去分享
好友微信掃一掃
復制鏈接
幸运飞艇官方走势图手机版