北京赛车 pk10开奖记录_Toyou热购彩票官网
香港高速VIP雲機房火爆上線啦!無需備案汝哎,開通即用!配套《巔雲自助建站系統3.0》將帶給您飛一般的可視化拖拽建站體驗鷗腐記,歡迎免費體驗杭技相。

建站專題

如何做好相關內容頁的推薦網站之數據分析

一佰互聯網站開發設計(www.yinxi.net) 發布日期 2019-04-16 10:14:12 瀏覽數: 60

如果做網站的內容運營經趟痛,相關內容推薦可以幫助用戶更快地尋找和發現感興趣的信息偏,從而提升網站內容瀏覽的流暢性圈拍門,進而提升網站的價值轉化鹼藕察。相關內容 推薦最常見的兩塊就是“關聯推薦”和“相關內容推薦”公,關聯推薦就是我們常說的購物籃分析芳洽浩,即使用購買了某商品的用戶同時購買了什麼這個規則來發現商品間 的潛在聯系惺,之前有相關的文章介紹——向上營銷吠剎妻、交叉營銷與關聯推薦;關聯推薦是基于用戶行為分析的推薦陝叛梅,而相關內容推薦是基于內容固有特征的推薦汰奪,只與內容本身有關睫,與用戶的行為完全無關內桓蛂A所以相關內容推薦的模型是一種“冷啟動”的算法畦,不需要任何歷史瀏覽訪問數據的支持吾賞礎。內容固有屬性相關內容推薦因為完全不借助用戶瀏覽行為的數據塹,所以底層數據不依賴于網站的點擊流日志恫推,唯一的基礎數據就是內容的固有屬性及完整信息煤路怪。我們以豆瓣網的幾大塊內容為例來看看對于這些內容一般包含哪些固有屬性浮該︰書籍-書名磋、作者頓瘓、出版時間翰堤、出版社似懦、分類哩弘丹、標簽音樂-專輯名購輸、歌手的冷、發行時間茄芬、發行方漚、風格流派腳、標簽電影-電影名稱汞滌側、導演心、演員墾、上映時間菠處、制片方嘎晶想、類型猩胎、標簽豆瓣很多地方都使用了“標簽”這個詞嘎腺,用貼標簽的形式來完成內容的分類和標識朝,但其實標簽又分為很多種炕,有些標簽是在內容生成時就被貼上的纜羅談,有些可 能是後續用戶貼上去的乃效休,而且豆瓣一般為內容和標簽定義了原始分類朗措憲,如書籍分為文學焙隘奴、流行忻摔、文化……既然分類和標簽內容源生就帶有韓甜,那同樣可以作為內容的固 有屬性廁蛾物。還需要說明的是邢羚笆,這里不涉及文本挖掘和字符切分幕 敖保糊匹配等問題仿型扁,因此內容的標題盯垮、簡介和全文不參與文本相似度的分析瑪,雖然這些可能在構建完整的相關 內容模型中不可缺少爆領,但這里只考慮一些固有屬性是否相同實現簡單應用如捻。基于上述豆瓣幾類內容的屬性特征憲,選擇和整理適合分析的內容屬性如下瘁鉸慚︰ “作者”就是指內容的創造者裳,“來源”指內容的發布方或獲取渠道論糾,“分類”為內容歸屬的類別酣咸,“標簽”可以包含對內容的各類描述信息和關鍵詞等寒膝。這 里為了能夠盡可能清晰地描述整個分析模型和思路只選取了大部分內容都包含的一些屬性猩,如果要構建更加高效的相關內容分析模型覆店,需要更完整的內容屬性唬,可以 根據自身內容的特征進行屬性的定義和選取椒燒。KNN算法及應用KNN(K-Nearest Neighbor algorithm)跨偏,K最近鄰算法堵竄賦,通過計算樣本個體間的距離或者相似度尋找與每個樣本個體最相近的K個個體痹,算法的時間復雜度跟樣本的個數直接相關得幻睫, 需要完成一次兩兩比較的過程覓統賒。KNN一般被用于分類算法講屜創,在給定分類規則的訓練集的基礎上對總體的樣本進行分類兼耙拆,是一種監督學習(Supervised learning)方法夾帥。 這里我們不用KNN來實現分類萄,我們使用KNN最原始的算法思路牛譜,即為每個內容尋找K個與其最相似的內容唱賴,並推薦給用戶墮。相當于每個內容之間都會完 成一次兩兩比較的過程犬敢鉀,如果你的網站有n個內容既,那麼算法的時間復雜度為Cn2崗乘,即n(n-1)/2昂。但是用內容固有屬性有一個好處就是因為固有屬性一旦 創建後基本保持不變壇,因此算法輸出的數據一旦計算好之後不需要重復計算去刷新熾碗什,也就是對于網站內容而言訛饒,原有內容的數據在首次初始化之後可以不斷重復使 用鉸,只要更新新增內容的數據就可以卞捻,數據的統計計算可以使用增量更新的形式屆,這樣可以有效地減少服務器的計算壓力釩。相關內容模型有了基礎數據和算法的支持椿,我們就可以創建數據模型了售佰。先看下基礎數據的類型庭,作者憾、分類存苗、來源和標簽都是字符型懂咐,其中作者棵存彩、分類我煌、來源基本可以當 做是單個值的屬性使呂似,標簽一般包含多個值赫練。首先由于都是字符可以確定屬性之間相似性的判定只能通過“是否相同”卿,無法體現數值上的差異懦,所以對于作者璃丘、分 類詫鈣、來源這幾個單值屬性而言潔詞椒,比較的結果就是一個布爾型的度量順孟,相同或者不相同;對于標簽這個多值屬性可以考慮使用Jaccard相關系數俏,但因為每個內 容標簽的個數存在較大差異叼攜溯,使用驗證後的結果並不理想督,所以不考慮使用(當然時,如果內容的標簽個數比較固定鎬校,Jaccard相關系數是有效的)漣署驢。因此痰粕,直 接創建加權相似度模型如下帛努討,首先是標簽的相似度分值設定祈家別︰ 再結合作者滌廬嗓、分類和來源駒,通過加權設定總體的相似度分值瓷︰ 將所有屬性加權相似度分值的結果相加應該分布在[0,100]微孩,分值越高說明內容間的相似度越高報吠。對于這種簡單的加權相似度評分模型孟,估計又有很多 人要問權重是怎麼確定的痘娃,確實行,這里的權重並沒有通過任何定量分析模型的方法去計算春,只是簡單的經驗估計挫廁,但估計的過程經過反復地調整和優化媒無,也就是不斷 地嘗試調整各屬性的權重系數並輸出結果瓶,抽樣檢驗結果是否符合預期拼吾、是否有提升優化的空間鉑百。基于上述內容間相似度的計算結果孔,套用KNN的原理實現相關內容推薦就異常簡單了俏晃,只要根據每個內容與之比較的所有內容的相似度分值降序排列取前K 個內容作為該內容的最相關內容推薦給用戶就可以了酣踢。當然中間可能會涉及相同相似度分值的內容如何排序的問題(因為模型的關系分值分布可能不會很離散)啼姓,建 議如果相似度分值相同使用隨機排序嘯哀糕,以保證推薦結果有一定的變化羨泡,均勻內容的曝光徐。好了拈穢,所有的分析流程介紹完了蹄蒜耐,好像跟前一篇的距離和相似度度量完 全沒有關系工歸,其實距離和相似度度量是KNN的基礎算法鄉椽哀,因為KNN的個體相似度或鄰近的距離都會選擇距離度量和相似度度量中的某種方法進行計算疽,但這里考 慮到了現實的數據情況和應用環境雷,並不是KNN就一定要硬套歐氏距離境,其實換一種簡單的方法可能反而更加適合整個模型失哨,而且模型的最終效果可能會更理想拎吩。 所以一切的數據挖掘算法的選擇和使用都是基于數據模型的有效性和輸出結果的效果來決定的吭,並不是簡單的算法效果就一定不好穿,而高級復雜的算法一定更加有 效繃寡。對了舌,如果你已經做了相關內容推薦純備,那麼優化相關內容推薦這篇文章里面介紹的一些方法將是檢驗推薦效果的一個很好的參考斃柒。

 專業網站建設價格套餐穆︰

500元成品模板網站套餐pk10开奖 2003年6月10號夜5、先說是借1000元基礎型網站套餐1800元標準定制設計套餐2800元精美定制設計套餐3800-8000元商務型套餐行業門戶型套餐其它定制套餐 

  文章由重慶一佰互聯專業網站建設http://www.jd369.com編輯整理渾同派,轉載請注明出處

一佰互聯是全國知名建站品牌服務商,我們有九年網站建設遼懲、網站制作亥誕、網頁設計查柒痙、php開發和域名注冊及虛擬主機服務經驗氨壞還,提供的自助建站服務更是全國有名偉疵補。近年來還整合團隊優勢自主開發了可視化多用戶”巔雲建站系統“3.0平台版速,拖拽排版網站制作設計伶伺胳,輕松實現pc站狼晨泄、手機微網站楓秒、小程序吐、APP一體化全網營銷網站建設 訃雇趟,已成功的為全國上百家網絡公司提供自助建站平台搭建服務驢猜渴。

相關新聞more

04
05月
SEO是什麼?SEO優化價值在哪里?

我們一直說互聯網的是一把雙刃劍菜,好的方面是互聯網使的人與人之間空間距離得以縮短塑,同時也讓人們的時間更加的自由位限囊。但不好的一面就是信息傳播的速度... >>詳情

11
04月
如何開好需求評審會?36氪產品總監告訴你!

產品經理在和開發進行需求評審時刮告,經常剛開個頭蘑滑,就被各種問題拖入無止境的解釋離、爭辯蚊、開小會中霸城,結果通常就是會議幾個小時無結論萎,強行推進開發誨,後... >>詳情

21
04月
css實現二維碼掃碼框的示例代碼

我們一般在打開相機的時候有個掃描框喘替財,然後靜態二維碼有時候為了聚焦和利于掃描也會加一個框框吾,下面介紹一下如何通過css 來實現一個框框實現效果... >>詳情

17
04月
看馬雲與樸槿惠勾兌背後榔︰中國互聯網撬動全球

一個月前雹,剛跟著國家主席習近平出訪韓國的馬雲粒溉,昨天念傾另,竟然跑到青瓦台總統府跟女總統樸槿惠勾兌1小時絛竭互。這已是他半年來第三次韓國之旅鵲膝。馬雲雖然高大... >>詳情

營業執照. cdn加速服務 備案系統認證 網絡安全協會 我們的支付方式AAA認證

7x24小時服務電話:18581389571 傳真:023-85725751 免費建站交流群芍訂匿︰236412099 139947842(自助建站交流) E-Mail:post@yinxi.net 網站投訴:
重慶楚捷科技有限公司 一佰互聯©版權所有 自助建站(www.yinxi.net,Inc.) 2001-2020 All Rights Reserved 本站程序受法律保護,網站法律顧問罕︰ITLAW-莊毅雄律師
中華人民共和國信息產業部網站備案號:渝ICP備12000592號
pk10开奖记录 热购彩票 pk10开奖记录