TF-IDF算法已經(jīng)被很多專業(yè)的SEO工作者所熟知,它是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),運(yùn)用到網(wǎng)頁分析中就是對(duì)于網(wǎng)頁中的相關(guān)關(guān)鍵詞進(jìn)行加權(quán),分析眾多網(wǎng)頁中某個(gè)特定關(guān)鍵詞的相關(guān)網(wǎng)頁關(guān)鍵詞權(quán)值,并在最后的排序算法中給予科學(xué)的依據(jù)。
首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。為什么要分析這個(gè)公式呢?因?yàn)橐粋(gè)網(wǎng)頁的TF-IDF值越大,網(wǎng)頁中文本內(nèi)容與索引詞越相關(guān),其能夠在搜索引擎上獲得的權(quán)值就越高,對(duì)于后期的網(wǎng)頁的排序能夠提供很大的支持。
TF*IDF中TF詞頻(Term Frequency),表示詞條在某個(gè)文檔中出現(xiàn)的頻率,而IDF反文檔頻率(Inverse Document Frequency)表示如果包含詞條t的文檔個(gè)數(shù)越少,IDF越大,則說明詞條t具有很好的類別區(qū)分能力,用公式表示IDF可以寫為:IDF(t) = log(N / DF(t))。DF(t)表示包含有某個(gè)搜索詞(以t為代表)的文檔數(shù),N表示互聯(lián)網(wǎng)的總網(wǎng)頁數(shù)。
看這些概念很難理解透徹,給大家舉一個(gè)例子,大家就能夠很好地明白了。
利用TF-IDF解釋“SEO診斷”排名現(xiàn)象
例如“SEO診斷”這個(gè)關(guān)鍵詞的網(wǎng)頁排序,我們查排名前十中三個(gè)網(wǎng)站關(guān)于這個(gè)詞相關(guān)詞語的一些詞頻展現(xiàn)分析:
排在第二的是A5的SEO診斷,他們的“SEO”和“診斷”的詞頻分別是41和46,“SEO診斷”的詞頻是20;
排在第三的網(wǎng)站是長(zhǎng)沙的一家公司,他們的“SEO”和“診斷”的詞頻分別是12和4,“SEO診斷”的詞頻是1;
我的細(xì)嗅薔薇博客排名排名第十,網(wǎng)站中“SEO”詞頻最高,達(dá)到84,“診斷”的詞頻是7,“SEO診斷”的詞頻是4。
搜索查看有關(guān)于“SEO診斷”的頁面約1,530,000個(gè),“SEO”和“診斷”是百度上限約100,000,000個(gè),取N=10000億。所以三個(gè)網(wǎng)頁三個(gè)關(guān)鍵詞的TF*IDF值做下面的計(jì)算:
1、先計(jì)算三個(gè)詞的IDF值:
SEO:IDF= log(N / DF(t))= log(10000/1)=4
診斷:IDF= log(N / DF(t))= log(10000/1)=4
SEO診斷:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6
2、計(jì)算三個(gè)詞的TF值:
三站的關(guān)鍵詞SEO的TF值:
長(zhǎng)沙:TF= log(TF(t,d))= log12≈1.1
A5:TF= log(TF(t,d))= log41≈1.64
細(xì)嗅薔薇:TF= log(TF(t,d))= log84≈1.92
三站的關(guān)鍵詞診斷的TF值:
長(zhǎng)沙:TF= log(TF(t,d))= log4≈0.63
A5:TF= log(TF(t,d))= log46≈1.68
細(xì)嗅薔薇:TF= log(TF(t,d))= log7≈0.84
三站的關(guān)鍵詞SEO診斷的TF值:
長(zhǎng)沙:TF= log(TF(t,d))= log1=0
A5:TF= log(TF(t,d))= log20≈1.45
細(xì)嗅薔薇:TF= log(TF(t,d))= log4≈0.63
3、三個(gè)站三個(gè)詞的TF*IDF值為:
從上面的表格中我們可以清晰的看出,我的博客“SEO”的TF*IDF值最高,A5站長(zhǎng)網(wǎng)的“診斷”和“SEO診斷”TF*IDF值最高。
如果單純從TF*IDF值計(jì)算出來的相關(guān)性來講,“SEO診斷”這個(gè)詞的排名A5站長(zhǎng)網(wǎng)的相關(guān)性是最高的,應(yīng)該獲得更好的排名,我的博客排名應(yīng)該在兩者之間(前天的排名的確在兩者之間),長(zhǎng)沙站應(yīng)該在最后,但是和實(shí)際的結(jié)果看來是有一定的差距的。這說明網(wǎng)站網(wǎng)頁排名的因素還有其他的一些比較重要的因素,例如網(wǎng)站整體權(quán)重,單個(gè)網(wǎng)頁權(quán)重和質(zhì)量,外部鏈接,和用戶的交互(即用戶體驗(yàn)),這些都是我們需要考慮的。
另外,同一個(gè)網(wǎng)站相比較來看TF*IDF值,長(zhǎng)沙站和我的細(xì)嗅薔薇博客要提升排名,對(duì)于關(guān)鍵詞“SEO”排名的要求就比較高,“SEO”排名起決定性作用,而A5站長(zhǎng)站中“SEO診斷”的排名起到?jīng)Q定性的作用,關(guān)鍵詞“SEO”排名對(duì)于其排名波動(dòng)影響要小。這一點(diǎn)有一定的根據(jù),例如前天我的博客“SEO診斷”排名第三,當(dāng)時(shí)“SEO”關(guān)鍵詞排名第十頁,現(xiàn)在掉到了23頁,排名就下降到第十,所以多運(yùn)用TF*IDF研究能夠幫助我們發(fā)現(xiàn)很多關(guān)鍵詞排名現(xiàn)象,并針對(duì)性的制定SEO優(yōu)化策略。
當(dāng)然,這個(gè)計(jì)算都是基于理想狀態(tài)的,但是也能夠說明一些SEO現(xiàn)象的產(chǎn)生原因,只要我們能夠掌握TF*IDF算法的基本思想,然后運(yùn)用到網(wǎng)站優(yōu)化中,必然能夠更好地優(yōu)化網(wǎng)站,例如我的博客,降低“SEO”這個(gè)詞對(duì)于網(wǎng)站排名的影響,可能能夠更好地控制網(wǎng)頁的關(guān)鍵詞“SEO診斷”的排名。
本文由虛子雨,杭州SEO(http://www.soxunseo.com)搜訊網(wǎng)絡(luò)網(wǎng)編發(fā)表,歡迎大家轉(zhuǎn)載,轉(zhuǎn)載時(shí)請(qǐng)保留此鏈接,謝謝合作!