通常對(duì)于文本信息之間得相關(guān)性得計(jì)算都是采用向量的辦法,我在以前的PPT里曾經(jīng)提到過(guò)。然而對(duì)于文本信息更深層次的分析不能單純從字面上分析一篇文章的關(guān)鍵詞,更重要的是它隱含的擴(kuò)展的意義。
傳統(tǒng)的關(guān)于計(jì)算文本相關(guān)度和【網(wǎng)頁(yè)和查詢的相關(guān)性】的計(jì)算都是采用匹配的方式進(jìn)行的,然而這只能是基于字面意義上的統(tǒng)計(jì)計(jì)算。這里介紹的做法是采用關(guān)鍵詞相關(guān)性擴(kuò)展的做法從而得到更加精確的相關(guān)度計(jì)算。
例子:
文章 A: 談?wù)摰氖谴髮W(xué)教育,最高頻的關(guān)鍵詞是:學(xué)生[3],學(xué)習(xí)[2],大學(xué)[2]
文章 B: 談?wù)摰氖瞧胀ń逃罡哳l的關(guān)鍵詞是:教育[5],教師[1],進(jìn)修[1]
[]里是相對(duì)的權(quán)重,可以理解成 TF*IDF
根據(jù)傳統(tǒng)的相關(guān)性計(jì)算,我們會(huì)得到如下的結(jié)果:
1. 文章A 與 文章B 不相關(guān)
2. 查詢 學(xué)生,學(xué)習(xí),大學(xué)只能返回文章A,不能返回文章B
3. 查詢 教育,教師,進(jìn)修只能返回文章B,不能返回文章A
分析:
這個(gè)顯然是有一定的問(wèn)題的,問(wèn)題的出現(xiàn)在于我們通常將“字面”的意思做為分析的來(lái)源而且依靠和僅僅依靠這些“字面”的關(guān)鍵詞做為文章相關(guān)性和查詢相關(guān)性判斷的唯一要素。
如何避免?
我在以前的文章中提到過(guò)【關(guān)鍵詞相關(guān)度】的概念,舉例說(shuō)明:
當(dāng)出現(xiàn):{學(xué)習(xí)}這個(gè)詞匯的時(shí)候,真實(shí)的表達(dá)的意義往往是這樣的:
{W1*學(xué)習(xí),W2*教育,W3*教師,W4*大學(xué)。。。。。。}
其中W1,W2...是學(xué)習(xí)和相關(guān)詞匯的相關(guān)權(quán)重。
基于這樣一個(gè)矩陣,我們就能夠?qū)⒁粋€(gè)詞擴(kuò)展成為一組詞匯,因而也同時(shí)可以將文章所對(duì)應(yīng)的向量擴(kuò)展成一個(gè)更多詞匯的集合。
這里的計(jì)算需廣州網(wǎng)站設(shè)計(jì)要一個(gè)完整的相關(guān)度矩陣:M
M(i,j) = {關(guān)鍵詞i,j的相關(guān)度}
而兩篇文章的相關(guān)度的計(jì)算,也由簡(jiǎn)單的
R= Sigma Vi*Vi
變?yōu)?br>R= Sigma Vi*M(i,j)*Vj
查詢關(guān)鍵詞和文章的相關(guān)度也由簡(jiǎn)單的
R(i)=TF(i)*IDF(i)
變?yōu)?br>R(i)=Sigma TF(j)*IDF(j)*M(i,j)
下面碰到一個(gè)核心問(wèn)題就是:關(guān)鍵詞之間的相關(guān)度如何計(jì)算?
例如:學(xué)校和學(xué)生的相關(guān)度是多少?
計(jì)算方法:
假設(shè)一個(gè)文章集合 {C},總文章數(shù)目為N,其中含有單詞A的文章總數(shù)為Na,含有單詞B的文章總數(shù)是Nb,含有{A+B}的文章總數(shù)是 Nab,那么相關(guān)性這么計(jì)算
CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)
本計(jì)算中可能會(huì)得到負(fù)相關(guān),如果考慮到Na,Nb都是小量,可以忽略,那么
CorrAB= Nab/(Na+Nb-Nab)
至此,要計(jì)算相關(guān)度之間的全部要素都獲得了。
思考,那么到底 學(xué)校 和學(xué)生 之間的相關(guān)度是多少呢?
我們利用google來(lái)回答這個(gè)問(wèn)題吧:
約有91,700,000項(xiàng)符合學(xué)校的查詢結(jié)果
約有88,200,000項(xiàng)符合學(xué)生的查詢結(jié)果
約有48,900,000項(xiàng)符合學(xué)廣州網(wǎng)站設(shè)計(jì)生 學(xué)校的查詢結(jié)果
Corr{學(xué)校,學(xué)生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37
這個(gè)原理我以前應(yīng)用在了計(jì)算【網(wǎng)頁(yè)信噪比】上,和網(wǎng)頁(yè)信噪比一起成為衡量一個(gè)網(wǎng)頁(yè)的關(guān)鍵詞的核心算法。
這也就是為什么6e的網(wǎng)頁(yè)信噪比能夠不依靠網(wǎng)頁(yè)上現(xiàn)有的關(guān)鍵詞而準(zhǔn)確的判斷網(wǎng)頁(yè)的分類和相關(guān)度,是因?yàn)槌薚F和IDF之外,我們能夠從已有的文本集合里學(xué)到更多的“知識(shí)”。
那么百度和google的相關(guān)度應(yīng)該不難計(jì)算了:
利用 google計(jì)算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03
利用 baidu計(jì)算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08
看來(lái)基本上相關(guān)度小于10%。
版權(quán)聲明:以上文章信息來(lái)源于網(wǎng)絡(luò),等僅代表原作者本人的觀點(diǎn)。除了已經(jīng)標(biāo)注原創(chuàng)的文章外,其它文章版權(quán)和文責(zé)屬于原作者。文章中出現(xiàn)的商標(biāo)、專利和其他版權(quán)所有的信息,其版權(quán)屬于其合法持有人。對(duì)可以提供充分證據(jù)的侵權(quán)信息, 我們將在確認(rèn)后的1小時(shí)內(nèi)刪除。
本網(wǎng)站之聲明以及其修改權(quán)、更新權(quán)和最終解釋權(quán)均屬?gòu)V州古柏廣告策劃有限公司所有。
下一篇:怎樣選擇關(guān)鍵詞
掃一掃關(guān)注古柏
GOOBAI AD.
Brand Whole Case Design
4000-882-993
8ozt56.cn
微信加好友咨詢
廣州古柏廣告策劃有限公司
地址:廣州市天河區(qū)東圃長(zhǎng)盛商務(wù)大廈B213-215
Copyright?2004-2020 GOOBAI Inc.All rights reserved
粵公網(wǎng)安備: 44010602001481號(hào)
備案號(hào):粵ICP備09222445號(hào)
與古柏對(duì)話
關(guān)注古柏