優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利

行業(yè)動(dòng)態(tài)基于網(wǎng)頁(yè)結(jié)構(gòu)與語(yǔ)言特征的垃圾網(wǎng)頁(yè)鏈接檢測(cè)方法

        基于網(wǎng)頁(yè)結(jié)構(gòu)與語(yǔ)言特征的垃圾網(wǎng)頁(yè)鏈接檢測(cè)方法。檢測(cè)spam網(wǎng)頁(yè)仍是一個(gè)具有挑戰(zhàn)性的研究領(lǐng)域。經(jīng)過(guò)實(shí)驗(yàn)與對(duì)比,算法已經(jīng)可以基本解決spam檢測(cè)的問(wèn)題,準(zhǔn)確率較高,又不會(huì)出現(xiàn)過(guò)高的誤報(bào)率和漏報(bào)率。同時(shí),如果用戶(hù)對(duì)誤報(bào)率和漏報(bào)率有所要求時(shí),也可以通過(guò)修正優(yōu)勢(shì)率的閾值來(lái)實(shí)現(xiàn)。

        但是,算法仍有一些需要深入研究的問(wèn)題。后續(xù)工作需要更進(jìn)一步擴(kuò)大并完善初始數(shù)據(jù),從而優(yōu)化對(duì)優(yōu)勢(shì)率字典的構(gòu)建。同時(shí),希望更進(jìn)一步地研究?jī)?yōu)勢(shì)率閾值的選取,從而更準(zhǔn)確地對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè)。

        最后,網(wǎng)頁(yè)中,塊與塊之間是有聯(lián)系的,而本算法簡(jiǎn)化了這一部分,把塊當(dāng)作獨(dú)立的個(gè)體進(jìn)行處理。所以,在后續(xù)研究中,可以將塊與塊之間的相似度,如結(jié)構(gòu)相似度、文本內(nèi)容相似度等加入特征的選取和計(jì)算、

本文地址:http://cdrpkj.cn//article/21304.html
相關(guān)文章:
最新文章: