1.TF – IDF算法。这个算法我建议大家必须掌握
发布时间:2024-07-08 22:19 作者:admin 点击:68
1.TF – IDF算法。这个算法我建议大家必须掌握。尽管目前的搜索引擎已经更加倾向用概率模型来做语义理解和内容的关联度匹配,但从实际经验验证的效果来看,TF-IDF算法是一个简单可行易理解,并且总体上接近真实结果的模型,对于许多简单一些的搜索引擎如某乎某书某信和垂直论坛来说更加接近。
TF – IDF算法简单的理解为:重要的关键词出现多次(TF就是词频),这个逻辑比较简单,SEO里也经常听到“词频”的概念,虽然有绝对词频和相对词频的区分,但这里不展开;重点说说IDF值,IDF值对出现的关键词进行一个基于语料库的权重调整,从信息含量上来说,越多的篇幅提到的关键词,意义越小。想象一下:每篇文章都会出现的“我”“你”“好”“坏”或者“营销”“互联网”,很难表达到具体的意义,而一篇文章如果出现了“脱氧核糖核苷酸”那么它的领域就更加的具体了。
因此,在所有的文档(语料库,如网页、文章)中出现越多次的关键词,IDF值越低,越少见的词(如品牌词,只有自己官网和PR稿有)IDF值则越高。
TF – IDF的算法就是把每一个词的词频,乘以IDF的值,得出一个分数。总分数越高的关键词,排名越靠前。举个例子:「小红书成为品牌方口碑营销根据地」,我们把他改成「小红书品牌营销成为了品牌方营销的根据地」。看起来差不多,但第一个句子品牌、口碑、营销各出现一次,第二个句子品牌、营销出现了2次。如果在简单的搜索引擎中,「品牌营销」的搜索结果,将会优先出现第2个句子而非第1个句子。