TF-IDF算法为什么对SEO很重要?
10312023-02-17
在过去一年左右的时间里,你可能已经看到TF-IDF一词被抛出,很多搜索引擎优化风潮来去匆匆,一些最有趣的搜索引擎优化最终会吸引惩罚,对吧?
但TF-IDF有点不同。
TF-IDF算法不是对搜索引擎的操纵,它是一种分析内容主题的方法,它建立在与搜索引擎本身相同的原则之上。因此,对于需要真正客观的方法来衡量和改进内容的SEOer来说,它具有惊人的潜力。
我最近刚刚将案例研究完全包含在其能力范围内,结果非常有趣。
我想确保在我获得从个人实验中学到的内容之前,我将了解TF-IDF的知识,以及它是如何使用的。
TF-IDF是什么?
在字面上,它表示术语频率乘以逆文档频率。
TF-IDF是一个结合了这两个测量的方程式,测量一个术语在页面上的使用频率(TF),以及测量该术语在一个集合的所有页面(IDF)中出现的频率 – 来分配得分或权重,该术语对页面的重要性。
该方程在学术界有着悠久的历史,语言学和信息架构等领域的研究人员将其用作在短时间内分析大量文档库的方法。
它也被信息检索程序(包括所有搜索引擎)用于有效地排序和判断数百万结果的相关性。
你想做什么和搜索引擎想要用同样的信息做什么之间有一个重要的区别。
搜索引擎想要考虑由网络上的所有结果组成的集合,而您想要将一个页面或网站与仅仅表现不佳的网站进行比较…. 即前10名。
更深入地看看TF和IDF …… TF-IDF的等式
您可能需要做一些数学计算才能获得所有测量,即TF和IDF。但我保证不会那么困难。根据应用,TF-IDF的等式可能比我在下面使用的示例复杂得多。
无论是否简化,如果您尝试优化网站,通常不希望被手工抓住。这些方程式将帮助您了解TF-IDF的功能,但它是我在最后讨论的工具,真正开辟了潜力。
通过对一个术语出现在一个页面上的次数进行原始计数,解决第一个术语频率。然后,将该数字插入下面的等式:
期限频率=(原始计数)/(文件总字数)
TF分数可以告诉你是否过于频繁地使用单词,但只有在权衡其他指标时它才真正有用。
通过将术语出现的文档数除以所选集合中的文档总数来计算逆文档频率,如下所示:
反向文档频率(术语)= log(文档数/ /(包含关键字的文档)
通过IDF分数,您现在可以衡量短语对页面的重要性,而不仅仅是其使用次数,这很重要,因为它让您了解构建搜索引擎算法的人的心态。
为什么TF-IDF对SEO很重要?
能够填写此等式的最终目标是能够为您的内容提供可操作的相关性分数。使用TF-IDF工具,您可以将您的分数与任何学期的最佳表现分数进行比较。
通过对此度量的页面进行评分,您几乎可以了解Google,百度如何对专用于同一主题的网站进行评分。
目前尚不清楚谷歌或百度等搜索引擎是否在他们的算法中使用TF-IDF,如果是,那么它是否是一种变异形式?也就是说,有一些私人相关性研究,我已经知道,其数据表明它可能。TF-IDF分析允许您根据算法已经奖励的内容优化内容中的术语平衡。
使用TF-IDF增强关键字研究
TF-IDF比关键字密度更进一步,它可以让您了解网站上整个单词系列的见解。
例如,假设您已经完成关键字研究以优化“SEO培训南宁”的页面。大多数关键词研究工具都会吐出像“南宁的SEO培训”,“南宁SEO培训”等关键词。
当您使用我稍后介绍的TF-IDF工具时,您还可以找到在使用常规关键字研究之前您从未找到的排名靠前的页面使用的相关非SEO术语。“合法”,“经验丰富”,“权利”和“实践”等术语。
这些词语不会出现在关键词研究工具中,因为文章本身并没有为他们排名,但他们需要讲述搜索意图的故事。
如何使用TF-IDF?
假设您正在检查的文档(例如客户端的登录页面)包含术语“PPC”12次,并且长度大约为100个字。如果您想开始分析这段内容,首先要将其插入前面的术语频率方程式中。
TF(PPC)=(12/100)= 0.12
现在,假设您想了解这种用法与网络其他部分的使用情况的比较。从10,000,000的样本大小来看,这些页面中的至少一些将是关于Web服务的,并且将包括对PPC的引用。比方说,300,000。
我们可以使用这些数字来完成逆文档频率方程。
IDF(PPC)= log(10,000,000 / 300,000)= 1.52
现在,您使用TF-IDF等式基于该术语对页面进行评分
TF-IDF(PPC)= 0.12 * 1.52 = 0.182
事实是,这不是一个满足限制的问题。您希望将目标字词的得分与第1页上效果最佳的网址进行平衡。
某个学期的高分并不一定是好事(毕竟,100个单词中的12个使用很多)。
那些像“是”,“这个”或“和”这样的常用词呢?由于方程式的结构,这种噪音并不是真正的问题。
整套文件经常使用这些单词,因此这些单词的重要性大大缩小。
让我们回到这个等式。为了真正说明差异,我们会说页面上的“是”和“PPC”一样多。
TF(是)=(12/100)= 0.12
但是看看当我们完成IDF方程时会发生什么,知道绝大多数结果将包含“是”这个词,比如8,000,000个。
IDF(是)= log(10,000,000 / 8,000,000)= 0.09
这将产生最终的TF-IDF值:
TF-IDF(是)= 0 .12 * 0.09 = 0.010
TF-IDF值与文档中使用短语的次数成比例增加,但在这种情况下,它在整个集合的其余部分中被字的频率所抵消,其值分数与最后一个例子。
换句话说,这个词越常见,IDF越小。
短语怎么样?
搜索引擎倾向于在单个术语上给予多词短语特大的权重。
在考虑语言的自然质量时尤其如此。
当然,您希望将这些考虑因素用于执行TF-IDF评估。
幸运的是,您不需要额外的努力,大多数TF-IDF工具都能够将关键字计算为2字和3字版本。
当TF-IDF专门用于学术和研究目的时,术语已被计算为称为双字母组的双字组或称为三元组的3字组。搜索引擎采用了同样的做法,因此以与他们相同的方式分析您的内容非常重要。
使用之前PPC页面的示例,让我们看一下可能出现在该页面上的短语,以及这些短语可能对该主题提出的建议。
“PPC广告系列需要很多广告”
这个短语中的每组两个单词都可以计算为一组双字母组合。
一个PPC
PPC活动
活动需求
等等
当添加第三个单词时,当考虑更长的短语时,会更清楚地添加多少重要的上下文。
PPC活动
PPC活动需求
等等
并非所有TF-IDF工具都能够处理两种以上的组合,TF-IDF几乎适合任何SEO的内容开发过程。
在开始构建内容之前,这是一种学习更多知识的方法,然后知道在哪里以及如何再次完善它。
一旦选择了工具,只需逐步了解每个关键字选择的过程。如果您还没有选择TF-IDF工具,可以在下一节中找到我用它们执行的测试中的数据。
1)写内容
将内容写入您所知道的最高标准,或参考您为客户优化的内容。创建一个包含一个,两个或三个单词的主题列表,并将其添加到您选择的TF-IDF工具中。
您的目标是定位关键字以及定位它们的顶级域名的网址,以揭示您缺少哪些主题,以及您没有深入讨论哪些主题。
2)插入TF-IDF工具
每个工具的工作方式略有不同,他们还会跟踪不同的信息,但最有用的信息是帮助您了解竞争对手如何通过使用关键字获得成功。
利用您选择的工具所具有的任何功能,帮助您发现与排名前10-20的顶级网址相关联的字词,然后生成反映其所使用的每个其他字词的权重的分数。
3)重新优化内容
现在您已经完全了解了每个竞争对手所涵盖的主题,并了解了这些词的使用频率,您可以使用该信息来优化您自己的内容。
对内容进行第二次传递,并寻找自然的方式来介绍您尚未涉及的主题。请记住,你的动机不是不自然,而是恢复他们目前失踪的自然联系。
4)发布
使用您最近从搜索中收集的见解发布更新的内容。从这里,您可以继续分析它,以及排名的任何变化。
5)在TF-IDF图之前和之后显示
TF-IDF的一个奖励是它允许您在非常微小的水平上跟踪性能。在对内容进行的每次调整之前和之后,您都可以生成有关页面上主题平衡如何变化的图表。这些对于有兴趣查看您在其内容中所做更改的特定指标的客户非常有用。
TF-IDF工具
博主只找到一些针对Google等英文搜索引擎优化的TF-IDF工具,对于中文TF-IDF工具暂时没有找到。
1.text-tools
2.ftf.agency
结论
我希望这篇文章能够帮助我们清楚地了解TF-IDF分析。
您不仅学习了它背后的数学,还了解它如何应用于SEO并在您的文章中创建相关性。
相关内容:TF-IDF算法解释