TF-IDF(术语频率-逆文档频率)解释

2019年8月21日

术语频率逆文档频率(TF-IDF)是内容营销领域中经常被提及的一个有争议的术语搜索引擎优化空间

一些人声称这是一种秘密的内容优化武器,而另一些人则持怀疑态度。在这篇文章中,我们将研究TF-IDF是什么,以及它的局限性和使用场合。

别担心,我们会在数学上省事的。

Term Frequency (TF)

TF-IDF是一个公式,用于反映集合(语料库)中文档中的单词(术语)的重要性。

要理解TF-IDF,我们需要回到1957年,万维网出现的几十年前,IBM计算机科学研究员汉斯·彼得·卢恩的工作。他指出一个术语或术语组合出现的频率越高,“作者就越重视它们”。换句话说,一个术语的重要性(权重)与它的频率成正比。

文档中术语的原始计数可以用数学方法描述如下:

公式1

词频(TF)等于某个词在给定文档中出现的次数(频率)。尽管超出了本文的范围,但请注意,可以对公式进行修改,以考虑文档长度和长文档偏向等情况。

然而,有一个问题。

经常使用的词还有,但是,a,我,还有你将由于它们的频繁使用而被高度加权,尽管它们不是重要的概念。

逆文档频率(IDF)

这就引出了度规逆文档频率(IDF).IDF是由凯伦Spärck琼斯1972年,作为一种减少常用术语的权重,增加不经常出现的术语的权重的方法。

IDF用于确定一个术语在语料库中是常见的还是罕见的。与很少出现的词汇相比,常用词的信息价值更低。它被定义为“包含该词的文档的对数比例反比”。

它是这样的:

公式2


毫无疑问,这是一个数学上的拗口,但重要的是要记住,这个公式减少了那些常见单词的权重,如还有,a,还有没有什么信息价值。

TF-IDF

所以,把TF和IDF放在一起,你会得到这个:

公式3


数学已经够多了!

关键在于,高词汇权重是给定文档中的高词汇频率和集合中的低词汇频率的结果。

函数的工作方式是,一个词在语料库中出现的频率越高,比值就越接近1,使idf和tf-idf更接近0。所以这些常用词的权重很小。

与TF一样,IDF加权方案也有多种变体,包括平滑逆文档频率、最大逆文档频率和概率逆文档频率。

这些都是很好的术语,你可以用它们来打动你的内容营销同事。但我们就到此为止吧!

TF-IDF的挑战

Spärck琼斯先参考IDF作为项特异性1972年的论文。虽然这是一种实用的方法,但它还远远不是最优的,从理论的角度来看,它是开放的一些严峻的挑战

内容营销人员也有一个使用TF-IDF的问题基于工具的原因有很多。TF-IDF是为信息检索目的,而不是某些人提出的内容优化。TF-IDF是一个公式,用于计算语料库中文档中某个术语的出现频率,并降低频繁出现的术语的权重。

就是这样。

因此,它不能处理:

  • 语法
  • 语义(意义和关系)
  • 同义词
  • 词干化和词根化(产生屈折变化词的词根形式)

从TF-IDF获取这些输出并将其等同于任何类型的语义关系是一种想象力的延伸。该公式考虑了由于使用过于频繁而导致的总体超重。但它无法解释两者之间的细微差别。

这里有一个例子来说明。

根据TF-IDF,“内容策略”一词的十大加权术语包括:

  • 需要
  • 得到
  • 一个

这就带来了一系列问题,包括:

  • 这些主题是否与焦点主题“内容策略”相关?
  • 这些甚至可以被认为是主题吗?
  • 这些术语是否适用于内容策略的讨论?
  • 这些词汇真的重要到能排在前十吗?

TF-IDF工具通常依赖于谷歌中的前10或20个结果,但这并不能给你一个完整的画面。当遇到严重骨折时搜索意图,这些工具更有可能把你引入歧途。TF-IDF并不能解决你的内容和SEO问题,它只是让你感觉良好。

TF-IDF在哪里使用?

考虑到使用TF-IDF所带来的挑战,是否存在使用该算法的情况?是的,但它不是一个独立的解决方案,它只是一个组件。

说你使用TF-IDF来优化内容就像说你使用电子表格来进行内容营销一样。你说的不多。

当然,它有其局限性,但在某些情况下TF-IDF是有用的。根据发表在国际数字图书馆杂志,“TF-IDF是最常用的加权方案。”

TF-IDF可以很好地查找在许多文档中经常出现的停顿词,如“a, an, in, and, the”。由于停止词删除是文本摘要的一个组成部分,TF-IDF可以在这个应用程序中发挥重要作用。

TF-IDF的一个更新颖的用法可以在利用TF-IDF方法匹配图像与文本文档在2012年第五届图像与信号处理国际大会上发表。但我知道你在想什么。

是时候解决房间里的大象了。谷歌使用TF-IDF吗?

谷歌的搜索算法无疑是一头庞大而复杂的野兽。所以他们很有可能以某种方式合并TF-IDF。

但不要太兴奋。在这个视频中,高级网站管理员趋势分析师John Mueller提到TF-IDF的唯一上下文是停止词删除。

TF-IDF工具可以帮助您的网站排名更好吗?

TF-IDF虽然可以有效地去除停止词,但在自然语言处理中发挥的作用有限。所以,我们应该避免过分强调它在搜索引擎优化中的作用。

有些人断言TF-IDF在历史上与较高的排名相关。但相关性并非因果关系。可能是改进内容本身的行为带来了好处,而不是改进内容本身内容分析工具本身。

想了解相关的内容营销工具吗?看到顶级内容营销软件今天在外面。

在市场上找到最好的内容营销软件。立即探索,免费→

不要错过任何一篇文章。

订阅,让你的手指紧盯科技脉搏。

提交此表格,即表示您同意接收来自G2的营销通讯。
Baidu
map