http://www.wocaoseo.com/thread-54-1-1.html
我已经在博客说了学seo研究算法是愚蠢的行为,但是很多人仍旧来问se的算法问题,其中最多的就是问TF-IDF算法,为了能够让大家加深对这个的问题的认知,我因此就深度解析下这个算法的一些问题。
第一点,TF-idf是什么?

TF和IDF是两个不同的概念,tf通过一个文档内词项的重复次数来表示这个词项在所有词项中的重要度,而另一个idf则是一个词在所有文档中出现次数表示这个词项的重要程度,出现的越多也就是常用词,由于主题性不强重复越多重要度越低。TF-IDF是一种统计方法,

用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量

或评级。

这个百科的解释加上我自己的描述,不知道大家是否很清楚了?总之TF-IDF是通过一定统计意义来表示词项的重要度的。seo为何很关注他呢,因为他可能影响检索词和搜索词的相关性,进而影响排名。
第二点,TF-IDF算法是解决什么的,能起到多大的作用?

其实我们既然研究了这个算法,就不能不去了解这个算法是解决什么的,其实我刚才也说了,它主要解决的就是一个文档中词项权重的问题(很多人都知道这个算法影响排名,却不知道这个算法为何能影响排名的)。那么我们可以再问下,影响词项权重的因素有多少呢?目测大约也就5、6个吧(但是我们都知道几个呢?),TF-IDF在词项中占据什么地位呢?重要度或许可以排在第三位、第四位的样子(也不是最主要的因素嘛)。而且我一直说的,如果你真的要研究算法,就不仅要研究算法是什么,也要考虑下算法的特征和算法特征的处理,因为他们都影响最终的结果,比如这个TF-IDF的算法。
第三点,TF-IDF的算法特征是什么

这是人们很少关注的一点,算法的特征和算法特征的处理之所以重要,是因为凡是算法都会控制因素的影响,或者说进行平滑性处理。这个也不例外,很多人没有注意到这个影响,或者对这个有了过激的思想,那么就会对很多的seo细节耿耿于怀,却不得其解。想学会这点,我觉得那个谷歌的黑板报很多讲算法的时候都说到了,很多实际应用模型和理论模型大多都有一定的差距,这就是现实。
第四点,TF-IDF算法再向上,问题的来源是什么,处于检索的什么地位?

其实,我一直推荐的是跳出算法禁锢,放在更长远的看待这个问题,比如TF-IDF要解决的问题的根源是什么,这个问题可以在检索原理中处于什么样的一个地位,会不会随着时间而改变……。只要你向上思考,慢慢更多的seo浮出来,那个神马的TF-IDF也可以慢慢地放弃了。
第五点,算法之外

TF-IDF是用来研究词项权重的,早期用来进行相关性判断,但是也并不一定一成不变的,比如BM25算法在很多方面都比他更加具有优势。但是随着检索技术的进步,比如语义分析等技术的发展,这个算法也会被渐渐限制了起作用的范围和影响力。这也不能不说研究算法的悲剧。而且,我一直说的是,我们完全可以跳出这个范畴,从问题本身出发去思考问题,或者更深层的站在检索的角度观察这个问题的意义,观察解决这个问题可行性,观察结果和我们所想的差距……嘎嘎,不能再深入……

PS:我最近一直四处飘,也在发力学些新东西,所以时间不是很充裕,你所看到的博客我几乎都是有所想法的时候,花费了大约30多分钟一气呵成的,难免有很多瑕疵,万勿见怪。我会继续更新seo思维进化论系列,里面虽然没有讲技术,但是我觉得还是有些东西值得seoer去思考下的,下面我也打算写一些seo入门的东西,希望能给一些新人有些帮助。我所做的一切,最主要的目的还是希望大家能冷静地看待seo,慢慢地回归正途。焦大:seo思维进化论(番外)

以上内容由www.feedsoso.com生成,订阅地址为http://www.wocaoseo.com/forum-37-1.html

焦大:seo思维进化论(番外)的更多相关文章

  1. 焦大:seo思维进化论(上)

    http://www.wocaoseo.com/thread-51-1-1.html seo排名浮动一直是很多人关心的事情,但是背后的原理却一直很少被人知道.在seo是什么里说了seo的核心是什么,我 ...

  2. 焦大:seo思维进化论(中)

    http://www.wocaoseo.com/thread-52-1-1.html 给你一个网站,你第一步做的是什么?我觉得这个是一个绝好的问题,但是却也是个难题,最常见的答案是莫过于做修改标题/查 ...

  3. 焦大:seo思维进化论(下)

    http://www.wocaoseo.com/thread-50-1-1.html 很多东西在不同地方其所有的价值和意义是不一样的,seo亦是如此.在seo操作中我觉得最核心的就是检索价值观和用户需 ...

  4. 焦大:seo思维光年(中)seo体系化

    http://www.wocaoseo.com/thread-56-1-1.html 光年的seo培训一直被业界公认为高端的培训,其主导的seo数据化一直对现在很多人的影响至深,比如我自己.但是也有人 ...

  5. 焦大:seo思维光年(上)检索的价值观

    http://www.wocaoseo.com/thread-55-1-1.html 检索的价值观是什么?最近很多人咨询我这个问题,因为在百度上根本找不到相关的资料,其实这个东西也是我自己总结的,比如 ...

  6. 焦大:seo思维光年(下)seo操作如何度量化

    http://www.wocaoseo.com/thread-57-1-1.html 如果不能度量就无法进行改进,所以度量化或数据化是网站分析和网站研究必须进行的一个方面,seo也不能例外.我在上篇文 ...

  7. 谈论seo思维性对优化中起到决定性的作用

    在<SEO的艺术>又出版之后,SEO艺术更加受到了广大SEOer的关注和热捧,在这本书里面,也有很多的不为人知的技巧分享.SEO的艺术强调的是SEO融入网络营销,融入社会化媒体大潮,然而这 ...

  8. java番外茶余饭后闲聊

    java番外茶余饭后闲聊 **本人博客网站 **IT小神 www.itxiaoshen.com 今天聊点题外话没事时可以作为平时沟通交流的谈资,接下来一起简单了解下个人知晓对Java界开发产生深远影响 ...

  9. 【番外篇】ASP.NET MVC快速入门之免费jQuery控件库(MVC5+EF6)

    目录 [第一篇]ASP.NET MVC快速入门之数据库操作(MVC5+EF6) [第二篇]ASP.NET MVC快速入门之数据注解(MVC5+EF6) [第三篇]ASP.NET MVC快速入门之安全策 ...

随机推荐

  1. PHP date_default_timezone_get() 函数

    ------------恢复内容开始------------ 实例 返回默认时区: <?phpecho date_default_timezone_get();?> 运行实例 » 定义和用 ...

  2. 从jdbc到spring-boot-starter-jdbc

    从jdbc到spring-boot-starter-jdbc jdbc 是什么 JDBC是一种用于执行SQL语句的API,可以为多种关系数据库提供统一访问,它是由一组用Java语言编写的类和接口.是J ...

  3. 分析"傍富婆发财"

    视频地址https://www.bilibili.com/video/BV1pZ4y1u7jf 半佛 被富婆阿姨毒打的原因: 1.地位不对等导致工具化 资源不对等的情况下,尤其是一方极度依赖另一方资源 ...

  4. 高级搜索树-伸展树(Splay Tree)

    目录 局部性 双层伸展 查找操作 插入操作 删除操作 性能分析 完整源码 与AVL树一样,伸展树(Splay Tree)也是平衡二叉搜索树的一致,伸展树无需时刻都严格保持整棵树的平衡,也不需要对基本的 ...

  5. C++实现二叉树的链接存储结构(先根、中根和后根遍历)

    验证二叉树的链接存储结构及其上的基本操作. [实验要求]: 1. 从文件创建一棵二叉树,并对其初始化: 2. 先根.中根.后根遍历二叉树: 3. 在二叉树中搜索给定结点的父结点: 4. 搜索二叉树中符 ...

  6. 2020-05-24:ZK分布式锁有几种实现方式?各自的优缺点是什么?

    福哥答案2020-05-24: Zk分布式锁有两种实现方式一种比较简单,应对并发量不是很大的情况.获得锁:创建一个临时节点,比如/lock,如果成功获得锁,如果失败没获得锁,返回false释放锁:删除 ...

  7. C#LeetCode刷题之#633-平方数之和( Sum of Square Numbers)

    问题 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3885 访问. 给定一个非负整数 c ,你要判断是否存在两个整数 ...

  8. async 函数的含义和用法

    Generator函数的含义与用法 Thunk函数的含义与用法 co函数库的含义与用法 async函数的含义与用法 一.终极解决 异步操作是 JavaScript 编程的麻烦事,麻烦到一直有人提出各种 ...

  9. 使用css设置边框背景图片

    使用css的特有属性,给不同的盒子添加边框图片. 为什么会有这一场景呢.因为,UI给我们前端的边框图片可能未必适合我们当前的内容. 这里我们主要使用到的属性有: border-image-source ...

  10. 【NOIP必备攻略】 基本noilinux使用方法

    现在linux系统已经成为了NOIP竞赛的一大操作系统,如果连最基础的操作都不会,那就更别提怎么得分了,万一操作失误,可就爆零了.所以小编特意发这样一篇博客,教你快速上手noilinux! ▎ 常用操 ...