一、TF-IDF算法:
实际上就是 TF*IDF,TF表示词条在文章中出现的频率;IDF,其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,取 TF-IDF 值较大的几个词,就可以当做这篇文章的关键词。
TF是词频,
IDF是个相对不好理解的概念,公式我不写了,我会写另一篇文章详细说明这个算法。
二、HITS算法:
之所以存在HITS算法,是因为搜索引擎需要在全球所抓取的网页文档集合当中找到与用户搜索请求查询词匹配度与之相关最高的页面进行符合匹配,而这里的匹配度相关最高的则是一些高质量的“Authority”页面和“Hub”页面,而不是大家常常理解的站内文章优质原创等因素。尤其是一些权威页面,搜索引擎更加亲耐,因为这类站点页面的内容会更加满足用户查询的内容。
注意上面有几点比较重要的也是决定了排名的东西。
①认证公司和权威的重要性
除了 “Authority”页面和“Hub”页面 还有一些内容很值得关注。其实这个hits用法广泛,在新浪微博的用处应该比这个大,因为微博的认证功能可以对authority这个进行判断。大V和权威发声者就会迅速获得排名,比如重要媒体的认证,cctv或者人民日报这种权重一定很高。还有就是对于自己公司作品的权重相对高些,比如百度百科,百度知道等等。
②老域名的重要性(老网站的重要性)
如果没有相对的“Authority”也有机会展现,那么会通过其他的方式参与竞争,比如说:域名年龄证明你的可靠性,垃圾的内容一般是无法坚持很长时间的。所以大部分人都说黑帽seo都是速度快但是很快就不行了,也是这样原因。因为黑帽seo很容易就会被发现。
③用户体验的重要性
除了这些仍然会有很多好的内容展现,并不是说我不是大v和知名媒体,或者我的idf并不是很高。(idf我们暂时理解为关键词竞争度。因为他的数值本质上靠着关键词竞争来决定的。)提高我们的内容质量和网站或者自媒体的用户体验。好的内容就是用户体验的一种,当然还有很多。所有用户能感觉到的都是用户体验。
三、百度分词算法:
分词技术就是搜索引擎针对用户提交查询关键词进行的查询处理后根据用户的关键词用何种匹配方法进行的一种技术。简单来说就是,如果字符串包含小于等于三个中文字符的话,那就保留不动,当字符串长度大于四个中文字符的时候,百度的分词程序会出现把这个字符串来切割成为不同的词。
以上就是搜索引擎的几种常规的算法,和参与排名的方法。