临沂百度公司对百度引擎内容处理和索引方法的分析(一)
众所周知,百度还是喜欢文字的,那么,百度对内容处理和索引有什么规律和方法呢?现在,临沂百度公司对百度引擎内容处理和索引方法的分析。
一、提取文字
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
二、中文分词
中文分词是中文搜索引擎特有的步骤,中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。中文分词方法有两种,一种是基于词典匹配,另一种是基于统计。
基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。
基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。在实际使用中,分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。SEO人员唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、H标签及黑体中出现关键词。
三、去除停止词
无论是英文还是中文,页面内容中部会有一些出现频率很高,却对内容没有任何影响的词。如“的”“地”“得”之类的助词,“啊”“哈”“呀”之类的感叹词,“从而”“以”“却”之类的副词或介词。英文中的常见停止词有也e、a、an、to、of等。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
四、消除噪声
噪声并不是指网页中的嗜杂的声音,而是指页面上对页面主题没有贡献的内容,比如版权声明文字、导航条、广告等,这些内容对页面主题只能起到分散作用。因此搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
一、提取文字
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
二、中文分词
中文分词是中文搜索引擎特有的步骤,中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。中文分词方法有两种,一种是基于词典匹配,另一种是基于统计。
基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。
基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。在实际使用中,分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。SEO人员唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、H标签及黑体中出现关键词。
临沂seo对百度内容处理和索引方法的分析(一)
三、去除停止词
无论是英文还是中文,页面内容中部会有一些出现频率很高,却对内容没有任何影响的词。如“的”“地”“得”之类的助词,“啊”“哈”“呀”之类的感叹词,“从而”“以”“却”之类的副词或介词。英文中的常见停止词有也e、a、an、to、of等。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
四、消除噪声
噪声并不是指网页中的嗜杂的声音,而是指页面上对页面主题没有贡献的内容,比如版权声明文字、导航条、广告等,这些内容对页面主题只能起到分散作用。因此搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
- seo学习切忌掌握皮毛就上手
- 网站关键词的选择都有哪些要考虑的因素
- 建站免费教推广
- 新站做好站内优化是关键
- 什么是死链接?
- 别把老域名太当回事,新域名打造10分钟秒收秒排名!
- 临沂网站优化分析:为什么网站页面没有被抓取
- 提高网站排名几个简单的问题
- SEO之关键词如何设置
- Sandbox-沙盒效应
- 【seo营销】搜索引擎评级时考虑的因素
- 一次搜索百度+谷歌,你学会了吗?
- 临沂企业网站优化的六个关键性建议
- 什么是临沂网站制作关键词矩阵
- 内部链接优化可以让你的网站排名保持的更稳定
- 临沂百度公司:百度引擎是如何识别内容相关性的
- 临沂网站优化:百度石榴算法大事件的背景
- 临沂seo:搜索引擎是如何判断网页中关键词的权重
- 【seo经验分享】外链与反链的区别
- 算法撬动排名,日IP流量增长500%的秘密(附学员案例)