我们把某个关键词提交到百度框的时候
,中文的百度必须通过分词技术得到用户需要的信息
,并反馈给用户
。这篇文章,北京弈聪和大家了解这个关键词搜索过程和原理
。在搜索的时候,一般我们分四种情况:
一、百度后台根据分隔符或分词词典来进行密切的切分
用户在百度敲入关键词并按回车后,百度后台首先判断这个词中是否有空格、标点符号等,如果有,百度会把这个关键词再一次的分解成几个小的关键词进行分析,如果没有分隔符则按照后台的分词词典进行关键词切分。
我来举个例子,比如我们在百度搜索“黑客防线SEO”,点击排名第一的网站快照,百度会在快照把两个词用不同颜色标注出来,如“北京”是黄色,“SEO”是淡蓝色。
这个实例就告诉我们,我们在搜索“黑客防线SEO”的时候,百度把它分解成了“北京”和“SEO”拿来搜索。中间如果是“,”搜索的结果其实是一样的。这就是为什么在写超过两个关键词的时候建议大家用半角英文逗号来分割,这样就是能避免搜索辛苦的进行重复解析。中文的分词技术相对与其他语言要难的多,因为它是不分词没有空格的,不像英文每个单词都有空格,这就给百度带来非常大的困难,完全没有我们想象的简单。目前在中文分词技术上,百度还是优于google的。
二、当出现重复词百度是怎么处理的
比如你在搜索“黑客防线SEO
seo”和“黑客防线SEO”的结果是一样的。这说明在百度出现重复词的情况下,会直接舍弃,保留一个,所以出现的结果都是一样的。但是google不同,搜索这两个词组的排名是不同的,说明google在这个方面加强了运算参数。
如果你在百度搜索“
seo黑客防线SEO”和“黑客防线SEO”,得出的结果也是一样的,这也说明百度直接忽略前后关系。但是在google的搜索结果中就不同,说明google引入了前后关系参数。
三、当搜索英文词的时候百度怎么处理
当用户输入英文词的时候,这个英文词会贝当作一个词来切分,然后以这个英文词为界,再分前后的次级关键词。比如你在搜索“百度SEO”的时候,百度会把他们切分成“百度”“SEO”,并且会把SEO当做一个重要词保留,不管这个词在这个词组中语法怎样。
四、百度会的搜索扩展处理会提高信息检索的召回率
百度会根据用户搜索的关键词来判断潜意词和同意词。另外,百度在检索的时候,还会根据主题来归类,比如你搜索“北京
网站建设 www.hacker.com.cn”,
网站设计也会显示红色。