什么是分词算法?原理是什么?如何运用

什么是分词算法?原理是什么?如何运用

拿百度搜索引擎为例,搜索引擎获取到用户提交的关键词后,根据用户的关键词串进行匹配处理的一种技术,也就是将一个词切割成若干个词,如启蒙博客seo技术,则可分为启蒙、博客、seo、技术。

为什么需要用到分词技术呢?因为搜索引擎本身只是个机器,他没法子和人一样去思考。它只能用一些算法去计算网页。

分词算法常用的两种运行方式

1、用户搜索及匹配。
例如:我们在百度搜索一个词 “手机回收”,那么百度会先把这个词分为手机和回收两个词这个时候呢百度会先在库中搜索手机这个词然后进行第一轮的筛选。把网页当中没有手机这个词的去除,只保留带有手机这个词的结果,之后在从已筛选出来的网页中,筛选出带有回收这个词的页面。然后在所得结果里面根据页面评分给用户进行排序。

2、网页主题计算
前面启蒙博客也讲过,百度蜘蛛只是一个机器,并不能向人一样去思考,而在处理文章得时候,百度蜘蛛则会把文章也进行分词去处理,如过文章里 手机 这个词出现频率比较多,也就是所说得关键词密度,那么这个页面也就会定性为手机方面得文章。


搜索引擎是通过分词算法来计算网页的,如果我们能够合理的利用分词算法进行网页布局,会让网页将会有一个很好的得分。

关于我们 申请友链
Copyright © 2019-2020 启蒙博客 / 晋ICP备17007446号-2