您现在的位置是:首页 > 企业SEO优化企业SEO优化
SEO什么是正向匹配?
江湖快报网2024-04-04 06:32:36【企业SEO优化】人已围观
简介一、SEO什么是正向匹配?
【翼好SEO公司】建议你不要纠结这个专业术语,因为这是搜索引擎在分词的时候用到的算法。具体解释如下,估计你也看不懂。
正向匹配:最大匹配算法是自然语
一、SEO什么是正向匹配?
【翼好SEO公司】建议你不要纠结这个专业术语,因为这是搜索引擎在分词的时候用到的算法。具体解释如下,估计你也看不懂。
正向匹配:最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。
正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。
首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。
实例:
S1=计算语言学课程是三个课时 ,设定最大词长MaxLen = 5 ,S2=
字典中含有三个词:[计算语言学]、[课程]、[课时]
(1)S2=;S1不为空,从S1左边取出候选子串W=计算语言学;
(2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ ”, 并将W从S1中去掉,此时S1=课程是三个课时;
(3)S1不为空,于是从S1左边取出候选子串W=课程是三个;
(4)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是三;
(5)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是;
(6)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程
(7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ ”,并 将W从S1中去掉,此时S1=是三个课时;
(8)S1不为空,于是从S1左边取出候选子串W=是三个课时;
(9)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三个课;
(10)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三个;
(11)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三
(12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时 W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ ”,并将 W从S1中去掉,此时S1=三个课时;
(13)S1不为空,从S1左边取出候选子串W=三个课时;
(14)查词表,W不在词表中,将W最右边一个字去掉,得到W=三个课;
(15)查词表,W不在词表中,将W最右边一个字去掉,得到W=三个;
(16)查词表,W不在词表中,将W最右边一个字去掉,得到W=“三”,这时 W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ ”,并 将W从S1中去掉,此时S1=个课时;
(17)S1不为空,从S1左边取出候选子串W=个课时;
(18)查词表,W不在词表中,将W最右边一个字去掉,得到W=个课;
(19)查词表,W不在词表中,将W最右边一个字去掉,得到W=“个”, 这时W是单字,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ ,并将W从S1中去掉,此时S1=课时;
(20)S1不为空,从S1左边取出候选子串W=课时;
(21)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ,并将W从S1中去掉,此时S1=。
(22)S1为空,输出S2作为分词结果,分词过程结束。
中文分词算法的Python实现:
脚本接受两个参数,一个是输入文件的路径,另一个是词典的路径。
二、python3.5 爬虫 session怎么用
找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。
具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件!
三、像color=#999999这种,在python中用正则怎么匹配?
pattern = re.compile(r'color=#\w{6}')
pattern.findall('color=#999999')
四、python 怎么做网站
python是一种脚本语言,是负责后台的,和asp ,php等类似。
给个网站你去参考一下“网站开发深入浅出 - Python篇”
很赞哦! ()
上一篇:武汉财优化法务公司可靠吗?
下一篇:返回列表
相关文章
随机图文
-
网站托管的托管介绍
网站托管指企业已经有网站,在不想或者没必要聘请专业技术团队来更新、维护、优化和推广网站的情况下,把网站委托给第三方网站托管公司管理,由第三方代为网站维护、更新、SEO和 -
大家好,有知道seo优化哪里能学的吗?我想学seo优化不知道哪里的好?
优化网站突破点有四个:1.用户体验摆在首位....2.外部内部的结构性...3.旺道SEO优化软件增加权重及外链 ...4.最后的一步也是影响公司业务销售的关键:IP点击流量.这四个步骤,都 -
怎样进行网站SEO优化
还是SEO界那句老话,内容为王,外链为皇。站内优化只需系统性地操作,而站外优化却是可以无限延伸的,外链为皇的时代,学会高效地建设外链将使你的网站排名节节攀升、势如破竹。所谓 -
邵阳SEO是做网站优化的吗
邵阳SEO网站简介: 邵阳SEO隶属于商才SEO旗下专业提供企业网站优化的子站,邵阳SEO是为邵阳地区瞩目新一代营销的网站专业及设计公司!我们能够做到迅速启动你的目标客户群 体;大