新闻资讯

分享互联网行业资讯,探寻网站建设新风向

网站优化代理融合了网络精准采集自然语言理

日期:2020-05-01

  也许你可以借助NER(命名实体比较多都是词组)、Dependency Parser(根据词与词的关系,定义一些规则抽取词组,但是Parser效果一般)、SRL(类比,Parser,但是开源工具的效果也一般)。

  也许你可以类比中文分词的大词表(其实也是常用的方法),爬一些词组,然后用匹配分词组。

  英文分词相对于中文分词来说是非常简单的,因为英文(西方语言)语言的基本单位就是单词,所以分词特别容易做,大概需要3步:

  stopword就是类似a/an/and/are/then 的这类高频词,高频词会对基于词频的算分公式产生极大的干扰,所以需要过滤;

  词干提取(Stemming) 这是西方语言特有的处理,比如说英文单词有 单数复数的变形,-ing和-ed的变形,但是在计算相关性的时候,应该当做同一个单词。比如 apple和apples,doing和done是同一个词,提取词干的目的就是要合并这些变态;

  但针对于要把某几个单词可以构成一个词组,并作为一个分词结果,可能在国内的分词软件可以实现的不是太多,今天我推荐一款软件北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析平台。

  NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包含精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。

  但更为重要的是NLPIR大数据语义智能分析平台是可以自定关键词库的,自己可以根据自己的要求来设置关键词并添加到关键词库里,在分词的过程中系统就会按照设定好的关键词分词了,极大的解决了特定词或专业词没法分词和分析的难题了!

  没有试过,不过理论上应该可以用统计分词的方法,只不过将英语的一个个词,当作汉语的一个个字。不过这需要大量的语料来学习。
以上信息由常州声谷信息科技有限公司整理编辑,了解更多网站优化,网站优化代理,单词优化,网站优化哪家好,单词优化代理,正规网站优化代理信息请访问http://www.shengguxinxi.com