在线体验

产品下载

NLPIR大数据搜索与挖掘共享平台, (以下简称NLPIR),汇智语言理解,掘金内容价值,让数据成为智慧,助力企业发展。NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

文档抽取, 对doc、excel、pdf与ppt等多种主流格式文档进行文本信息抽取,信息抽取准确率极高,效率达到大数据处理的要求。

汉语分词, 对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。用户可在分析过程中导入自定义的词典。

文本分类, 根据规则或训练的方法自动对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

智能过滤, 对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,并实现语义精准排歧。

文本聚类, 能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

文档去重, 快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出保存所有的重复记录。

摘要实体, 自动摘要能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容。实体抽取对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

新词发现, 从文本中挖掘出具有内涵的新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。

文本校对,对文本中出现的拼写错误,语法错误,常识错误进行识别,识别率极高,并采用云服务引擎,office 插件等模式,实现用户的灵活操作。

机器翻译,针对多语种实现机器翻译,包含:维吾尔语、藏语等小语种的自动翻译,可进行在线自动采集双语语料库,自动更新机器翻译模型。

人工服务

客服1

电话:010-62648216-812

QQ :3121556514

Insert title here