NLPIR语义分析系统
自然语言处理奠基之作
国际、国内测评双第一
汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%。
文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。
自动识别多种语言编码,例如Big5、Unicode、UTF-8、GB1830等,并统一转换为一种编码;能够自动识别GBK内部的汉字繁简体,并统一转换为汉字简体。
灵玖IFCA系统是灵玖中科软件(北京)有限公司自主研发的大数据信息智能过滤与内容审计系统,可以快速便捷地匹配大量自定义的关键字、词。
大数据中不可避免地存在着重复数据,以互联网新闻网页为例,大约60%的互联网新闻网页都是重复的。所谓重复数据,往往指基本内容一致,但具体字样往往还存在着少许差异的数据。
大数据的特点有体量巨大,而有价值信息的密度低,因此,需要采用大数据分类的技术,对海量数据进行分类整理。大数据分类技术能够按照用户预设的类别体系,将数据进行归类。
大数据文本聚类能够对大数据文档进行自动梳理,归纳热点趋势,把内容相近的信息归为一类,按照热度进行排名,并自动为该类生成标题和主题词。适用于自动生成热点排行、热门事件识别、热点趋势发现等诸多应用。
大数据量对应着海量噪杂的信息,不可避免的带来大数据困惑。如何从大数据中提取关键性的代表性特征,可能是某些词汇,也可能是某些短语、命名实体或流行用语,则成为大数据分析的一把利器。