NLPIR语义分析解决自然语言理解技术难题
服务项目 |
数据挖掘,语义智能,汉语分析,中文分词 |
面向地区 |
|
随着计算机科学的不断发展和成熟,计算机应用开始迈人知识处理、语言理解阶段,人们对计算机的智能提出了新的要求随着社会的日益信息化,人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。
自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。
自然语言理解技术的含义:
, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。
其次, 自然语言的各个层次上都含有的不确定性。在语音和文字层次上,有一字多音、一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不确定性问题; 在语义和语用层次上, 也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决, 而借助于更大的语言单位乃至非语言的环境背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性的能力和常识推理能力, 体现在语言上就是利用语境信息和常识消除歧义的能力。使计算机获得同样强大的能力, 是从事自然语言理解的学者梦寐以求的目标。
另外, 自然语言不是一成不变的死的语言, 它在社会生活中发展, 在操不同语言和同一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在一夜之间突然流行起来; 特殊的人群结构变化会导致新的语言或新的语言变体 (如方言) 的出现。这些都要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。
后一点, 自然语言是人们交流思想的工具。既然交流的是思想, 那思想本身在计算机里的组织结构就显得格外重要。在人工智能里, 这就是“知识表示”的问题。可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的影响。
北京理工大学大数据实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等功能。
在大数据时代,对海量文本信息进行有效的语义分析已经是自然语言处理、信息检索、信息分类、信息过滤、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题,它影响着上层信息服务与信息共享的质量和水平。NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。
查看全部介绍