30沙龙纪要改

主题:漫谈大数据下的中文分词

嘉宾:孙健

主办:统计之都

场地:中国人民大学

组织:蔡占锐、魏太云、邓金涛、冯璟烁

纪要:邓金涛

简介:第30期沙龙(北京站)于2015年9月20日在中国人民大学顺利举行,本次嘉宾是来自北京英富森软件股份有限公司旗下的凌云实验室的孙健先生,是ANSJ分词的创始人,研究方向是情感分析和倾向性分析。

本次沙龙的主要内容

孙健先生首先幽默风趣地解释了ANSJ分词的名字来历,并对中文分词的概念进行了初步的解释。接下来又利用PPT对中文分词的应用范围进行了简单的介绍,让来宾们都对中文分词的用途有了一个比较清晰的认识。

在介绍完中文分词的一些概念性元素后,孙健先生将重点转移到了目前中文分词在应用过程中遇到的一些困难,其中就包括中文歧义的识别(包含交叉歧义、组合歧义、真歧义)、实体名识别、人名识别和机构名识别。在这几种难题中,又以机构名识别最为困难,据孙健先生介绍,这主要是因为一般来说机构名的词长都是不固定的。紧接着孙健先生又对颗粒度进行了一个比较详细的解释,如下:颗粒度问题是最难的问题,颗粒度的大小很难把握,颗粒度越小歧义越高,歧义多召回率高;颗粒度越大准确度越低,召回率低;系统不同需要的平衡点不同。孙健先生还用了一些有趣的案例,来为大家生动的解释了分词的难度所在。

最后在介绍完大量的案例后,孙健先生介绍了ANSJ中文分词的主要功能,以及其工作原理和分词顺序,并且对NLPCN工具包进行了基本的介绍,稍后展示了NLPCN的主站,通过网站上的文本分词展现了分词的各种成果,例如NLP分词,精准分词,简繁体转换等等。并且当场在现场随机找了几个现有不同类型的文本,输入到NLPCN网站中,进行分词的演示。孙健先生对NLPChina的group进行了简单的介绍,介绍了其各种各样的开发成果,以及其源代码。

最后,孙健先生就现场来宾的疑问进行了讨论解答,本次沙龙到此结束。

沙龙PPT下载地址请点击

发表/查看评论