HanLP词性标注集
HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料。所以,HanLP词性标注集兼容《ICTPOS 3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。 a 形容词 ad 副形词 ag 形容词性语...
HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料。所以,HanLP词性标注集兼容《ICTPOS 3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。 a 形容词 ad 副形词 ag 形容词性语...
摘要:本文指出了Mozilla Universal Charset Detection的一个Java实现(juniversalchardet)在处理短文本时的一个BUG、该BUG产生的原因及解决该BUG的方式。 一、问题现象 在《使用Jav...
摘要:本文介绍了在Java环境中对未知编码的文本或字符串进行检测/猜测的方法,分别给出了遍历和基于Mozilla Charset Detection及Mozilla Universal Charset Detection的两大类解决方案,给...
在很多场景下,我们需要检测某段文本的语种(如英语、日语、俄语等)以便于进行后续的进一步处理和判断,这属于语种识别(Language Detection/Language Recognition)的范畴。在Java中,我们可以使用Optima...
在百度上搜索“语种识别”关键词时,有一个靠前的链接中提到使用Apache Tika进行语种识别: 其中提到: 但实际上,Tika做不了语言检测,Tika也是通过调用GitHub上的开源代码实现的。此前,Tika中是通过类org.apache...
一、OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换、异体字转换和地区习惯用词转换(中国大陆、台湾、香港),其官网位于Github中...
摘要:本文介绍了Win7 64位环境下OpenCC(Open Chinese Convert) 1.0.4源码编译全过程,除VS2017外,VS2013以上版本也应该基本同样适用,其他版本的Windows操作系统也应该适用。本文除了完成基本...
Visual Studio 2017(VS2017)安装后,默认在“文件”菜单中没有“高级保存选项”,很多人以为“高级保存选项”消失了,导致不能修改文件编码。其实,这需要设置,具体步骤如下: 1、视图->工具栏->自...
在《使用Java解析Torrent文件(BT种子),基于使用Eclipse ECF中的org.eclipse.bittorrent方案》一文中,我们介绍了使用Eclipse ECF中的org.eclipse.bittorrent...
在Java中,当需要解析BT种子文件(Torrent)时,一种方案是使用Eclipse ECF中的org.eclipse.bittorrent。 Torrent是一个使用BEncoding的Dictionary,...