hankcs
上海 松江区

加关注

【A Hierarchical Bayesian Language Model based on Pitman-Yor Processes】这篇论文通过把unigram上的Pitman-Yor语言模型拓展到ngram,提出了一种新的平滑方法…http://t.cn/R8rMabq ​

2月7日 14:07转发|评论

HanLP的R语言接口,包装了分词、关键词提取、简繁转换、句法分析、文本分类等接口。

第五逻辑 :对@hankcs 的自然语言处理库HanLP加了个R语言的马甲,http://t.cn/R8x2um6

2月6日 12:56转发|评论

【Wu Manber多模式匹配算法】AC自动机中,转移的最小单位是一个字符。也就是说,匹配后只能移动一个字符,复杂度是线性的$O(n)$。然而线性并非最快,Boyer-Moore算法在匹配后可以跳过多个字符,比线性还快。据说在实践中,利用B…http://t.cn/R8odL8Y ​

2月3日 06:19转发|评论

【简单有效的多标准中文分词】一种简洁优雅的多标准中文分词,联合多个标准的语料库训练单个模型,同时输出多标准分词结果,在10个语料库上的联合结果优于绝大部分单独模型。模型参数全部共享,复杂度不随语料库增长。简介http://t.cn/RTbwVRm 论文http://t.cn/RTbASlO 代码和语料http://t.cn/RTbASlN ​

2017-12-11 13:19转发(15)|评论(1)

【Deep Biaffine Attention for Neural Dependency Parsing】这是斯坦福专攻Dependency Parsing的博士生Dozat在ICLR 2017上的论文,拿到了graph-based方法…http://t.cn/RY4REXC ​

2017-11-25 06:12转发|评论

【Fate/stay night [Heaven's Feel] I.presage flower】跪在深渊前就这么压抑,之后有多绝望。人从影院回来,魂却不知道丢在哪里了。北美比日本晚上映一个月,一番苦等终于订了3张票。最近的影院也需要一个…http://t.cn/RjBBjzq ​

2017-11-20 13:58转发|评论

【宾州树库和CTB的Python预处理脚本】在写句法分析器之前,通常需要将PTB和CTB预处理为:一行一个句子,单文件;符合规范比例的训练集/开发集/测试集;去掉CTB中的xml标签,只保留句子,编码转换。这些步骤很麻烦,因为bracket…http://t.cn/RlcNhT8 ​

2017-11-4 15:45转发(10)|评论(1)

【CS224n研究热点15 Neural Turing Machines】 目前的神经网络擅长模式识别和动态决策,但无法使用知识进行深思或推断。比如明明可以胜任电子游戏这么复杂的问题,却无法完成最短路径这样的简单问题。任何DFS算法变…http://t.cn/RKKjT1g ​

2017-7-14 12:26转发|评论

【CS224n研究热点14 自动组合神经网络做问答系统】这是自我组装推断的QA,可接受多种知识,包括图片和结构化知识库。问答具有复合性,很早就有人引入句法分析判断究竟在问什么,甚至脑洞大开想做自然语言编译器。但他们总是脱离不了手写规则的思维…http://t.cn/RKSMPjc ​

2017-7-13 18:42转发|评论

【CS224n笔记16 DMN与问答系统】最有意思的一课,将所有NLP任务视作QA问题。模仿人类粗读文章和问题,再带着问题反复阅读文章的行为,利用DMN这个通用框架漂亮地解决了从词性标注、情感分析到机器翻译、QA等一系…http://t.cn/RKiCE4D ​

2017-7-12 17:31转发|评论

【CS224n研究热点12 神经网络自动代码摘要】任务与数据集 自动生成C#和SQL代码的文档描述,数据集整理自StackOverflow上的提问。子任务 根据代码生成摘要,或根据问题检索代码。网络架构 一个LSTM处…http://t.cn/RKfszpm ​

2017-7-11 11:53转发|评论

【CS224n笔记14 Tree RNN与短语句法分析】介绍了著名的复合性原理,由此启发得到树形RNN,用于表示短语和句子级别的语义。从朴素树形RNN到SU-RNN和MV-RNN,讨论了进化历史和各自优缺点,演示了效果…http://t.cn/RKU01WZ ​

2017-7-8 16:58转发|评论

【CS224n笔记13 卷积神经网络】补充了NLP中相对冷门的CNN,谈了谈调参与发论文的潜规则。从RNN到CNNRNN无法利用未来的特征预测当前单词,就算是bi-RNN,也不过是双向重蹈覆辙而已。经常把过多注意力放到…http://t.cn/RokAJjy ​

2017-7-4 14:30转发|评论