V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2784 天前的主题，其中的信息可能已经有所发展或是发生改变。

微型中文分词器

一个微型的中文分词器，能够按照词语的频率（概率）来利用构建 DAG （有向无环图）来分词。

特点 / 特色

微型：主要代码只有一个文件，不足 200 行
面向教育：可以导出 graphml 格式的图结构文件，辅助学习者理解算法过程
良好的分词性能：由于使用类似 结巴分词 的算法，具有良好的分词性能
具有良好的扩展性：使用和 结巴分词 一样的字典文件，可以轻松添加自定义字典

演示

在线演示

在线的 Jupyter Notebook 在

离线演示

分词

代码：

import MicroTokenizer

tokens = MicroTokenizer.cut("知识就是力量")
print(tokens)

输出：

['知识', '就是', '力量']

有向无环图效果演示

DAG of 'knowledge is power'

备注

<s> 和 </s> 是图的起始和结束节点，不是实际要分词的文本
图中 Edge 上标注的是 log(下一个节点的概率的倒数)
最短路径已经用 深绿色 作了标记

项目地址

https://github.com/howl-anderson/MicroTokenizer

开发者

Xiaoquan Kong @ https://github.com/howl-anderson

依赖

只在 python 3.5+ 环境测试过，其他环境不做兼容性保障。

安装

pip install git+https://github.com/howl-anderson/MicroTokenizer.git

如何使用

分词

见上文

导出 GraphML 文件

from MicroTokenizer.MicroTokenizer import MicroTokenizer

micro_tokenizer = MicroTokenizer()
micro_tokenizer.build_graph("知识就是力量")
micro_tokenizer.write_graphml("output.graphml")

分词

Python

dag

演示

11 条回复 • 2018-08-30 16:25:37 +08:00

leopku

2018 年 6 月 15 日

先 star 为敬

howlanderson

2018 年 6 月 15 日

@leopku 感谢 PKU 大佬！

artandlol

2018 年 6 月 15 日 via iPhone

Ik
smartcn 这类的吗

shiny

PRO

2018 年 6 月 15 日

让我想起“ 24 口交换机”那梗，试了下，带数字就直接报错了。

howlanderson

2018 年 6 月 18 日

@shiny 我没有尝试这种混合的用法，不过我回去看看什么情况，改进一下，谢谢试用！

howlanderson

2018 年 6 月 18 日

@artandlol 类似的功能，但目的不同，这个主要是面向教学：演示一个简单的分词器如何工作的。

howlanderson

2018 年 6 月 18 日

@shiny 不知道你是否在 README 中注意到，你可以直接使用 binder: https://mybinder.org/v2/gh/howl-anderson/MicroTokenizer/master?filepath=.notebooks%2FMicroTokenizer.ipynb 来做实验。

howlanderson

2018 年 6 月 19 日

@shiny 我添加了 https://github.com/howl-anderson/MicroTokenizer/issues/1 这个 issue 来跟踪这个问题。

northisland

2018 年 6 月 20 日

厉害，已 star

howlanderson

2018 年 6 月 21 日

@northisland 感谢！

shm7

2018 年 8 月 30 日

顶

MicroTokenizer: 一个面向教学的微型中文分词引擎

微型中文分词器

特点 / 特色

演示

在线演示

离线演示

分词

有向无环图效果演示

备注

更多演示

"王小明在北京的清华大学读书"

项目地址

开发者

依赖

安装

如何使用

分词

导出 GraphML 文件