关于短信内容二分类，请指点一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2330 天前的主题，其中的信息可能已经有所发展或是发生改变。

刚进入实验室，老师布置了一个任务，就是对于一条中文短信内容，判断其是否属于广告类的短信。老师提示可以考虑使用朴素贝叶斯算法，分词可以用库，要求一周内完成。由于原来没有接触过自然语言处理，对此有点不知如何下手，只知道分词，条件概率这些东西，看了网上一堆博客也有点懵，想请大家指点一下，这样一个分类器的处理流程应该是怎样的，分成一些什么步骤，万分感谢。

分词

短信

指点

分类器

4 条回复 • 2019-07-01 19:07:04 +08:00

TimePPT

PRO

2019-04-22 17:55:46 +08:00

市面上现成的产品有「熊猫吃短信」，作者就在 v2ex，有条件的可以查下相关介绍。
垃圾文本信息的朴素贝叶斯判断是个经典问题，流传最广的是《黑客与画家》作者 Paul Graham 的那篇《防止垃圾邮件的一种方法》
分类器流程这个网上一搜一大把，分词可以用 jieba 分词这种开源库，也可以用三方 API，各大厂的云服务都有这个。
垃圾短信训练样本 Github 上有人分享过，可以找了看下。如果只是判断是不是广告相对简单。

apisces

2019-04-23 09:55:24 +08:00 via iPhone

@TimePPT 谢谢回复，自己根据理论撸了一个朴素贝叶斯，准确率在 82-92 之间。

TimePPT

PRO

2019-04-23 10:06:01 +08:00

@apisces 一般模型效果质量评价的话看召回率、精度，F1 值吧，主要是还要看考虑模型过召回和欠召回的情况。也有很多相关文章可以查下。

shm7

2019-07-01 19:07:04 +08:00 via iPhone

天啊 sklearn 的 guide text 部分直接套的…