我想做一个行业内的搜索，或者“搜索引擎”，有一些细节的问题想咨询一下

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 3691 天前的主题，其中的信息可能已经有所发展或是发生改变。

数据抓取基本上没有问题也不会涉及特别复杂的 scrapy 完全可以搞定我打算抓取分词格式化入库都用python

1.分词有没有什么建议，我知道大概是2种一种是使用现有的词库进行分成，还有一种是用机器学习，不断的识别新词，词库也就在不断的更新，由于对算法这块不是很熟练，现成的模块里nltk 比较好，但是不支持中文，所以分词这块需要带有现成词库的用哪个比较合适？
2.我不是很清楚对于大量数据的搜索是怎么做的，是先检索关键词再在做全文搜索？
3.对于数据存储这块，我用的mongodb，目前有几百万条的数据，以后会逐渐增加大概维持在2-3千万左右的数据，用mysql 能行吗？mongodb的话有没有不合适的地方？

我是web程序开发，对搜索和数据这块不是特别了解，都是自己边学边练的，也不要求有多么精妙的算法，现在一点一点在从各种算法研究，也有点太慢了，希望有过这方面开发和经验的，给点建议，先谢过

目前尚无回复

词库分词搜索