这是一个创建于 3691 天前的主题,其中的信息可能已经有所发展或是发生改变。
数据抓取基本上没有问题 也不会涉及特别复杂的 scrapy 完全可以搞定 我打算抓取 分词 格式化入库 都用python
1.分词有没有什么建议,我知道大概是2种 一种是使用现有的词库进行分成,还有一种是用机器学习,不断的识别新词,词库也就在不断的更新,由于对算法这块不是很熟练,现成的模块里nltk 比较好,但是不支持中文,所以分词这块需要带有现成词库的用哪个比较合适?
2.我不是很清楚对于大量数据的搜索是怎么做的,是先检索关键词再在做全文搜索?
3.对于数据存储这块,我用的mongodb,目前有几百万条的数据,以后会逐渐增加大概维持在2-3千万左右的数据,用mysql 能行吗?mongodb的话 有没有不合适的地方?
我是web程序开发,对搜索和数据这块不是特别了解,都是自己边学边练的,也不要求有多么精妙的算法,现在一点一点在从各种算法研究,也有点太慢了,希望有过这方面开发和经验的,给点建议,先谢过