封闭运行了三年左右 可能还是有点慢,硬盘不够,主机不够
萌搜 为小众而搜 https://mengso.com
我们的社区的地址是 https://zhuanfou.com 如过遇到什么问题,请联系 [email protected]
1
jerkzhang OP 搜有些词汇是会因为磁盘吞吐量较大而很慢,主要还是穷。
该引擎 Debug 能力比较强。 |
2
pythonee 2020-03-31 17:05:37 +08:00
google
|
4
Moverisk 2020-03-31 17:08:38 +08:00
试了几条,感觉可以增加 github/stackoverflow 等的排名,博客园 /csdn 很多时候很坑
|
5
jerkzhang OP @pythonee 你可以试试 搜某个 IP 、或者搜某个手机号码、或者搜某个技术问题(目前只支持英文 DEBUG 优化)优先级别是 stackoverflow --> csdn, 一个技术问题从 stackoverflow 找不到答案,那只能勉为其难去 csdn 了
|
6
jerkzhang OP @Moverisk GitHub 和 stackoverflow 的权重是最高的,对于 stackoverflow 做了极多的优化,估计你没用英文搜哦;
目前关于同义词、中文对应外文同义词这些都没怎么做。现在上线的是已有数据的几十分之一。 |
8
Darkside 2020-03-31 17:22:11 +08:00 1
@jerkzhang 不好意思,我是来反馈一个漏洞的
敏感词过滤好像是纯前端做的?直接改 url 参数就能搜索😭,这可能是一个问题? (个人习惯,每次接触新的搜索引擎,都先测试一些敏感词;如果给您带来不便,我很抱歉) |
10
jerkzhang OP @Darkside 做了三层敏感词,收录的 30 万家国内站点都有备案的;我也是的,我为了做信息风控,基本上弄了大半年左右;现在即使能搜,应该显示不出来敏感内容,对于被收录站点的各类备案都做了统计,网警一起帮着搞了很久。
|
12
jerkzhang OP @Darkside 我理解没有恶意,我对信息风控防护这件事极为上心;而且可以看出你绝对是行家;我昨晚还在处理另外一个编程站点的这类问题。
|
13
GM 2020-03-31 17:34:54 +08:00
问一下,搞这个,感觉风险很大吧?
|
14
jerkzhang OP 风控肯定是要搞好的,去年解决风控时,挖出了 10 万家黄色网站;后来警察说,把境内 IP 的黄网记录下来,境外的没办法。说道风控,我忽然想到了隐私问题,会记录搜索词的,更多关于隐私问题的说明见此页末尾。https://zhuanfou.com/article/79276602_063
|
15
jerkzhang OP @GM 不是镜像,自研底层,手续齐全,风控做好就可以了,只是风控很难,这里面的问题无所不用其极,我在风控上花了将近一半的时间;把所有的网页全收集一遍进行分析。从源头上杜绝。另外为了风控,也减少了很多收录。(其实更重要的原因是服务器不够,所以减少了很多收录)
|
16
jerkzhang OP @GM 这三年的用户都是做技术的为主,一般大家都用这个搜技术问题居多;其他的东西,有,但是没有收录太多,目前这个版本和最初的相差很大,是所有节点中的一部分节点,否则速度会太慢,主要还是机器成本;之后可能不打算继续更新了,因为每更新一次、反转索引、上线就得耗费接近大半年时间;而且最终呈现的只能呈现局部出来;总之计算下来,资金量需要很大,难以 hold 住。我这几年前前后后投入几十万了,穷了……
|
17
misaka19000 2020-03-31 17:47:40 +08:00
搜不到我的博客😢
|
18
jerkzhang OP @misaka19000 抱歉,估计是因为手续不全,被自动删了
|
19
cabing 2020-03-31 17:49:30 +08:00
赞一个。不容易。
|
20
Vegetable 2020-03-31 17:51:09 +08:00
23 寸显示器右只有一个菜单,感觉头都歪了哈哈哈
|
21
jerkzhang OP @misaka19000 不过你的博客真的是很好看呀,好喜欢你的博客
|
22
misaka19000 2020-03-31 17:51:51 +08:00
搜索 elasticsearch 也什么都没有,返回 ErrorCode 9
|
25
misaka19000 2020-03-31 17:52:56 +08:00
搜索所有内容都返回
Error Code: 9 DateTime: 2020/3/31 17:52:37 Click to Search Again 点击本对话框再搜一次试试 |
26
jerkzhang OP @GM 因为摩尔定律,所以我们玩搜索的机会在未来,我本以为当下是时机,对于成熟企业而言勉强是的,但是对于个人而言,我经过几年下来,核算了,还是一笔非常不菲的成本;还有电费很贵
|
28
jerkzhang OP @misaka19000 不会呀,我刚才搜"elasticsearch"还好好的,是不是你的网络问题,你当下是不是开了什么 climb 墙的东西,可能是安全防护系统把你屏蔽了
|
30
encounter2017 2020-03-31 18:00:13 +08:00
搜 abc2010
search?page=3&q=abc2010&datefilter=all Error Code: None 搜到 0 个结果 DateTime: 2020/3/31 17:57:13 Click to Search Again 点击本对话框再搜一次试试 |
31
misaka19000 2020-03-31 18:01:26 +08:00
https://t7.zhuanfou.com/mengso
这个链接请求返回 405 Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1590, in _execute result = method(*self.path_args, **self.path_kwargs) File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 226, in get raise HTTPError(405) HTTPError: HTTP 405: Method Not Allowed |
32
jerkzhang OP @encounter2017 兄弟,不好意思,这个是没搜到,abc2010 搜不出来
|
33
encounter2017 2020-03-31 18:03:31 +08:00
@jerkzhang 没搜到结果的话,下方的分页照理来说不应该出现后面的页数呀。。。
|
34
jerkzhang OP @misaka19000 只要是正常网络环境,应该可以的,一般 ss 下不行,你可以用手机 4G 试试。
|
35
hammer86 2020-03-31 18:04:18 +08:00 via iPhone 2
都单独针对程序员了,为什么不能去掉 csdn
|
36
jerkzhang OP @encounter2017 我的错~ 我没去弄这个,不管有多少页,下面的页数都会显示。
|
37
encounter2017 2020-03-31 18:05:58 +08:00
提个小小的建议 python2 已经停止维护了,基于 Py2 开发的程序所有的安全风险都需要自担
|
38
jerkzhang OP @hammer86 我也想去掉呀,这个事情很纠结,这个事情之前还特地和不少用户讨论了很久,就是那种想删之,但有时又确实上面有一些内容;我自己以前的博客也被转载过,删也删不掉;我不喜欢 csdn 的这种作风;但是有用户反馈,有时遇到非常疑难杂症这样的 debug 问题,好多平台找不到,结果就在 csdn 找到结果;这个事情太纠结了,虽然博客园也是存在这类问题,但是相对我感觉相对 csdn 好一点;所以博客园的权重相对较高;不过只是相对而言,我个人是支持原创的。
|
39
jerkzhang OP @encounter2017 是的,2020 年是一个分水岭,逐步会迁移到 python3 去。
|
41
jerkzhang OP @127000 是的,移动端不打算提供账号,以后移动端可能会考虑直接做 APP ;当初主要考虑的是:1 、移动端提供账号体系就会变复杂,任务量变大了; 2 、真正用心的写作都是在 PCweb 端的
|
42
wuweijia 2020-03-31 18:18:56 +08:00
随便点两下翻页就挂了
|
43
pinews 2020-03-31 18:20:38 +08:00
可以可以,我的小网站也收录了,虽然版本有点老,301 还没更新。
|
44
jerkzhang OP @wuweijia 可能是那个搜索词只有前几页 None 就是没有了,看来还是设计的不够人性化;也有可能是你刚才在搜索的那个词找到的答案过多或过少,都会导致磁盘大量 IO,所以会等几秒钟;主要还是机器不够的问题。
|
45
Takuron 2020-03-31 18:22:50 +08:00 via Android
@Moverisk 附议,另外希望作者能“故意”提高个人网站的权重,感觉很多个人博客文章很好并且是传统搜索引擎的盲区。
|
47
jerkzhang OP @Takuron 我也很想干这事,这几年认识不少优秀的个人博客站,内容非常好,真的是很棒;另外原创性分析暂时还没有做,如果一旦做原创分析,个人站很快就会显著起来;主要是国内法律管制问题;除非个人站手续齐全,一般来说,至少要把 ICP 和公安这块都做了,但是博客属于交互网站,公安这块很难过去,需要投入的精力很多;所以一般个人站站长不会去做这些,所以这又回到了风控问题上。这里面的隐患是非常可怕的,国外反动势力无所不用其极端,那叫一个可怕呀,反动势力已经深入渗透到了 stackoverflow 和 GitHub,光优化这两个,就与管局沟通过几次。
|
48
tengyoubiao 2020-03-31 18:40:08 +08:00 via Android
速度好评
|
49
jerkzhang OP @tengyoubiao 哈哈 那是您没搜到比较慢的词,比较慢的词,有到 5 秒才显示结果的
|
50
123444a 2020-03-31 20:17:41 +08:00 via Android
|
51
123444a 2020-03-31 20:19:39 +08:00 via Android
Error Code: 9
DateTime: 2020/3/31 20:18:18 Click to Search Again. |
52
jerkzhang OP @123444a 有时确实会出错,单击重新搜一下即可;另外,与网络环境有关,如果您处于翻 wall 环境下,则有可能触发保护而不显示结果。
|
53
jerkzhang OP @123444a 也有个别词就是会出错,有可能是分词出错了,但是这类分词出错的概率很小。哎……确实做的离完美还很远。
|
54
aloxaf 2020-03-31 21:51:12 +08:00
试了一下感觉不错。
广告放在最后面也太良心了! |
56
iRiven 2020-03-31 22:20:45 +08:00 via Android
赞一个!
|
57
lights 2020-04-01 01:42:47 +08:00
虽然我自己一直用的是 Google,但我真实生活环境里认识的程序员,其实还是用百度居多(囿于不会科学上网或者英语不好)
感觉楼主做了一件有实际意义的事情,感谢。 另外提个建议,名字其实很重要,我遇到过太多次因为名字而成功或者失败的事情(生活上的事情) 好的名字是有心理暗示的,个人觉得“萌搜”还是太不适合作为一个严肃的搜索引擎的名字 最后祝愿楼主越办越好,我也会尝试使用这个产品的。 |
58
ruixue 2020-04-01 02:19:37 +08:00
墙内做搜索着实是件吃力不讨好的事,投入大风险高,要顾及的东西太多了,佩服楼主的坚持,赞一个
|
59
Procumbens 2020-04-01 02:45:19 +08:00
@lights 也可以叫梦搜、盟搜 (猛搜 hhh )
|
60
xuanwu 2020-04-01 07:57:39 +08:00
有没有可能往分布式发展,弥补硬件资源的不足? https://www.v2ex.com/t/488032#;
收入方面,可能采用会员制吗?提供一些较高价值服务? |
61
jerkzhang OP @xuanwu 现在已经是分布式了,分布式还是要电脑;至于 p2p,也是有限范围内,而且管理上比较麻烦;目前还做了容灾。收入嘛,不指望靠这个挣钱了,能维护着让老用户和新用户用着即可。
|
62
jerkzhang OP @lights 现在很多域名不能使用了,因为无法备案了;萌搜现在回顾起来确实不禁如人意,不过好的名字很少、能与之相配的域名更少,mengso.com 这个域名好像是 8000 买的,记不清了不是 8000 就是 6000,现在双拼的 com 域名基本上都是 6000-10000 甚至更贵。
|
63
anakinsky 2020-04-01 08:51:46 +08:00
名字起的不好,感觉像二次元一类
|
65
jerkzhang OP @ruixue 谢谢,是的,确实很吃力,风控上需要投入的时间精力非常大,每隔一段时间要检查、更新;顾及的东西非常多。
|
66
SkyCity4NJ 2020-04-01 09:39:50 +08:00
确实有点慢
|
67
jerkzhang OP @SkyCity4NJ 快慢与搜索的词有关,正常的一个句子还好,偶尔会因为一些词触发大量磁盘 IO 或者深度查询,简而言之就是找到的东西太多,或者找不到东西。这个速度其实是可以通过加服务器来提高的,主要穷(美其名曰:追求性价比),所以就没加了。
|
68
la2la 2020-04-01 10:04:43 +08:00
老夫真气不足
|
69
hercat 2020-04-01 10:28:59 +08:00
试用了下,搜出来的网页质量确实高不少,已设置为默认搜索引擎👍
|
70
Chenamy2017 2020-04-01 10:52:40 +08:00
稍慢,不过内容还是很赞,不容易。话说可以直接屏蔽 CSDN 吗,hhh 。
还有这个名字确实有点萌 |
71
WoStaring 2020-04-01 10:56:45 +08:00
还是叫猛搜
|
72
fook 2020-04-01 10:58:04 +08:00
我有一个域名 yanfou 哈哈
|
73
malusama 2020-04-01 11:01:30 +08:00
回车后会有一段时间的空白...至少给个 loading 中的提示
|
74
kosmosr 2020-04-01 11:04:54 +08:00
还能搜出广告吗。。。?
|
77
nexmoe 2020-04-01 11:14:44 +08:00
|
78
smallyu 2020-04-01 11:16:45 +08:00
Error Code: 9
DateTime: 2020/4/1 11:16:23 Click to Search Again 点击本对话框再搜一次试试 |
79
sunny2580839896 2020-04-01 11:20:34 +08:00
搜素带广告就很灵性了
|
80
oahebky 2020-04-01 11:27:27 +08:00
关键词:"python selenium flash"
期望解决 chrome 默认 disable flash player 插件问题。 对比: 1. https://www.baidu.com/s?wd=python+selenium+flash 2. https://www.dogedoge.com/results?q=python+selenium+flash 如果楼主能得到和这两个网站搜索出来相近的结果,再加上你自己网站的特有技术,那么被人打开用来搜索的可能性会非常高。 |
81
jerkzhang OP @oahebky doge 主要在 google 、必应、搜狗的聚合,我不打算走聚合搜索的路子,聚合搜索的法律风险极其大。目前来说确实有些词搜出来的结果不尽人意,毕竟目前上线的只是已有数据的几十分之一。而且已收集的数据也是整个互联网的一部分,没有收集完,爬了好几个月,实在不想等了,就人为截止了
|
83
jerkzhang OP @oahebky 短期内,应该不会有重大更新了,去年更新了两次,每次更新就要半年时间,太废了;而且目前已经估算出了自建底层的大致成本和人力物力需求,实在是个人或者小企业难以承担的。就打算放着吧,有闲钱的时候慢慢加主机。再之前几年是做无人车的 demo,没搞定;这个搜索索性是有个样子了;六七年花了数百万了;我得考虑去赚点钱花了。靠这个搜索赚钱,短期内是没有可能性的;只想作为个人爱好一直维护下去;毕竟有跟了三年的老用户。
|
85
huhexian 2020-04-01 12:13:07 +08:00
赞一个,居然能搜到我的博客😄
|
86
yprisoner 2020-04-01 12:14:46 +08:00
好用
|
87
jerkzhang OP @wysnylc 现在的我,已经没有本科时期的我富裕了,送外卖的都比我富裕,此一时彼一时。主要就是做产品就像有魔力一样,我不想再去以前那些方式赚钱了。然后我就即将落魄潦倒了。不,是已经落魄潦倒了。
|
89
heiheidewo 2020-04-01 12:21:57 +08:00
好奇楼主做这个搜索的目的是啥?还能让管局的人帮你,是给 ZF 做事吗?
|
90
Windelight 2020-04-01 12:25:47 +08:00 via Android
@jerkzhang 给你做一个推荐,降权一些类似于个人主页的分类列表之类的内容,但不是指个人博客,而是比如 CSDN 的 tag 页,因为这种页面一般不利于解决问题,更重要的是,因为这种网站是动态更新的,同时还有一个模块煞笔又 cd 的推荐,这里面通常有一个 Preview,如果涉及技术名词,就会被缓存进去,但是你一旦点进去,就是最新的,但找不到东西在哪里,这种操作十分迷惑。一般个人博客这种小网站更新量不大,哪么要找到也很轻松。还有类似论坛网站和问答网站的这种页面,请直接下沉处理,这玩意真的很 Discuz,也很知乎。这种页面一般没有几乎任何可以帮助解决问题的页面,然后呢因为个人 feed 这个东西也是动态更新的,他点赞了一个问题和回答了一个问题出现在个人主页却被缓存简直就是浪费宝贵的资源,同样的内容应该是在问题页面被找到。
|
91
Corei11 2020-04-01 12:26:11 +08:00
页面 CSS 需要稍微改改,搜索条目行间距略小
|
92
jerkzhang OP @heiheidewo 管局是监管部门之一,肯定得沟通的,前几天是因为另外一个站点很细小的问题出隐患了,管局发现的隐患,连夜去改的。目的嘛,有人一直用,我就一直做呗,跟着感觉走
|
93
realpg 2020-04-01 12:36:04 +08:00
|
94
jerkzhang OP @realpg 早几年养过,后来就没有了;单纯硬件的投入就很大;近三年主要花钱在硬件上;我也是个垃圾佬,我就是把数百万变成 0 的那种。
|
95
lvsemi1 2020-04-01 12:44:38 +08:00
搜了下我自己的项目,结果排前面的都是 github 上的人肉 fork 机器
|
96
bridge45 2020-04-01 12:45:34 +08:00
界面清爽,效果不错,赞一个!!! 稍微提醒下 Https 证书一周后过期,记得续期。
|
97
jerkzhang OP @Windelight 对的,csdn 确实很蛋疼,喜欢做内容池的这类站点,对搜索引擎就是污染;一篇文章,不管是原创的,还是转载的,一旦进入大池子,感觉很快就会被别的账号转载,最终即使原创作者删除,内容依然能被找到;相当麻烦;个人博客也收录了部分,讲到底是无法预估风险;交互式网站还是得做好备案才行。另外浪费资源这事,确实是的,收录一个页面就是占了一个坑位;所以去年也删了很多,相对来说更加钟爱原创。回到内容池这些盗版站上,不仅仅污染引擎,而且把个人原创的内容的流量全抢去了。
|
99
bitdepth 2020-04-01 12:54:10 +08:00 via iPad
閹人圈的東西不需要貽笑大方,拒用
|