1
hoogle 2014-09-03 18:45:54 +08:00
大赞。。 有考虑提供接口么? 想在客户端提供搜索功能。 这个刚好~!!!
|
3
kisshere 2014-09-03 19:41:45 +08:00
log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间)能解释一下为什么要这样吗?
|
4
dbbbit OP @kisshere
首先必须说明,这是YY出来的。 如果你有兴趣可以看看阮一峰翻译的几篇排序算法。 包括 hacknews reddit 等。 http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html 楼主在认真看了这几个算法后,发现还是没太多实际的想法 于是手动测试出这个综合评分的算法,结果怎么样也说不好。 不过 至少可以保证 排在前面的结果与那三个因素成正比 log2 是因为想要减低某种因素的影响 大概就是这样。 |
5
Mihuwa 2014-09-03 20:27:07 +08:00 1
酷。。。
|
6
kchum 2014-09-03 20:36:47 +08:00 via iPhone
被玩坏了?手机党打不来!
|
7
freeze 2014-09-03 20:46:24 +08:00 1
楼主能把搜索栏居中吗?看着难受
|
8
qiayue 2014-09-03 20:50:43 +08:00 1
赞!
|
9
XerWandeRer 2014-09-03 20:52:05 +08:00 1
关键字: http proxy
结果评价: Right on target. Thanks! |
10
yetone 2014-09-03 20:54:41 +08:00 1
大赞!
|
11
ilovehoo 2014-09-03 20:56:52 +08:00 1
不错哦~~
|
13
jdqingm 2014-09-03 21:05:39 +08:00
哎呦不错哦
|
14
Akagi201 2014-09-03 21:18:21 +08:00
lw-clogger 我前几天发的帖子, 没有搜到, google是有的
|
16
jas0ndyq 2014-09-03 22:20:31 +08:00
好喜欢忍者图标~~~有木有版权~~~
|
19
kokdemo 2014-09-03 23:25:00 +08:00 1
log2(回复)
这一项的权重太大了,会导致更容易搜出来的是那些经典长贴…… |
20
zhiyongyici 2014-09-04 01:25:38 +08:00 via iPhone
google 无法使用的前提下,这简直就是神器!
|
21
momou 2014-09-04 01:27:45 +08:00
Failed to load resource: net::ERR_CONNECTION_RESET http://cdn.bootcss.com/jquery/1.11.1/jquery.min.js
Failed to load resource: net::ERR_CONNECTION_RESET http://cdn.bootcss.com/bootstrap/3.2.0/css/bootstrap-theme.min.css |
22
Livid MOD 做得非常好。
我比较好奇,目前这个数据量,是跑在一台什么配置的机器上呢? |
24
dbbbit OP @kokdemo
虽然也有同感,但是能否给几个关键词? 方便我作为判断和调整的依据 不能否认做排序的时候我并不介意经典大长贴出现在前面 但是有时候时间太过久远,比较难取舍,这是个难题诶 也欢迎提供更好的排序方法。 |
25
vinsa 2014-09-04 08:05:08 +08:00
相当赞
|
28
talentsnail 2014-09-04 09:03:30 +08:00
感谢已发送:)
|
29
dudong0726 2014-09-04 09:18:23 +08:00
dota2
谷歌抽风之后,v2的搜索一直是个痛 |
30
windedge 2014-09-04 09:28:35 +08:00
v2ex的api限制一个小时只能访问120次, 你爬取数据用了多长时间?
|
31
kokdemo 2014-09-04 10:48:59 +08:00
@dbbbit
你现在用的公式是: log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间) 分为三个部分,回帖数,匹配得分,存在时间三个部分。 但是考虑到v2上会有一些吵架贴的存在,所以第一部分其实很不稳定。 相对来说,你可以取帖子的收藏数,感谢数为一个依据。 其次是发帖人的资质,比如注册时间,发帖数,回帖数。 当然我不知道你能不能抓到这些数据,仅仅是给一些建议。 |
32
dbbbit OP @kokdemo
非常好的建议。 现在的方法是基于手上的数据,里面确实没有你的建议里提到的数据类型。 主要我比较懒,我会试试爬取更多的数据。 关于发帖人的资质 曾想过用 pagerank 对用户做 rank。 一个 @ 动作就是一次投票。 得到发帖人的 rank 用来作为排序因素之一,但计算能力不足 作罢。 |
34
yuankui 2014-09-04 12:55:37 +08:00 1
问下楼主为什么要用elasticSearch作为搜索引擎
而不是solr/lucene之类的呢? |
35
ven 2014-09-04 14:03:15 +08:00
威武!
|
36
xiaowangge 2014-09-04 14:18:47 +08:00
楼主能把搜索栏居中吗?看着难受 = =.
:-) |
37
jaylong 2014-09-04 14:33:48 +08:00 1
早就不爽自带的google自定义搜索了。楼主加油!
|
38
dbbbit OP |
39
dbbbit OP @yuankui
楼主通常选择东西都是凭感觉 囧 es 和 solr 都是基于lucene,好坏楼主也说不上来 es 是在 logstash + kibana + es 的场景中了解到的 感觉对 restful 接口很容易使用,对用户较友好 还有分布式搜索 听起来很炫(虽然还用不上) 大概就是这样 |
40
hzlzh 2014-09-04 17:05:24 +08:00
做得很好,pagerank?这个可以有。
|
41
skyline75489 2014-09-04 17:18:05 +08:00
看起来结果还挺好的,感谢楼主
|
42
withrock 2014-09-05 01:49:47 +08:00
不错不错,眼前一亮的赶脚。
|
43
poke707 2014-09-05 14:04:57 +08:00
|
44
dbbbit OP |
45
smalldirector 2014-09-05 16:48:44 +08:00
@dbbbit 非常不错,响应速度也可以,想学习学习,希望能够开源+1
|
46
dbbbit OP |
47
hoogle 2014-09-07 14:00:35 +08:00
感谢。。 太好了。。 我会尽快加上搜索功能~~
|
48
zckevin 2014-09-07 23:09:35 +08:00
相当赞!期待开源~ :-)
|