V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  nicoljiang  ›  全部回复第 29 页 / 共 58 页
回复总数  1145
1 ... 25  26  27  28  29  30  31  32  33  34 ... 58  
@byfz 需要高频使用的,速度不能太慢。
@byp 直接写 https://dogedoge.com 是不行的,以下两种都行:

试着按我上一条写的那样试试。
@byp 是不是 https://cn.infinitynewtab.com/ ?我刚才试了一下,添加了一个自定义搜索没有复现这个问题。

推测关键词的变量是否弄错了
这是我添加的: https://www.dogedoge.com/results?q=%s
@nioncodotcom 不用等人,你可以亲自抨击( 6 月份的帖子就说了,针对这一点可以尽情抨击)
@hyserendipity
@Leigg 现在已经很贵了,期望能拿到投资吧,哈哈。多谢你们的建议
@luanluan 有,但只能覆盖较少量的数据
@learningman 好养活
@Nick66 求不要搜索不好的东西,搜到还请及时悄悄告诉我 [email protected]
@herbin 360 的老路是?能否将故事介绍一二?另外,夸克这个浏览器的情况很奇怪...排查好久了,不知你是否有什么建议
@onlyai 不确定,但公安备案都是不是要等公安部门主动联系的好像。
喜欢二次元的也分两种。
一种喜欢萌的,一种讨厌萌的,我属于后者。
喜欢机战、热血、打斗类的。
2019-09-24 16:08:52 +08:00
回复了 everlost 创建的主题 程序员 像 kanzhihu 这种爬虫性质的网站合法吗?
2019-09-24 16:06:43 +08:00
回复了 littleshy 创建的主题 程序员 .NetCore3.0 发布了,有没有用起来的呀?
微软的东西好像很多都是从 3.0 开始牛逼的。
@greatbody 我已经回复过了,无论是「必须支持 Cookies 」还是「跳转链接」这两个跟追踪没有关系的,建议了解一下广告的追踪手段。
@ljsh093 6 月份发布的帖子里有提到,UI 中的 HTML+CSS 是像素级 COPY,JS 部分是自写。毕竟 duck 是我心目中体验最好的搜索引擎之一,很多时候可以跟 Google 一较高下。
@Leu
@wuhaoworld 确实想做中国的 duck
@allgy 很开心成为备胎
@v2vTZ 大概率逃不开广告,但希望能有节操。而且相比百度的巨头效应,多吉在商品搜索场景下,应该会更自由一点,这块儿的广告含金量是比较高的。
@iPhoneXI
@ddup
@shell314
@zerozz
@li27962278
@jz361
@Ginson
@hiyouli
@GzhiYi 感谢大家为多吉加油
@phpc 这个跟追踪没什么关系的。
@firefox12 这个存储是提供热搜索的数据容量,用于记录数据和分析的不在这里算。而且我必须承认自有来源目前只占到 15%不到(因为完全自爬的都是大站数据,所以较少的数据能提供较多的结果),数据积累时间是一道迈不过去的坎,不止是我,360 搜索、搜狗搜索、头条搜索的起步都逃不开这个逻辑。
@blankfire
@holy_sin

我从不攻击对手,所以也希望对手保持良性地竞争吧。
至于百度,相信再给我三年时间,也难成百度的「对手」吧~
@ershierdu 官网通常会有一些特殊处理,我研究一下这个优化
@CuVee 在各方面完善程度都不如百度,百度多年的积累绝对不是水漂,多吉目前能成为不错的备胎就心满意足
@jacketma
@hyserendipity
@allgy
@int11
@img5d Logo 一开始就是打算做成狗子头像,但无奈找不到很好的,所以随便做的一个。至于域名,希望我有一天能买得起 duoji.com/net :doge :doge
@vsean 能不能帮忙邮件告诉我一下是哪个名字 [email protected]
@lovestudykid 虽然不确信你在说啥,但我总觉得我的意思好像被你生生曲解了。
@zgcwkj 前端用 PHP 很正常
@littlewing 这不是一点点量,是瞬间上千的 qps,早期百度初具规模的时候也被仅仅 100qps 也击垮过。而且这个 IP 并不是普通的 IP,是一个商业区的基站,所以处理也要谨慎。

不过不可否认,跟百度比无论功能、系统容量、安全性、甚至连缓存的完善程度都还不能相提并论,不过会慢慢变好。喜欢用什么搜索都没关系,甚至在我的帖子里嘲讽我现在不堪一击也是你的自由。只希望你的项目永远不会面临这种恶意攻击吧。
@k9982874 能否把相关关键词邮件我一下: [email protected] 可能漏处理了。
@littlewing 靠着「中国第一家自主知识产权的中文搜索引擎」这一民族情结,硬扛了下来。
@littlewing 可能你知道百度还不够早哦。百度刚出来的时候,曾被 100qps 的量断断续续打趴小两个月。
@stabc
这个区别一下子说不清楚,但我显然没有用 Searx,用了 SearX 的一眼就能看出来(知道 SearX 的人太多了)。
我可以简单说一下:倒排是 Solr,爬虫是自己的(没有独特的 ua,因为不支持 robot.txt ),分词是 ik 二开的,存储是 pika+mongodb。目前后端有 5 台服务器( 16c 128g 3t SSD )
想长期做的自然不只能套壳,但自己的数据积累需要时间,这很正常。头条搜索爆出来抓取百度的搜索结果,你要去抨击头条搜索也用 SearX 吗?是否稍显刻薄,而且 SearX 真的不算什么高质量的东西。

另外:「 reddit hongkong 」感谢提醒,回头处理一下。
@stabc
@fengci
@littlewing

数据来源并不 100%独立,但跟元搜索或者套壳有本质区别的。
反而 DuckDuckgo 的自然搜索结果倒完全算是套壳。
@FS1P7dJz 必须支持 Cookies 并非为了追踪,只是为了防止一些不必要的攻击。也许除了攻击外,支持无 Cookies 确实有重大意义,但我目前显然无力支撑。
1 ... 25  26  27  28  29  30  31  32  33  34 ... 58  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5206 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 03:49 · PVG 11:49 · LAX 19:49 · JFK 22:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.