bigtang

bigtang

V2EX 第 596916 号会员,加入于 2022-10-10 15:38:32 +08:00
今日活跃度排名 13708
Skill exchanging, tennis skills exchange English, Beijing
物物交换  •  bigtang  •  44 天前  •  最后回复来自 a7851578
6
[兼职翻译]唐库学习招募世界名著翻译志愿者
酷工作  •  bigtang  •  153 天前  •  最后回复来自 bigtang
3
bigtang 最近回复了
我注册了,登录了,总是说没有登录信息,一张也生成不了?
交流下:建站 1 年,日均 ip1000, 老用户 25%,但是搜索引擎带来的不到 100 ,而且 bing 超过 baidu ,难道是我老在 V2EX 上发帖导致?我的站 tanglib.com
@iosyyy 你说的爆了是怎么爆?是查询时间爆了?我只有 1 台服务器阿,百度有 10 万台。。。
欢迎质疑
@nomagick 我说的是给 ai 提供素材,不是给最终用户。。。
@shyrock 你说的是 TF-IDF 还有 pagerank 这些? tanglib 目前只做了半个解决方案,ai 与 tanglib 之间可进行多次交互,发现关键词量太大继续限定,而百度以及原来的搜索必须一次给出结果,其实这些方法都很大概率不可靠,很多时候明明知道有百度就是找不到,这种时候不少吧?
@matrix1010 @shyrock 求交集问题是无解的,a 有 10 亿个,b 有 10 亿个,求 a and b, 只能遍历,不要问不可能的问题。
但 ai 解决这种实际问题不难,a 有 10 亿个,加一些背景限制,缩减到 3 万个,遍历就快了。
@maggch97 @pkoukk 跟 ai 的关系是:例如用户问 Q10G 电视是否效果好? trie 很快能搜到很多 Q10G 电视及评价,送给大模型判断。实际的型号可能是 tcl 75q10g, tcl85q10g, 当然你说 elasticsearch 也能搜到,我告诉你同等条件下 trie 更优秀。

跟向量数据库的区别是性能及易用性上的区别,向量数据库的匹配跟 ai 还是差很远,且向量数据库只能是含义上的匹配,就刚才这个 Q10G 电视是否效果好 我怀疑向量数据库能否准确排除非 Q10G 。
@yeekal trie 数据库就是比 ElasticSearch 粒度设为 1 要优秀得多,否则就毫无意义了
@shyrock 这个网站的数据里真不存在 “阿里 马云” 阿,你看着数据再挑两个词看看
@cowcomic 看来研究过 trie:) @buaasoftdavid 有可能是,如果 chatgpt3 不出来,整个 AI 都是“伪需求”
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2910 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 13:40 · PVG 21:40 · LAX 06:40 · JFK 09:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.