V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cloudaice
V2EX  ›  程序员

分享一个github用户活跃度排名和中国github用户分布网站

  •  
  •   cloudaice ·
    cloudaice · 2013-05-22 18:27:26 +08:00 · 11560 次点击
    这是一个创建于 4204 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前段时间写了一个github用户活跃度实时排名应用。里面包括github用户在全国省市的分布状况。看看各位githuber自己的活跃度排名吧,或者在world top1000里面有没有你的身影。

    http://data.cloudaice.com
    58 条回复    2019-04-14 11:33:51 +08:00
    flowerpiggy
        1
    flowerpiggy  
       2013-05-22 18:30:59 +08:00
    除了北京和上海,就浙江代码猴子最多了。
    cloudaice
        2
    cloudaice  
    OP
       2013-05-22 18:36:41 +08:00
    @flowerpiggy 其实浙江90%以上都是在杭州,而这其中大部分都是阿里巴巴的人。
    flowerpiggy
        3
    flowerpiggy  
       2013-05-22 18:39:15 +08:00   ❤️ 1
    是啊,因为有阿里巴巴,杭州聚集了很多猿,大有南方IT之都的架势了。
    另台湾是0?是没数据还是真是0?
    linzhi
        4
    linzhi  
       2013-05-22 18:49:14 +08:00
    排名第一的是个妹子啊

    BTW:没写地址的人没算在内吧
    cloudaice
        5
    cloudaice  
    OP
       2013-05-22 18:56:56 +08:00
    @linzhi 对,要是没写地址的话就没办法统计,不过里面关于地名统计还是有些问题,因为有些基本都是直接写地级市,没有写省,我对像杭州这样的比较多的做了单独处理,但是其他的都没有单独处理,不知道有没有对中国省市区进行模糊匹配的库可以利用。
    cloudaice
        6
    cloudaice  
    OP
       2013-05-22 18:57:47 +08:00
    @linzhi 开始我也以为是妹子,但是发现不是,只是用了一个妹子的头像。。。
    panxianhai
        7
    panxianhai  
       2013-05-22 19:01:37 +08:00
    这个中国地图使用什么做的?D3?
    cloudaice
        8
    cloudaice  
    OP
       2013-05-22 19:08:32 +08:00   ❤️ 2
    @panxianhai 开始我也打算用d3做的,但是发现还要拿中国地图的数据,后来发现了这么一个东西

    https://github.com/rockyuse/svgmap?source=cc

    于是就直接拿来用了。
    panxianhai
        9
    panxianhai  
       2013-05-22 19:14:19 +08:00
    @cloudaice 这是个好东西,谢谢告知。
    aisk
        10
    aisk  
       2013-05-22 19:24:44 +08:00
    超时了……
    cloudaice
        11
    cloudaice  
    OP
       2013-05-22 19:39:08 +08:00
    @aisk 我服务器是搭在heroku上的,国内访问heroku那么慢啊。
    aisk
        12
    aisk  
       2013-05-22 19:44:00 +08:00
    @cloudaice 开了梯子秒开,看来是heroku的问题了
    cloudaice
        13
    cloudaice  
    OP
       2013-05-22 19:49:33 +08:00
    @aisk 嗯嗯,怪不得,之前也有人反映打不开。
    Keinez
        14
    Keinez  
       2013-05-22 19:57:52 +08:00
    @cloudaice 记得前段时间有消息说heroku作为免费云被太多人用来翻墙,已经被认证了……
    至少现在我挂着VPN是秒开。
    qiibeta
        15
    qiibeta  
       2013-05-22 20:02:54 +08:00
    同上……必须开梯子,不然根本打不开
    YUCOAT
        16
    YUCOAT  
       2013-05-22 20:13:40 +08:00
    排名第一的难道是python-china.org的那位?
    csslayer
        17
    csslayer  
       2013-05-22 20:14:49 +08:00
    有bug?……

    用China 这边的一个个到 World 那边去搜,只能找到前两个,但是 Score 是一样的……所以 World 那边统计没完?
    YUCOAT
        18
    YUCOAT  
       2013-05-22 20:15:25 +08:00
    我居然上榜了。。。。小小滴动!
    alexrezit
        19
    alexrezit  
       2013-05-22 20:28:01 +08:00
    分数是怎么算的? 抓取时间呢? 我想看看自己的排名, 结果改了地址之后好久也没找到.
    alexrezit
        20
    alexrezit  
       2013-05-22 20:38:10 +08:00
    好吧... 找到了... #146
    最近还要更新一些东西, 试试看能不能进 top 100.
    wencheng
        21
    wencheng  
       2013-05-22 23:00:45 +08:00
    @cloudaice 直接无法访问了
    TankyWoo
        22
    TankyWoo  
       2013-05-23 00:53:12 +08:00
    才300多名。。。

    被定位为China,现在把地址改详细了
    TankyWoo
        23
    TankyWoo  
       2013-05-23 00:55:59 +08:00
    前7名全是JS。。。
    hzlzh
        24
    hzlzh  
       2013-05-23 01:16:53 +08:00 via iPhone
    排在#132,看了下调用的官方api gist China
    cloudaice
        25
    cloudaice  
    OP
       2013-05-23 01:22:50 +08:00
    @csslayer 是这样的,这个统计首先根据followers的人数来抓,比如china的,首先抓取followers数目的前1000个人。就是说follwers的数目没有进前1000,那么contributions再多也没用。你说的情况应该是followers数目还没有在world的前1000.
    cloudaice
        26
    cloudaice  
    OP
       2013-05-23 01:26:01 +08:00
    @alexrezit 改完之后可能要等等,后台抓取基本10分钟就可以一个轮回了,考虑抓取失败造成的影响,应该很快就可以看到的。
    cloudaice
        27
    cloudaice  
    OP
       2013-05-23 01:28:19 +08:00
    @alexrezit 另外分数计算是先根据followers的值做一个函数映射,然后加上你的contributions的值,具体函数图可以在about页面看到。这样做主要是考虑有些人follwers很多但是contributions比较少。照顾那些正在努力contribute的同学们。
    cloudaice
        28
    cloudaice  
    OP
       2013-05-23 01:33:58 +08:00
    有兴趣的同学多提一些pull request啊,目前一个主要的问题就是匹配地名,很多地名写的不详细的,就没办法统计到分布图里面,大家有没有解决的办法,比如关于中国地级市的地名模糊匹配的库。
    alexrezit
        29
    alexrezit  
       2013-05-23 07:08:21 +08:00
    @cloudaice
    囧... 我的 followers 还没到上限的三分之一...
    ljbha007
        30
    ljbha007  
       2013-05-23 10:36:34 +08:00
    为啥重庆只有两个啊。。
    这个数据是怎么来的?
    TankyWoo
        31
    TankyWoo  
       2013-05-23 11:00:08 +08:00
    囧,突然发现,我昨天把地址从China改为Beijing, China后,榜上就没名了

    而且好像格局变了很多,昨天我200多分才300多名,今天看到200多分都前100了
    TankyWoo
        32
    TankyWoo  
       2013-05-23 11:01:45 +08:00
    囧,现在又有了,而且前进到180多名了。。。
    tulike1
        33
    tulike1  
       2013-05-23 12:16:27 +08:00
    ini
        34
    ini  
       2013-05-23 12:42:02 +08:00
    居然能进top100。。老夫自己都表示很震惊。。
    ini
        35
    ini  
       2013-05-23 12:49:04 +08:00
    @cloudaice
    楼主你确定你的算法没问题么。。我表示看了一下,排我后面的很多人followers比我多,项目的stargazers,folkers也比我多,为毛我会排在前面,老夫会愧疚的。。
    MrMign
        36
    MrMign  
       2013-05-23 13:25:57 +08:00
    @Keinez heroku也可以用来翻吗?跟gae似的??
    darcy
        37
    darcy  
       2013-05-23 13:28:41 +08:00
    @hzlzh 貌似楼主调整了算法,你已经上升至40,而livid却从表里消失了。
    xupefei
        38
    xupefei  
       2013-05-23 13:37:40 +08:00
    算法好像有问题啊……比如 #893(https://github.com/swestrich)后面的人明显比这位贡献多啊。
    另外,CTRL+F 关键字 “null” 还能搜到不少排名诡异的同学……
    hzlzh
        39
    hzlzh  
       2013-05-23 13:49:22 +08:00
    @darcy 看了下#40,算法是改了,昨天的算法是 follower + contributions 生加,现在contributions权重增加了。
    linzhi
        40
    linzhi  
       2013-05-23 14:02:03 +08:00
    楼主的算法修改了一次 貌似还没以前的好啊 我这种水货都能在250左右啊
    66beta
        41
    66beta  
       2013-05-23 16:33:49 +08:00
    全上海只有100多???
    全国排名包含全部吗?为毛没我垫底?
    tangzx
        42
    tangzx  
       2013-05-23 17:00:09 +08:00 via iPhone
    俺也表示鸭梨很大,大粗人一个居然能进top100实在有愧啊
    sivacohan
        43
    sivacohan  
       2013-05-23 17:23:40 +08:00
    长春铁通用户表示无法访问。
    rove
        44
    rove  
       2013-05-23 17:30:44 +08:00
    @sivacohan
    北京电信表示也没打开,翻一下墙就能打开了

    好多省市都是0..
    cloudaice
        45
    cloudaice  
    OP
       2013-05-23 17:41:17 +08:00
    @ljbha007 通过抓取github用户在github上填的地址信息
    cloudaice
        46
    cloudaice  
    OP
       2013-05-23 17:44:18 +08:00
    @TankyWoo 很有可能是抓取contributions的时候,出现了网络错误,我处理错误的时候默认给contributions赋予0。但是下一个轮回又会重新抓取,所以又回来了。不过这个问题的确需要解决。
    sivacohan
        47
    sivacohan  
       2013-05-23 17:45:40 +08:00
    @rove

    长春铁通表示 PPTP 完全连不上。
    ssh 80% 丢包
    cloudaice
        48
    cloudaice  
    OP
       2013-05-23 17:45:59 +08:00
    @tulike1 果然很不错,多谢告知。
    AlloVince
        49
    AlloVince  
       2013-05-23 17:47:49 +08:00
    #21 但似乎与地图的数据不匹配
    cloudaice
        50
    cloudaice  
    OP
       2013-05-23 17:48:45 +08:00
    @ini 应该是你最近一年的contributions比它们多,可以看这里有具体算法描述:
    https://github.com/cloudaice/simple-data
    相对来说比较侧重活跃度,
    alexrezit
        51
    alexrezit  
       2013-05-23 17:51:59 +08:00
    @cloudaice
    嗯. 我现在就不见了. 300+ contributions.
    qiibeta
        52
    qiibeta  
       2013-05-23 17:54:10 +08:00
    昨天还在China前10……今天影子都见不到
    cloudaice
        53
    cloudaice  
    OP
       2013-05-23 17:58:41 +08:00
    我查看了一下服务器log,可能是因为我抓取github信息频率过高,一些很多页面信息抓取都失败了。我修改下代码,感谢各位的反馈啊!!!
    cloudaice
        54
    cloudaice  
    OP
       2013-05-23 18:12:51 +08:00
    @darcy 今天的排名榜单的确有问题,发现是github的搜索功能出现了问题,例如在github的搜索框里面输入 livid 用户名,查询该用户,发现查不到。而这个应用一部分是给予github搜索功能的,其他很多大神没有在表里面也是这个原因。
    TankyWoo
        55
    TankyWoo  
       2013-05-23 18:13:56 +08:00
    @cloudaice 如果这样,可以先获取时,保存上次结果,如果获取不到,可以使用上次结果。

    再进一步,如果N次后一直提示NULL,则可以清0

    一个建议,可以考虑下
    cloudaice
        56
    cloudaice  
    OP
       2013-05-23 18:43:24 +08:00
    @TankyWoo 多谢!!!
    lotus9
        57
    lotus9  
       2014-04-13 20:22:39 +08:00
    厉害~~~
    bysocket
        58
    bysocket  
       2019-04-14 11:33:51 +08:00
    竟然有我
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1434 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 17:03 · PVG 01:03 · LAX 09:03 · JFK 12:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.