sillydaddy 最近的时间轴更新
sillydaddy

sillydaddy

V2EX 第 472822 号会员,加入于 2020-02-27 19:30:20 +08:00
今日活跃度排名 193
具有移动主题的权限
想找满足这 5 个特性的低代码爬虫
  •  2   
    程序员  •  sillydaddy  •  7 天前  •  最后回复来自 macaodoll
    21
    今天 v 站在线人数破 6167 了,什么情况?
     •  sillydaddy  •  34 天前  •  最后回复来自 Morriaty
    1
    微信到底了解我多少?
    微信  •  sillydaddy  •  34 天前  •  最后回复来自 mokevip
    59
    关于节点组织的请求
    Chamber  •  sillydaddy  •  38 天前  •  最后回复来自 Livid
    2
    似曾相识,怎么用人工神经网络表达?
  •  1   
    程序员  •  sillydaddy  •  181 天前  •  最后回复来自 blurh11E27
    25
    Google 的验证码要把人逼疯
    程序员  •  sillydaddy  •  178 天前  •  最后回复来自 tibbersvs
    48
    sillydaddy 最近回复了
    5 小时 36 分钟前
    回复了 iloveoovx 创建的主题 问与答 V 站搜索好拉跨
    sov2ex 支持按时间段搜索
    12 小时 11 分钟前
    回复了 Mqzo 创建的主题 生活 卖房时应该如何激励中介?
    记得《魔鬼经济学》里面专门有举房产中介的例子:房产中介为了尽快促成交易,不会追求最高的卖价,因为提高那一点卖价所得的佣金回报,比不上早点成交节省的时间。

    也许可以这么办:在你预期价格之上成交,多卖的钱,按比例提成给中介,4,6 分成或者 3,7 分成。参考个税,越往上,中介抽成越多。这就要求你对自己房子的价值很了解。
    @HiyaKuso 是啊,用起来真简单
    薪资减半,招 2 个兼职「老鸟」,时不时让他们互相「啄摩」。
    @yiyiwa
    @Huahuo
    @013231
    感谢。看了下 pdfplumber 这个库不错,还可以可视化 debug 。camelot 也不错,也可以可视化 debug ,文档也挺详细。
    @xomix 你#12 楼说到的这一层面我是理解的。我不理解的是,如果#12 楼的例子中,只选中 10 个字符中的 3 个字符,会发生什么?怎么根据鼠标框选的位置,反推得到框选选中的字符。想了解这个,是因为根据它可以推理出在 pdf 中选择表格里面的一部分内容时,会发生什么。
    不过大概的意思我知道了,谢谢你耐心的解释。
    1 天前
    回复了 majula 创建的主题 生活 被移动坑了,大家购买流量包时一定要注意
    看着 OP 惶恐开关✈️模式的描述,忍不住发笑,现在又到了月末流量囧囧的时刻——我的流量也超了几十 MB ,为移动贡献了 10 块钱。
    我就纳闷了,为什么流量计费非得搞个这么大的费率跨度:套餐内低单价,而套餐外超高单价,费率差了有 100 倍了吧。分段计价搞个 3 倍,5 倍费率还不够吗!
    @zhangshine 明白了
    @chesha1 gpt4 吧,我还冇有呢

    @xomix 举个具体的例子,如果 pdf 打印输出的结果是"0123456789",而生成这个打印结果的原始文本是"5678901234",也就是说,「文本索引」->「打印位置」的映射关系是 0->5, 1->6, 2->7, 3->8, 4->9, 5->0, 6->1, 7->2, 8->3, 9->4 。那么当我在 pdf 中,用鼠标从"0123456789"当中的"0"字符,也就是打印位置是 0 的地方,开始往后框选三个字符,框选的位置分别是 0,1,2 ,那么从根据「文本索引」->「打印位置」的关系,反映射回去,得出实际被选中的字符是"567"对吗?

    如果是(像你说的)直接建立的是「文本字符」->「打印位置」的映射,也就是说"0"->0, "1"->1, ... "9"->9 ,那么鼠标框选,根据位置反映射到字符时,就不会出现问题了。

    你能根据这个例子解释一下吗?因为#10 楼的逻辑我没太理解。
    @xomix 我明白你的意思了,就是说生成 pdf 的原始文本顺序就是乱的,但每个字符映射到 pdf 的位置是正确的,所以复制会有问题?按照这个说法,框选文字时,其实复制的是原始(顺序错乱)文本的一部分,比如计算出鼠标框左上角位置对应的文本,然后复制到鼠标框右下角位置对应的文本结束?这块框选复制的逻辑没有太明白。
    @Huahuo 我现在还没到要用 python 读取那一步 🐶 。网上好像不少这种提取 pdf 表格的工具。
    @zhangshine pdf 文档是不是分 2 种,其中 1 种是可以直接选文字的,一般纯文本转 pdf 就是这种。所以感觉跟图片 ocr 还是有点区别。
    @xomix 文字是可以直接复制的,只不过顺序是乱的。ocr 也是会考虑的。不知道有 1#楼说的 python 工具可以读取 pdf 表格吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1464 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:14 · PVG 01:14 · LAX 09:14 · JFK 12:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.