V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Fffys  ›  全部回复第 1 页 / 共 2 页
回复总数  30
1  2  
@PerFectTime #1 应该提供怎样的文件呢?老板让我说明,我不是很懂怎样的文件才算有法律效应
后续,关于这个任务那之后只是让我做调查没让我爬,但是昨天又让我爬了,并且同意只爬取公共领域的书籍。
但是坐标欧陆,欧洲的公共领域的定义和美国不同而网站几乎全是美国网站,这一点我已经跟老板说了,老板回复手不用我担心法律责任公司会负责。
让老板在邮件里正式声明或者提供 formal document ,老板让我“describe the approach”,根据上下文我不是很确定是要我提供我爬取的 approach 还是相关文档

如果是我的方法:
- 老板有提供一个书籍列表,希望我找到尽可能多的书单上的书籍:
1. 通过古登堡计划的官网的指示用 rsync 或其他方法下载整个网站的存档并存到公司内部电脑
2. 通过 API 在以下网站上查找不在古登堡里的书籍,检查相关书籍的版权状态,如果是公共领域,检查是否有资源,如果网站提供指向资源的链接,就获取资源;如果指向外部网站的链接,就记录网站名称和相关链接
- internet archive
- hathitrust
- wikidata
- openlibrary
- ...
你们认为这样可以吗?
如果是要求 formal document ,我要要求提供怎样的文件呢?
区块链真的又火了吗?记得上次关注还是很久之前,当时地里都看衰,最近找实习,记得当初论坛里的观点,拒了一个区块链的实习找了普通的数据分析的职位……亏了?
找个 xx-like 或者 xx-copy 微调改改,遇到什么不懂的就谷歌,多看几个,差不多就能自己写了
不然就问 AI 要几个范例,配合官方文档或者找找别人做的现成的笔记来理解
90 天前
回复了 vfx666 创建的主题 OpenAI 听说 Claude 写代码比 gpt 好用
@xingchenxf 比 o1 要好吗?我刚买了 o1 会员,感觉比 4o 强太多,但是没有用过克劳德所以没法比较,我比较依赖 GPT 的记忆,因为目前会需要 AI 帮忙写大项目,它如果记住我这个项目背景就不需要我一次次输入了,另外 GPT 的思维链也对我很有帮助,克劳德代码上与之相比优势主要在哪些方面?
@Lowlife 并没有……「谷歌」什么结果都没有,谷歌服务也需要安装,自带应用商店没有任何和「谷歌」这个词有关的应用,你说的可能是更新的版本或者非国行版
*附言里不是 codemirror 是 apk mirror ,总之现在解决了
@MossFox 会跳转,但是会显示 应用商店没有收录该应用
@coolfan 我自带的小米应用商店搜不到和 google 相关的一切应用,,
我自带的小米应用商店搜不到和 google 相关的一切应用,,
问了 o1 也没解决,接下来要怎么办呢?
@zzNaLOGIC 现在改为只爬取 free use 和 提供 API 的网站了,并且说不会有商业用途,这样是不是就没问题了?只要我注重有的网站有关 API 的限制之类的?恩?不过?这样好像什么也学不到啊?这种事把 API 文档丢给 ChatGPT 都能完成,是不是换个实习更好?
@wbrobot 你这有点不太厚道。。。而且我这是无薪的课程实习。。。
跟进,我进一步询问后同意只抓取有 API 或者写了 free use 的网站,并且告诉我不会有商业用途,但是其中有的 API 网站写明了如果要用于商业用途需要联系网站管理员,我要怎么确定的确不会有商业用途呢?只爬取这两种是否就是安全的了?
@whyrookie 加了也没用,目前只在 API 28 的手机上测试的,而且 Activity Recognition Transition API Codelab 这里面的 Java 版的例子也是两种都加了,也没能识别到活动
因为没有认识的相关律师,打算在 quora reddit 上也发帖问问,那些在个人 bio 里写了是律师的人的回复可以全信吗?主要是我对欧美这边相关法律也不了解……
@NoOneNoBody 前者……不过也有不少是 free use 的网站,有的是明确写出是公共领域的数据,有的网站也没有 terms of use 就只有免责声明,也没有对爬虫进行限制,现在我是在想,是不是有一种合法爬取的方法?比如只爬公用领域、free use 的数据,或者和网站联系获得合法授权之类的?
后者的话,因为网站有很多,不太方便写成一个统一的方法,很多需要解析 HTML 从标签里获取数据,不过你的意思是,只要我最终交付的代码不包括具体的网站名我就可以法律上完全免责吗?但是我也需要提供示例输出文件啊,然后里面肯定有字段指向爬取的网站……
@hrdom 担心版权问题啊,这个网站本身就面临多个版权纠纷,而且欧美都普遍注重版权的,有的网站在不同资源上有注明不同类型的 CC 协议,爬取时就只需要按照 CC 协议过滤就可以只爬取合法商业化的资源,但是这个网站对版权的处理就比较模糊
@mxT52CRuqR6o5 手工爬是指什么?目前还在确认任务阶段,我还没问是爬数据还是开发服务,不过丢了很多网站过来,应该只是数据吧

另外,其中有个网站是互联网档案馆,这个怎么处理?查了下好像这个网站本身就面临多个版权纠纷案
@131 那这样,我要求提供有法律效力的授权文件,如果提供了就做,没提供就拒绝
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   957 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 21:20 · PVG 05:20 · LAX 13:20 · JFK 16:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.