做了一个 Chrome 插件，自动把访问过的网页全文保存到自己的 WebDAV 上

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 989 天前的主题，其中的信息可能已经有所发展或是发生改变。

先丢插件地址：

https://chrome.google.com/webstore/detail/page-auto-archiver/inbfhpapklekaajibkklfjieklbbmmke/related

做这个东西起源于我自己的一个很实际的需求：有时候我想找前几天刚刚看过的网页的资料，但是网页标题已经不记得了，所以没办法通过历史记录去搜索，但是我记得网页上的文字内容，如果可以根据网页内容搜索历史记录就好了。

于是就做了这个插件，安装之后，日常浏览的时候会默默地把网页全文保存到自己的 WebDAV 上，等到想搜索的时候，直接去插件里搜索就好了。（当然更极端也更快的方法是去服务器上 grep ）

反正做都做了，干脆就完善一下丢出来，万一有和我一样收集癖的人呢。

网页

插件

webDAV

搜索

45 条回复 • 2023-03-11 09:16:04 +08:00

mhqschen

2023-02-15 15:52:36 +08:00

我的密码里也有"@"……懵逼了~

tool2d

2023-02-15 16:00:01 +08:00

我也做了一个插件，只不过是保存所有历史 URL 到本地 indexdb 里。

原因是 chrome 默认会清空三个月前的历史记录！而且无法设置。

这点完全没办法忍，凭什么动我数据啊？

eaststarpen

2023-02-15 16:00:36 +08:00 via Android

"有时候我想找前几天刚刚看过的网页的资料，但是网页标题已经不记得了" 同样的情况遇到很多次了。

实际上几天前的内容在历史记录里翻一翻还是能找到的，只不过效率太低。几个月甚至半年那种就麻烦了。

不知道 op 数据保留 /清理的策略是什么。如果把几个月所有浏览记录全文保留感觉存储代价太大，查询效率可能也不高。

我的做法是利用简悦的稍候读功能，遇到觉得可能以后会复读的 post 就 dd 保持下来，固定时间整理。

这样做虽然麻烦了点但能让我保持内容敏感度和养成定期回顾的习惯

greensea

2023-02-15 16:03:34 +08:00

@mhqshen 这是一个笔误，你不说我都还没发现，捂脸……
@eaststarpen 没有清理功能，手动清理，反正会用 WebDAV 的都会……其实我自己是保存到 NAS 上的，纯文本再多还能给我撑爆了不成。话说历史记录……我一天几百个网页的浏览量，想找一天的都难，别说几天了

HeyWeGo

2023-02-15 16:11:09 +08:00

整个网页直接离线下来？显示效果如何呢？目前自己 nas 上弄了个 linkding ，当收藏夹用

TrembleBeforeMe

2023-02-15 16:13:24 +08:00

保存的是网页而不是纯文本吗

caomu

2023-02-15 16:14:54 +08:00 via Android

类似项目：

WorldBrain's Memex https://sspai.com/post/44088 这个据说现在只能索引书签的正文了

https://www.v2ex.com/t/888303

https://meta.appinn.net/t/topic/36432

还是很期待类似的项目的，个人觉得未来趋势或许就是 ChatGPT 类应用本地化，可以支持语义搜索，那就完全相当于外置大脑了。

caomu

2023-02-15 16:22:25 +08:00 via Android

另一个讨论 https://meta.appinn.net/t/topic/10011

楼主可以考虑增加建立本地索引的功能？

TrembleBeforeMe

2023-02-15 16:35:21 +08:00

https://chrome.google.com/webstore/detail/fulltext-bookmark/nemjnpfmngeipdjjjecgjgeognbcmkbl/ 找到了个类似项目

greensea

2023-02-15 16:49:41 +08:00

@HeyWeGo 显示就像没有 CSS 的网页，反正只是回溯一下文字内容而已，不是经常看，显示效果完全无视
@TrembleBeforeMe 保存的是存文本，主要是考虑到连图片一起保存的话太大了，而且我自己主要是需要找文字内容而已。
@caomu 浏览器限制太大，本地索引不好做，真要做的话还是在服务端实现比较好，但是服务端实现的话部署就比较困难，不像现在这样随便整个 NAS 就行

我倒是想做一个类似 Rewind 的东西，就直接屏幕截图，然后 OCR 文字，全文索引

timeance

2023-02-15 16:50:30 +08:00

我是看着觉得不错的就通过插件保存在 zetero 里有空就手动标注 tag ，当文献来管理...

47d7tEUBp521E8fJ

2023-02-15 16:58:38 +08:00

刚安装了插件，报"加载配置文件失败，无法浏览或搜索文件"

greensea

2023-02-15 17:04:03 +08:00

@xujinhui1 应该是要先设定 WebDAV 链接，然后才能用，这地方的提示应该是没做好

wanguorui123

2023-02-15 17:06:21 +08:00

如果能自动生成 mht 单文件保存就好了

wanguorui123

2023-02-15 17:08:53 +08:00

或者截屏保存也行

caomu

2023-02-15 17:17:11 +08:00 via Android

保存 mht 会不会太大啊

puck260

2023-02-15 17:19:56 +08:00

maybe 网页长图也是一个方向，只需要文件名是网址

hamsterbase

2023-02-15 17:56:09 +08:00 via Android

如果想自动保存，可以试试看 singlefile

singlefile 支持自动保存浏览过的网站，还可以设置停留多久才保存。

除了保存到本地，singlefile 支持保存到 webdav GitHub

顺便提一下，我开发了一个稍后读工具 hamsterbase 。支持导入 singlece ，mhtml ，webarchive 等常见网页格式。导入后支持批注，全文搜索，打标签。
hamsterbase 完全离线，有桌面版和 docker 版。看我之前发的帖子就可以了

Bingchunmoli

2023-02-15 17:59:54 +08:00 via Android

有需求做不出来，见过开源项目通过 chrome ，py pdf 等各种方式留存以方便后续寻找及原站 404 后仍然可用，都有点麻烦

ourongxing

2023-02-15 20:01:25 +08:00

直接用 cubox 吧，可以用快照。

leqoqo

2023-02-15 20:37:05 +08:00

请问一下能支持保存到本地一个目录吗?,最好支持一下点击"加入索引",然后保存该记录.
顺便分享一下我的 iPhone 历史记录方法
https://www.icloud.com/shortcuts/c8320ec70d0b4bfb8b876e5f2509f85e
截屏并 OCR 生成富文本 html 保存到文件

leqoqo

2023-02-15 20:39:52 +08:00

设置成双击手机背面执行上面捷径

wayne3602

2023-02-15 20:46:26 +08:00 via Android

不错，支持一下，我也有这个困扰，而且除了这个困扰之外我有个癖好，我在输入框输入东西的时候不想被曾经输入过的相似内容打扰，我只能清除浏览数据，但是这样一来我以后想找曾经浏览过的网页就彻底找不到了

zouzhi

2023-02-15 21:15:55 +08:00

挺好，我一般是保存到 notion ，也还不错

31415926535x

2023-02-15 21:23:22 +08:00

把所有浏览过的页面都缓存的话，感觉是不是有些冗余（因为一般只需要备份感兴趣的就行，不过好像也没法预知后续是否重新感兴趣）

如果只是为了 backup 浏览过的链接，以及快速回复标签页对应的窗口的话，可以试试 sessionbuddy 这个插件

zooo

2023-02-15 21:27:57 +08:00

支持

之前有过这种想法，没想到挺多人都已经做出来工具了

zooo

2023-02-15 21:29:34 +08:00

@zooo 其实如果支持后续一些功能就能强大了，比如自动分类，自动建立一些帮助人记忆消化的索引，就能好了，相当于第二大脑，人脑用来将建立的索引进行记忆。

wynemo

2023-02-15 22:38:17 +08:00

@greensea #10 老哥插件描述可以更新下吗应该是这种形式吧 https://username:passwordmimie@foo:bar:5006/archive/

m4d3bug

2023-02-15 23:06:13 +08:00 via Android

能多一个树状图记录浏览痕迹也是极好的

lovestudykid

2023-02-16 03:41:58 +08:00

https://www.rewind.ai
这个工具可以把电脑上浏览过的任何东西存档并可检索

adrianzhang

2023-02-16 04:47:58 +08:00 via iPhone

非常非常棒啊！早就需要这类工具了！

dasenlin

2023-02-16 08:58:24 +08:00

用户名或者密码中含有 @ 是不是就不能用了

Spoter

2023-02-16 09:39:21 +08:00

@wayne3602 直接关闭那一个搜索结果就好了

lelandsu

2023-02-16 11:51:36 +08:00

不能用，输入带用户名和密码的地址，测试连接失败，DevTools 看了下，密码被当作域名发起了请求。

Rookiewan

2023-02-16 16:30:27 +08:00

试了下，指定文件夹下只有 3 个文件夹，但是却一直搜索，搜索 1000 多个还在继续，被我终止了。不会是从根目录开始搜索的吧？

ufo5260987423

2023-02-16 17:38:18 +08:00

@eaststarpen 我直接用 vim 插件，在打开网页的时候可以直接搜索

XiaoBaiYa

2023-02-17 10:33:26 +08:00

@hamsterbase #18 感谢推荐，挺好用，基本无感，已经存了 1 个 G 的历史记录了

greensea

2023-02-17 11:19:18 +08:00

@wynemo 昨天提交新版本了，现在审核已经通过，应该会自动更新下来了

@wanguorui123 你是想自动保存网页的 mht ，而仅仅是纯 HTML ？这样会很大的哦，估计一天就能有几个 GB 出来

@zooo 曾经想过做全文索引然后加快搜索速度，但是考虑到本地没法实现，而如果在服务端实现的话对个人来说部署又太麻烦，于是还是直接采用扫描的方法搜索

@dasenlin 这是一个问题，做的时候确实没考虑到这种情况，过几天会更新一个版本出来解决

@Rookiewan 如果指定目录的话应该就只搜索这个目录下的，我回头再测试确认一下

greensea

2023-02-17 11:22:09 +08:00

@lelandsu 这个是一个问题，过几天的新版会修复

atshow

2023-02-18 02:38:24 +08:00

@greensea 是的，用户名是邮箱，被识别为网址了

Champa9ne

2023-02-18 09:39:08 +08:00

楼主感觉保存成类似用 save page we 插件下载下来的那种包含图片的 html 的形式还是有必要的。刚才粗略看了一下昨天刷的网页大概在 800 左右，一个正经技术贴含图片下载下来大概大小在 5-10MB ，这样算一天估计在 4-8g 。

800 这个值只是没排除下面说的肯定没必要下载的访问和我昨天几乎屁事没干一直在刷网页的前提下的测量值。

而且因为也不是所有浏览的网页都有必要下载，感觉可以在下载的时候过一次正则匹配，因为有时候访问主站或者打开翻译器，在搜索引擎上搜索关键字不打开帖子这种操作反而会产生大量浏览记录。

比如访问 https://www.v2ex.com/则不下载，访问 https://www.v2ex.com/t/*则下载，访问 https://translate.google.com/则不下载这样。

实际上感觉如果是正经干活，一天按匹配规则刷下来可能 200-400 贴左右需要被下载就顶天了。感觉再多一天的存储量可能在两三 g 左右，如果是丢到 nas 上那应该问题不大吧。

yy915cn

2023-02-18 12:59:52 +08:00

webdav 连接不了（其它软件挂载是没问题的，网页打开也没问题）
http://xx:[email protected]:8080/data/
然后试了 SingleFile ，也连接不了 webdav 。。。这种是什么问题呢

Magicmadoka

2023-03-02 15:06:01 +08:00

感谢 OP 开发的插件，我用的是世纪互联 OneDrive 作为 webdav 服务器，体验相当不错，就是使用的时候发现在 YouTube 看视频的时候，每隔十几秒插件就会数字+1 ，实际上又没有保存内容，不知道是不是 bug 。

yy915cn

2023-03-03 22:08:29 +08:00

webdav 错误提示
This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.

HuPu

2023-03-11 09:16:04 +08:00

@yy915cn 同样的问题我没怎么用过 webdav 随便用 docker 跑了个
docker run --restart always -v ~/srv/dav:/var/lib/dav \
-e AUTH_TYPE=Digest -e USERNAME=alice -e PASSWORD=secret1234 \
--publish 80:80 -d bytemark/webdav