如何镜像一个 MediaWiki 网站？

baobao1270 · 2023-04-16T05:10:55Z

想要备份一个国内小众圈子的 Wiki ，害怕哪天整个站都被屏蔽了不是维基百科，对方也不提供 dump 文件，所以不能使用「离线 Wiki 浏览器」之类的东西想要采集 Wiki 语言格式的文件内容，而不是 HTML 格式

This topic created in 1167 days ago, the information mentioned may be changed or developed.

想要备份一个国内小众圈子的 Wiki ，害怕哪天整个站都被屏蔽了

不是维基百科，对方也不提供 dump 文件，所以不能使用「离线 Wiki 浏览器」之类的东西
想要采集 Wiki 语言格式的文件内容，而不是 HTML 格式

wiki

格式

mediawiki

dump

6 replies • 2024-11-21 00:23:52 +08:00

clockwise9

Apr 16, 2023 via Android

根据 https://m.mediawiki.org/wiki/Web_scraping_access ，url 加参数 action=raw 就可以获得 wikitext 内容

baobao1270

Apr 16, 2023

@clockwise9 不是很想自己写爬虫，最好有能够有已经有的开源程序

LxnChan

Apr 16, 2023

https://lxnchan.cn/wget-all-grab.html

刚才我用我自己的 mediawiki 试了一下，wget 整站抓取基本是可行的，但是抓下来的东西比较乱而且只能是静态页面（包括在页面内跳转也会失效）。不过可以参考#1 的思路，在抓取时每个 url 后加 raw 参数然后自己本地搭一个把 raw 导入数据库应该也可行。

vazo

Apr 16, 2023

可以试试 HTTrack
http://www.httrack.com/page/2/

winterx

Apr 16, 2023

特殊:导出页面

dianso

Nov 21, 2024

找到办法了吗