本人开发的全站爬虫\网站备份工具

By hello_chris at 2019-12-19 • 3976次点击
hello_chris

本项目的缘起是由于查询 文化大革命时期 中使用到的大字报及官方通告等宣传物料,于是通过 Google 发现 https://ccradb.appspot.com/无产阶级图书馆 分别提供全文阅览及光盘版下载,但考虑到第一个站 appspot 已被 GFW 认证,而第二个站则需要 Windows 操作系统(本人Macos),使用和查询并不方便,于是想到了将其全站下载并开放在 Github 方便其他人查询使用。

因此诞生了本项目,如果熟悉 Python 和 Scrapy,写一个爬虫,只需要十几行代码,耗时半小时到若干小时不等,再配合 Gohugo 等静态网站生成器,可以很方便的利用 Github Pages 生成一个全新的没有被 GFW 认证的网站。

https://github.com/speechfree/wholesite-crawler

通过此工具爬取的整站目前有如下几个:

  1. ccradb 中国文化大革命文库 https://speechfree.github.io/cultural-revolution-database/
  2. xys 新语丝 https://speechfree.github.io/xys/
  3. letscorp 墙外楼 https://speechfree.github.io/letscorp/

欢迎各位添加新的爬虫

全站, 爬虫, 备份, 网站, 工具


楼主有心人呀

小二 at 2019-12-19
1

关于文革资料,推荐备份一下香港中文大学中国研究服务中心主办的民间历史

http://mjlsh.usc.cuhk.edu.hk/Default.aspx

新闻实验室 at 2019-12-20
2

另外,既然楼主能生成Gohugo子站,不妨搜集一些优秀的网络大V作品,比方Reddit/u/Spinkcat的发言很不错,如果能把下面的文档按主题切分成文章,做一个/CNRedditors 挂在你下面就好了,现在这个文档太大根本打不开。

https://gitlab.com/redditcollection/chinese-redditors/blob/master/Spinkcat_comments.md

如果这个repo的楼主能把抓取reddit内容的代码开源就好了,可以搜集一些优秀的答主

新闻实验室 at 2019-12-20
3

哇感谢感谢,实用工具

令狐冲 at 2019-12-20
4

还有pin站早期的优秀答主的发言像利维坦、Merlin(Pepperonie)的也可以搜集一些,直接从它的公开的数据库里面提取即可。总觉得有些优秀答主现在散了挺可惜的,想搜集起来做个档案。Spinkcat一直在产出内容,非常赏心悦目。

新闻实验室 at 2019-12-20
5

@新闻实验室 #5 提供的内容非常不错,不过本人时间和精力有限很难兼顾多个方向。

你提到的 Spinkcat 在 Reddit 的留言有了解,但是这部分内容属于个人创作,需要向对方申请版权。

本人项目中的 1 内容虽然是由海外学者整理出版,在某些学校图书馆可以公开查阅,但本人认为其设计的事件对中国影响非常之大,且若干在线资源被 GFW 认证,大陆若想了解相关的资源颇有难度,因此花时间整理。

对于本人整理的 2,3 同理,目前更着重于科学研究价值较大、国内被和谐或在国内不易访问的内容。

当然,对于你提到的一些内容和方向,本人愿意提供技术支持,一起协作完成。

另:你提到的 reddit 连接 可以点 load it anyway 或其他两个选项均可以查看,如若不可还可以把项目 clone 到本地查看。

hello_chris at 2019-12-20
6

@新闻实验室 #5 六月之前还是有不少大手写的东西可看的。大约18年底到19年年初附近。

如果要抓内容可先抓特定时间段的某些id,但最好是先格式化下,有不少好的回答都淹没在很多普通问题下,而且也不是我们认证过的那些id,很多都是匿名的。

有的人说的内容到年底年中都得到了验证

sorrysorrysorry at 2019-12-20
7

@新闻实验室 #5 刚用google搜索站内了下,发现有的话题讨论已经被删除或者隐藏了,以前我都是截图保存有用或有意思的回答的,现在看,真正包含信息量的讨论还真的不能人多,人一多说真话的人就会走。

sorrysorrysorry at 2019-12-20
8

不过可以比较出来 duckduckgo的搜索质量是非常之低。大部分内容都index不到。

sorrysorrysorry at 2019-12-20
9

@sorrysorrysorry #7 @hello _chris #6 谢谢提醒,版权问题我觉得公共论坛的发言本身就是属于公共领域,只要引用注明出处和ID应该问题不大,版权还是原作者的,没有授权的话跟CDT差不多,虽然然CDT也常被人吐嘈。

新闻实验室 at 2019-12-21
10

@hello _chris #6 能否把www.cnd.org备份一下?30岁的网站,真正的互联网活化石,里头宝很多,但网站安全性实在糟心。

CND at 2020-01-10
11

都不知道网站是什么语言写的, http://museums.cnd.org/CR/ZK16/cr878.gb.html 随便打开一个文章链接,其源代码基本上等于看到的文字。

不过我还蛮欣赏华夏文摘的极简纯文字风,做博客模版的大神可以尝试复兴一下这种风格

CND at 2020-01-10
12

@sorrysorrysorry #7 我确实有想过把新品葱老内容按照id整一下,因为刚好保存了一份未被篡改的数据。

小二 at 2020-01-10
13

@CND #11 @CND #12 啊,感觉很有价值,希望有人能archive一下

小二 at 2020-01-10
14

@小二 #13 只是自己去分拣材料太费精力了. 完全发出来也只是给大数据挖掘公司提供数据素材 最好是一周一更新 不要先发最优质的内容

sorrysorrysorry at 2020-01-12
15

我现在觉得 中共完全可以搜集到地球所有公开的政治文本,然后用深度学习直接作出一个五毛原型ai

很多有用的数据还不如不发,因为读者群体还不够大

sorrysorrysorry at 2020-01-12
16

@sorrysorrysorry #15 又不是人肉搞,把记得的几个 id 往 SQL 里一扔,结果就出来了。反正也没几个有价值的 id。

小二 at 2020-01-12
17
登录 后发表评论