2020年10月20日。

因为我重写这篇博客之后发现少了一篇,系统统计是1570篇,我本地是1569篇。

我排查了标签有new的博客,并没有找到。

老办法,数据挖掘,数据分析,python上场。

首先我们要拿到系统给的所有博客的列表:

寻找丢失的博客_.net

(因为2篇博客正在审核中,所以截图这会显示的是1568)

这里的导出数据功能只能导出1000个(CSDN你真的是要我每天和你斗智斗勇啊,为了写点博客想尽办法,比密室逃脱还刺激)

所以要正序、逆序各导出一份,然后拼接起来。

然后我们要根据本地备份的博客,生成博客列表:

import re, os
import urllib.request

def out(n):
if n:
print("#", end='')
out(n-1)


def readfile(A, file):
f = open(file, 'r').read()
try:

eachurl = url[0][18
except:

html = urllib.request.urlopen(eachurl).read().decode('UTF-8')
title = re.findall('var articleTitle =.*;', str(html))
eachtitle = title[0]
aurl = eachtitle[20:-2] + ' '+eachurl
A.append(aurl)


def outpath(path1, path2, deep):
path1 = os.path.join(path1, path2)
mylist = os.listdir(path1)
# out(deep)
if os.path.isdir(os.path.join(path1, mylist[0])): # 全是目录
# print(' ', path2)
for adir in mylist:
outpath(path1, adir, deep + 1)
else: # 全是文件
A = []
for adir in mylist:
try:
readfile(A, os.path.join(path1, adir))
except:
A.append(adir)
# print(' ', path2, ' 共', len(mylist), '篇')
A.sort()
for each in A:
print(each[:-58])
# print(each[:-58] + ' [博客链接](' + each[-58:] + ')')


outpath('D:\\朱聪', '博客备份(2020年10月18日)', 0) # 0对应path2 = '博客备份'以此类推
# outpath('D:\\朱聪\\博客备份(2020年10月18日)', '9,其他', 1)

运行:

寻找丢失的博客_.net_02

最后,用excel或者文本比较工具,就可以找出这个幽灵了。

寻找丢失的博客_.net_03

原来,是一篇new博客,但是标签贴错了,贴到成更新了。

哎,我怎么早没想到呢,搞得大半夜三点半写完代码在这忏悔。

啥也不是,睡觉!

2021年9月11日。

又更新了,上面的方法又不行了,我真的真的真的无比痛恨反反复复反反复复的更新,太烦了。

我又找到了新的方法:

不停的按【page down】按钮,直到把所有博客都显示出来,然后用ctrl+s把页面保存到本地。

然后用里面的getAllUrl函数即可获得所有博客的列表。