2020年10月20日。
因为我重写这篇博客之后发现少了一篇,系统统计是1570篇,我本地是1569篇。
我排查了标签有new的博客,并没有找到。
老办法,数据挖掘,数据分析,python上场。
首先我们要拿到系统给的所有博客的列表:
(因为2篇博客正在审核中,所以截图这会显示的是1568)
这里的导出数据功能只能导出1000个(CSDN你真的是要我每天和你斗智斗勇啊,为了写点博客想尽办法,比密室逃脱还刺激)
所以要正序、逆序各导出一份,然后拼接起来。
然后我们要根据本地备份的博客,生成博客列表:
import re, os
import urllib.request
def out(n):
if n:
print("#", end='')
out(n-1)
def readfile(A, file):
f = open(file, 'r').read()
try:
eachurl = url[0][18
except:
html = urllib.request.urlopen(eachurl).read().decode('UTF-8')
title = re.findall('var articleTitle =.*;', str(html))
eachtitle = title[0]
aurl = eachtitle[20:-2] + ' '+eachurl
A.append(aurl)
def outpath(path1, path2, deep):
path1 = os.path.join(path1, path2)
mylist = os.listdir(path1)
# out(deep)
if os.path.isdir(os.path.join(path1, mylist[0])): # 全是目录
# print(' ', path2)
for adir in mylist:
outpath(path1, adir, deep + 1)
else: # 全是文件
A = []
for adir in mylist:
try:
readfile(A, os.path.join(path1, adir))
except:
A.append(adir)
# print(' ', path2, ' 共', len(mylist), '篇')
A.sort()
for each in A:
print(each[:-58])
# print(each[:-58] + ' [博客链接](' + each[-58:] + ')')
outpath('D:\\朱聪', '博客备份(2020年10月18日)', 0) # 0对应path2 = '博客备份'以此类推
# outpath('D:\\朱聪\\博客备份(2020年10月18日)', '9,其他', 1)
运行:
最后,用excel或者文本比较工具,就可以找出这个幽灵了。
原来,是一篇new博客,但是标签贴错了,贴到成更新了。
哎,我怎么早没想到呢,搞得大半夜三点半写完代码在这忏悔。
啥也不是,睡觉!
2021年9月11日。
又更新了,上面的方法又不行了,我真的真的真的无比痛恨反反复复反反复复的更新,太烦了。
我又找到了新的方法:
不停的按【page down】按钮,直到把所有博客都显示出来,然后用ctrl+s把页面保存到本地。
然后用里面的getAllUrl函数即可获得所有博客的列表。