寻找丢失的博客

原创

qq61b6d41d3f9e6 2021-12-27 11:37:39 ©著作权

文章标签 python html .net 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者qq61b6d41d3f9e6的原创作品，请联系作者获取转载授权，否则将追究法律责任

2020年10月20日。

因为我重写这篇博客之后发现少了一篇，系统统计是1570篇，我本地是1569篇。

我排查了标签有new的博客，并没有找到。

老办法，数据挖掘，数据分析，python上场。

首先我们要拿到系统给的所有博客的列表：

寻找丢失的博客_.net

（因为2篇博客正在审核中，所以截图这会显示的是1568）

这里的导出数据功能只能导出1000个（CSDN你真的是要我每天和你斗智斗勇啊，为了写点博客想尽办法，比密室逃脱还刺激）

所以要正序、逆序各导出一份，然后拼接起来。

然后我们要根据本地备份的博客，生成博客列表：

import re, os
import urllib.request

def out(n):
    if n:
        print("#", end='')
        out(n-1)


def readfile(A, file):
    f = open(file, 'r').read()
    try:

eachurl = url[0][18
    except:

    html = urllib.request.urlopen(eachurl).read().decode('UTF-8')
    title = re.findall('var articleTitle =.*;', str(html))
    eachtitle = title[0]
    aurl = eachtitle[20:-2] + ' '+eachurl
    A.append(aurl)


def outpath(path1, path2, deep):
    path1 = os.path.join(path1, path2)
    mylist = os.listdir(path1)
    # out(deep)
    if os.path.isdir(os.path.join(path1, mylist[0])):  # 全是目录
        # print(' ', path2)
        for adir in mylist:
            outpath(path1, adir, deep + 1)
    else:  # 全是文件
        A = []
        for adir in mylist:
            try:
                readfile(A, os.path.join(path1, adir))
            except:
                A.append(adir)
        # print(' ', path2, '  共', len(mylist), '篇')
        A.sort()
        for each in A:
            print(each[:-58])
            # print(each[:-58] + '    [博客链接](' + each[-58:] + ')')


outpath('D:\\朱聪', '博客备份（2020年10月18日）', 0)  # 0对应path2 = '博客备份'以此类推
# outpath('D:\\朱聪\\博客备份（2020年10月18日）', '9，其他', 1)