python爬虫保存为csv文件内容为空 python爬虫存储csv

转载

mob6454cc70eddf 2023-11-28 11:10:18

文章标签 python爬虫赋值 json python 文章分类 Python 后端开发

存储爬虫数据

偶得一不错的爬虫教程，现博客分享，想要获取完整教程，加V：ff17328081445。文章为系列文章，持续更新，欢迎关注。

存储数据的基础知识

python爬虫保存为csv文件内容为空 python爬虫存储csv_json

python爬虫保存为csv文件内容为空 python爬虫存储csv_python爬虫_02

基础知识：csv写入与读取

#写入的代码：
#!/usr/bin/python3
import csv
#引用csv模块。

csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件，传入参数：文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
#加newline=' '参数的原因是，可以避免csv文件出现两倍的行距（就是能避免表格的行与行之间出现空白行）。
#加encoding='utf-8'，可以避免编码问题导致的报错或乱码。

writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。

writer.writerow(['电影','豆瓣评分'])
#调用writer对象的writerow()方法，可以在csv文件里写入一行文字 “电影”和“豆瓣评分”。

writer.writerow(['银河护卫队','8.0'])
#在csv文件里写入一行文字 “银河护卫队”和“8.0”。

writer.writerow(['复仇者联盟','8.1'])
#在csv文件里写入一行文字 “复仇者联盟”和“8.1”。

csv_file.close()
#写入完成后，关闭文件就大功告成啦！

-------------------------------------------
#读取的代码：
#!/usr/bin/python3
#导入csv模块。
import csv

#用open()打开“demo.csv”文件，'r'是reader读取模式，newline=''是避免出现两倍行距。
#encoding='utf-8'能避免编码问题导致的报错或乱码。
csv_file = open('demo.csv','r',newline='',encoding='utf-8')

#用csv.reader()函数创建一个reader对象。
#用for循环遍历reader对象的每一行。打印row，就能读取出“demo.csv”文件里的内容。
reader = csv.reader(csv_file)
for row in reader:
    print(row)

>>>>>>>>>>>>>>>>>>>>>>>>
['电影', '豆瓣评分']
['银河护卫队', '8.0']
['复仇者联盟', '8.1']

python爬虫保存为csv文件内容为空 python爬虫存储csv_python爬虫_03

python爬虫保存为csv文件内容为空 python爬虫存储csv_json_04

基础知识：Excel写入与读取

python爬虫保存为csv文件内容为空 python爬虫存储csv_赋值_05

#一个Excel文档也称为一个工作薄（workbook），每个工作薄里可以有多个工作表（wordsheet），当前打开的工作表又叫活动表。
#每个工作表里有行和列，特定的行与列相交的方格称为单元格（cell）。比如上图第A列和第1行相交的方格我们可以直接表示为A1单元格。

#写入的代码：
#!/usr/bin/python3

import openpyxl
#引用openpyxl 。

wb = openpyxl.Workbook()
#利用openpyxl.Workbook()函数创建新的workbook（工作薄）对象，就是创建新的空的Excel文件。

sheet = wb.active
#wb.active就是获取这个工作薄的活动表，通常就是第一个工作表。

sheet.title = 'new title'
#可以用.title给工作表重命名。现在第一个工作表的名称就会由原来默认的“sheet1”改为"new title"。

sheet['A1'] = '漫威宇宙'
#把'漫威宇宙'赋值给第一个工作表的A1单元格，就是往A1的单元格中写入了'漫威宇宙'。

rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
#先把要写入的多行内容写成列表，再放进大列表里，赋值给rows。

for i in rows:
    sheet.append(i)
#遍历rows，同时把遍历的内容添加到表格里，这样就实现了多行写入。

print(rows)
#打印rows

wb.save('Marvel.xlsx')
#保存新建的Excel文件，并命名为“Marvel.xlsx”

-------------------------------------------
#读取的代码：
#!/usr/bin/python3

wb = openpyxl.load_workbook('Marvel.xlsx')
#调用openpyxl.load_workbook()函数，打开“Marvel.xlsx”文件。

sheet = wb['new title']
#获取“Marvel.xlsx”工作薄中名为“new title”的工作表。

sheetname = wb.sheetnames
print(sheetname)
#sheetnames是用来获取工作薄所有工作表的名字的。如果你不知道工作薄到底有几个工作表，就可以把工作表的名字都打印出来。

A1_cell = sheet['A1']
A1_value = A1_cell.value
print(A1_value)
#把“new title”工作表中A1单元格赋值给A1_cell，再利用单元格value属性，就能打印出A1单元格的值。

python爬虫保存为csv文件内容为空 python爬虫存储csv_python_06

python爬虫保存为csv文件内容为空 python爬虫存储csv_python_07

#实例爬取周杰伦歌曲信息
#!/usr/bin/python3
import requests, openpyxl

wb = openpyxl.Workbook()
# 创建工作薄
sheet = wb.active
# 获取工作薄的活动表
sheet.title = 'restaurants'
# 工作表重命名

sheet['A1'] = '歌曲名'  # 加表头，给A1单元格赋值
sheet['B1'] = '所属专辑'  # 加表头，给B1单元格赋值
sheet['C1'] = '播放时长'  # 加表头，给C1单元格赋值
sheet['D1'] = '播放链接'  # 加表头，给D1单元格赋值

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):
    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'sizer.yqq.song_next',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '周杰伦',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }

    res_music = requests.get(url, params=params)
    json_music = res_music.json()
    list_music = json_music['data']['song']['list']
    for music in list_music:
        name = music['name']
        # 以name为键，查找歌曲名，把歌曲名赋值给name
        album = music['album']['name']
        # 查找专辑名，把专辑名赋给album
        time = music['interval']
        # 查找播放时长，把时长赋值给time
        link = 'https://y.qq.com/n/yqq/song/' + str(music['file']['media_mid']) + '.html\n\n'
        # 查找播放链接，把链接赋值给link
        sheet.append([name, album, time, url])
        # 把name、album、time和link写成列表，用append函数多行写入Excel
        print('歌曲名：' + name + '\n' + '所属专辑:' + album + '\n' + '播放时长:' + str(time) + '\n' + '播放链接:' + url)

wb.save('Jay.xlsx')
# 最后保存并命名这个Excel文件

python爬虫保存为csv文件内容为空 python爬虫存储csv_赋值_08