用python写一个Github Trending API

由于才开始学习python,很多东西都不会,花了好多天来把这个东西写好,于是记录如下。

要求:用requests库抓取热门仓库的信息,并存入数据库

1.用到的库:

import requests
from sqlalchemy import desc, create_engine, Column, Integer, String, Text  # 降序、连接路径、列、字符串、文本
from sqlalchemy.orm import scoped_session, sessionmaker  # 代理模式、数据库连接的媒(手机);engine号码
from sqlalchemy.ext.declarative import declarative_base  # 声明类映射类到表的关系

2.抓取url

url = 'http://132.232.132.144:8009/api?lang=python&since=daily'
response = requests.get(url)

3.解析内容

response_dict = response.json()

内容大致是这些:字典里面三个元素,第三个元素msg是一个列表,列表里面是各个热门仓库的信息

json如何存入redis json数据存储到数据库中_mysql

我们要分析的就是msg里面的内容

repositories = response_dict['msg']

遍历列表字典

for res in repositories:
    language = res['language']
    user = res['user']
    stars = res['stars']
    repo = res['repo']
    forks = res['forks']
    about = res['about']
    link = res['link']
    new_stars = res['new_stars']
    avatars = res['avatars']

        

api_info = {
        # 项目名称
        'repo': repo,
        # 语言
        'language': language,
        # 仓库拥有者
        'user': user,
        # star数
        'stars': stars,
        # fork数
        'forks': forks,
        # 描述
        'about': res['about'],
        # 链接
        'link': res['link'],
        # 新增star
        'new_stars': res['new_stars'],
        # 头像
        'avatars': res['avatars']

    }

4.连接数据库

# 创建连接:'数据库类型+数据库驱动名称://用户名:口令@机器地址:端口号/数据库名'
engine = create_engine('mysql+pymysql://root:19981010@localhost:3306/oceanlay?charset=utf8mb4')

# 连接数据库的路径。
# “mysql+mysqldb”指定了使用 MySQL-Python 来连接,
# 声明类 类到表的关系
Base = declarative_base()
# 创建数据表
Base.metadata.create_all(engine)

#定义python类

class Api(Base):
    __tablename__ = 'api'
    id = Column(Integer, primary_key=True)    #主键primary_key必须存在于某个字段中 
    repo = Column(String(128))  # repository name    #注意字段的数据类型与数据长度,设置相对应的类型
    language = Column(String(6))  # repository language
    user = Column(String(128))  # user
    stars = Column(String(128))
    forks = Column(String(128))
    link = Column(Text)
    new_stars = Column(String(128))

    def __repr__(self):
        return "<Api(id='%d',repo=%s,language=%s,user=%s,stars=%d,forks=%d,link=%s,new_stars=%s)>" \
               % (self.repo, self.language, self.user, self.stars, self.forks, self.link, self.new_stars,)
# 向表中插入数据
DBSession = sessionmaker(bind=engine)  #sessionmaker好比数据库和内容联系的手机,engine就是联系号码
session = DBSession()
# 写入数据
session.add(
    Api(repo=api_info['repo'], language=api_info['language'], user=api_info['user'], stars=api_info['stars'],
        forks=api_info['forks'], link=api_info['link'], new_stars=api_info['new_stars'])
        )    #注意添加到哪一个表里面 就写那个表

遍历输出:format函数

for res in repositories:
    print("仓库名:{repo}\n语言:{language}\n用户:{user}\nstars:{stars}\nforks:{forks}\n项目描述about:{about}\n网址:{link}\n关注者头像:{avatars}".format(repo=res['repo'], language=res['language'],  user=res['user'], stars=res['stars'],forks=res['forks'], about=res['about'], link=res['link'],avatars=res['avatars']))

Questions:

遍历列表字典时,一直得到的只有第一个仓库的东西,后来将写入数据的代码放入遍历循环中,ok!

连接数据库时,(还没学过数据库555),对应的端口、用户开始没搞清楚,一直没有连接成功

先建表再写数据,表内字段也要建好才可以,不然写不进去的,要注意数据类型和数据长度,不然会产生各种报错!

 

PS:由于热门项目的url得到的是html内容 虽然用beautifulsoup可以将内容提取出来 但是我太菜了 我提到一半不知道怎么搞了,于是就用了博主直接提供的api,但是多天的学习,还是有点儿东西了耶嘿嘿