Selenium在异步加载中的应用

原创

罗罗攀攀 2022-09-01 16:37:03 ©著作权

文章标签 简书异步加载数据 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者罗罗攀攀的原创作品，请联系作者获取转载授权，否则将追究法律责任

简书文章异步加载

之前爬虫小分队的第一次作业就是爬取简书七日热门，同学们应该知道部分数据是异步加载的，对于阅读，评论，喜欢的抓取数据策略为使用正则表达式匹配，收录专题就是找包来获取数据的。

Selenium在异步加载中的应用_数据

Selenium在异步加载中的应用_简书_02

Selenium代码

from selenium import webdriver
url = 'http://www.jianshu.com/p/c9bae3e9e252'
def get_info(url):
    include_title =[]
    driver = webdriver.PhantomJS()
    driver.get(url)
    driver.implicitly_wait(20)
    author = driver.find_element_by_xpath('//span[@class="name"]/a').text
    date = driver.find_element_by_xpath('//span[@class="publish-time"]').text
    word = driver.find_element_by_xpath('//span[@class="wordage"]').text
    view = driver.find_element_by_xpath('//span[@class="views-count"]').text
    comment = driver.find_element_by_xpath('//span[@class="comments-count"]').text
    like = driver.find_element_by_xpath('//span[@class="likes-count"]').text
    included_names = driver.find_elements_by_xpath('//div[@class="include-collection"]/a/div')
    for i in included_names:
        include_title.append(i.text)
    print(author,date,word,view,comment,like,include_title)
get_info(url)