python 实现图片中文字提取 python提取图片信息

转载

mob64ca140651e5 2024-02-02 19:49:39

文章标签 python 实现图片中文字提取大数据 python html User 文章分类 Python 后端开发

python 爬虫入门–图片爬取

GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py

爬取文字信息没难度？
感觉太单调？
那我们试试找一些图片爬取一下！

首先了解看看文本信息和图片信息有何区别？

<p>文本信息</p>
<a href="http://网址">百度链接</a>
<img src="路径/图片.jpg" alt="">

那么，大家可以清楚的看出来，文本信息和链接信息的区别，是一个显示在页面上，一个是显示图片，但是下载路径不能直接显示出来。

import requests
from lxml import etree

index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
	for j in i:
		print(j.text)
		#b = j.get('src')
		#print(b)

显示内容为：

文本信息
百度链接
None

这个我们获取的是文本信息，那么下边我们试一下获取src

import requests
from lxml import etree
# index_response = requests.get(html)

index_html = etree.HTML(html)
# print(index_html)
for i in index_html:
	for j in i:
		# print(j.text)
		b = j.get('src')
		print(b)

None
None
路径/图片.jpg

这样我们就可以根据这个方法来获取网页中的src来获取图片链接信息了。

下载界面的函数,利用 Requests 库来获取前端代码，以文本模式显示并给后续能检索内容打下铺垫。

def download_page(url):
    '''
    用于下载gb2312解码，并且加上表头
    '''
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    r = requests.get(url, headers=headers)
    r.encoding = 'gb2312'
    return r.text

根据BeautifulSoup库来检索页面中标签，链接，以及相关的文本信息。

def get_pic_list(html):
    '''
    获取每个页面的图片链接和文本信息
    '''
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find_all('li', class_='wp-item')
    for i in pic_list:
        a_tag = i.find('h3', class_='tit').find('a')
        link = a_tag.get('href')
        text = a_tag.get_text()
        get_pic(link, text)

根据刚才拿到的图片链接以及文本信息，下载下来，并且为了保证在下载的时候避免被插到，所以每执行一次，休息1秒。

def get_pic(link, text):
    '''
    获取当前页面的图片,并保存
    '''
    html = download_page(link)  # 下载界面
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find('div', id="picture").find_all('img')  # 找到界面所有图片
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    create_dir('pic/{}'.format(text))
    for i in pic_list:
        pic_link = i.get('src')  # 拿到图片的具体 url
        r = requests.get(pic_link, headers=headers)  # 下载图片，之后保存到文件
        with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
            f.write(r.content)
            time.sleep(1)   # 休息一下，不要给网站太大压力，避免被封

最后根据本页面加载出来的信息，可以使用for循环实现翻页的作用。

整体代码如下：

import requests
import os
import time
import threading
from bs4 import BeautifulSoup


def download_page(url):
    '''
    用于下载页面
    '''
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    r = requests.get(url, headers=headers)
    r.encoding = 'gb2312'
    return r.text


def get_pic_list(html):
    '''
    获取每个页面的图片链接和文本信息
    '''
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find_all('li', class_='wp-item')
    for i in pic_list:
        a_tag = i.find('h3', class_='tit').find('a')
        link = a_tag.get('href')
        text = a_tag.get_text()
        get_pic(link, text)


def get_pic(link, text):
    '''
    获取当前页面的图片,并保存
    '''
    html = download_page(link)  # 下载界面
    soup = BeautifulSoup(html, 'html.parser')
    pic_list = soup.find('div', id="picture").find_all('img')  # 找到界面所有图片
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    create_dir('pic/{}'.format(text))
    for i in pic_list:
        pic_link = i.get('src')  # 拿到图片的具体 url
        r = requests.get(pic_link, headers=headers)  # 下载图片，之后保存到文件
        with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
            f.write(r.content)
            time.sleep(1)   # 休息一下，不要给网站太大压力，避免被封


def create_dir(name):
    if not os.path.exists(name):
        os.makedirs(name)


def execute(url):
    page_html = download_page(url)
    get_pic_list(page_html)


def main():
    create_dir('pic')
    queue = [i for i in range(1, 72)]   # 构造 url 链接 页码。
    threads = []
    while len(queue) > 0:
        for thread in threads:
            if not thread.is_alive():
                threads.remove(thread)
        while len(threads) < 5 and len(queue) > 0:   # 最大线程数设置为 5
            cur_page = queue.pop(0)
            url = 'http://meizitu.com/a/more_{}.html'.format(cur_page)
            thread = threading.Thread(target=execute, args=(url,))
            thread.setDaemon(True)
            thread.start()
            print('{}正在下载{}页'.format(threading.current_thread().name, cur_page))
            threads.append(thread)


if __name__ == '__main__':
    main()

再此，检索了一下泰勒的图片，翻页爬取了一千多张高清图片。

python 实现图片中文字提取 python提取图片信息_html