爬虫项目（四）：抓取网页所有图片

其他
2025-08-19 02:09:01

文章目录一、书籍推荐二、完整代码三、运行结果

一、书籍推荐

推荐本人书籍《Python网络爬虫入门到实战》，详细介绍见👉：《Python网络爬虫入门到实战》书籍介绍

二、完整代码

原理：抓取该链接中所有的图片格式。基于selenium来获取，自动下载到output文件夹中。

from selenium import webdriver import requests as rq import os from bs4 import BeautifulSoup import time # Enter Path : chromedriver.exe # Enter URL : http:// .netbian /meinv/index_2.htm path = input("Enter Path : ") url = input("Enter URL : ") output = "output" def get_url(path, url): driver = webdriver.Chrome(executable_path=r"{}".format(path)) driver.get(url) print("loading.....") res = driver.execute_script("return document.documentElement.outerHTML") return res def get_img_links(res): soup = BeautifulSoup(res, "lxml") imglinks = soup.find_all("img", src=True) return imglinks def download_img(img_link, index): try: extensions = [".jpeg", ".jpg", ".png", ".gif"] extension = ".jpg" for exe in extensions: if img_link.find(exe) > 0: extension = exe break img_data = rq.get(img_link).content with open(output + "\\" + str(index + 1) + extension, "wb+") as f: f.write(img_data) f.close() except Exception: pass result = get_url(path, url) time.sleep(60) img_links = get_img_links(result) if not os.path.isdir(output): os.mkdir(output) for index, img_link in enumerate(img_links): img_link = img_link["src"] print("Downloading...") if img_link: download_img(img_link, index) print("Download Complete!!") 三、运行结果

如下所示：

标签：

爬虫项目（四）：抓取网页所有图片由讯客互联其他栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“爬虫项目（四）：抓取网页所有图片”

上一篇
前端框架vBeanadmin

下一篇
http的网站进行访问时候自动跳转至https