爬虫项目(四):抓取网页所有图片
- 其他
- 2025-08-19 02:09:01

文章目录 一、书籍推荐二、完整代码三、运行结果 一、书籍推荐
推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见👉: 《Python网络爬虫入门到实战》 书籍介绍
二、完整代码原理:抓取该链接中所有的图片格式。基于selenium来获取,自动下载到output文件夹中。
from selenium import webdriver import requests as rq import os from bs4 import BeautifulSoup import time # Enter Path : chromedriver.exe # Enter URL : http:// .netbian /meinv/index_2.htm path = input("Enter Path : ") url = input("Enter URL : ") output = "output" def get_url(path, url): driver = webdriver.Chrome(executable_path=r"{}".format(path)) driver.get(url) print("loading.....") res = driver.execute_script("return document.documentElement.outerHTML") return res def get_img_links(res): soup = BeautifulSoup(res, "lxml") imglinks = soup.find_all("img", src=True) return imglinks def download_img(img_link, index): try: extensions = [".jpeg", ".jpg", ".png", ".gif"] extension = ".jpg" for exe in extensions: if img_link.find(exe) > 0: extension = exe break img_data = rq.get(img_link).content with open(output + "\\" + str(index + 1) + extension, "wb+") as f: f.write(img_data) f.close() except Exception: pass result = get_url(path, url) time.sleep(60) img_links = get_img_links(result) if not os.path.isdir(output): os.mkdir(output) for index, img_link in enumerate(img_links): img_link = img_link["src"] print("Downloading...") if img_link: download_img(img_link, index) print("Download Complete!!") 三、运行结果如下所示:
爬虫项目(四):抓取网页所有图片由讯客互联其他栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“爬虫项目(四):抓取网页所有图片”