Python爬虫实战：爬取电商平台商品信息

📅 2026-05-05 🔄 更新：2026-05-30 👁 3 阅读网络爬虫技术

想要获取电商平台的商品信息却无从下手？本文将通过实战案例，教你使用Python爬虫爬取电商平台商品数据，包括价格、销量等，助你分析市场！

468 × 60 文章顶部广告 QEG44JER

引言 / 什么是电商爬虫

在电商行业快速发展的今天，商品数据已成为分析市场趋势、制定营销策略的重要依据。传统的人工采集方式效率低下且容易出错，而Python网络爬虫技术能够自动化、规模化地获取商品信息，包括价格、销量、评价等关键数据。

电商平台通常具有以下特点：

动态加载：商品数据通过JavaScript异步加载
反爬机制：包含IP限制、验证码、请求头校验等
数据结构复杂：HTML中嵌套多层JSON或需要解析特定API

本文将以某主流电商平台为例，通过完整的实战案例，演示如何使用Python突破反爬限制，高效获取商品信息。掌握这些技术后，你可以轻松扩展到其他电商平台的数据采集。

准备工作

环境配置

Python版本：推荐3.8+（支持最新异步库）

核心库安装：

pip install requests beautifulsoup4 selenium pandas fake_useragent

浏览器驱动：下载与Chrome版本匹配的chromedriver

反爬对策准备

代理IP池：建议使用付费服务（如亮数据、快代理）
User-Agent轮换：通过fake_useragent库生成
请求间隔控制：使用time.sleep(random.uniform(1,3))

提示：首次爬取前建议先在浏览器开发者工具（F12）中分析目标网站的请求流程，特别是Network标签下的XHR请求。

基础操作：静态页面爬取

步骤一：获取商品列表页

以某电商平台搜索结果页为例，首先分析其HTML结构：

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Referer': 'https://www.example.com/'
}

url = 'https://www.example.com/search?q=手机'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 提取商品链接（示例XPath）
items = soup.select('.gl-item .p-name a')
for item in items[:5]:  # 仅演示前5个
    print(item['href'])

步骤二：解析商品详情页

典型商品页包含以下数据：

数据字段	示例值	解析方式
商品名称	iPhone 13	`h1.title`
当前价格	¥5999	`.p-price strong`
月销量	1.2万+	`.sale-num`
店铺名称	苹果官方旗舰店	`.shop-name`

完整解析代码：

def parse_product(url):
    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        data = {
            'name': soup.select_one('h1.title').text.strip(),
            'price': soup.select_one('.p-price strong').text.strip(),
            'sales': soup.select_one('.sale-num').text.strip(),
            'shop': soup.select_one('.shop-name').text.strip()
        }
        return data
    except Exception as e:
        print(f"解析失败: {url}, 错误: {e}")
        return None

进阶技巧：动态页面处理

技巧一：使用Selenium处理JS渲染

当目标数据由JavaScript动态加载时，需要模拟浏览器行为：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')  # 无头模式
options.add_argument(f'user-agent={ua.random}')

driver = webdriver.Chrome(options=options)
driver.get('https://www.example.com/dynamic-page')

# 等待特定元素加载（显式等待更可靠）
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '.dynamic-data'))
    )
    print(element.text)
finally:
    driver.quit()

技巧二：解析API接口

许多电商平台通过API返回结构化数据，直接请求这些接口效率更高：

在开发者工具的Network标签中筛选XHR请求
找到包含商品数据的JSON接口（通常含items、list等关键词）
模拟接口请求：

api_url = 'https://api.example.com/search?keyword=手机&page=1'
api_headers = {
    **headers,
    'X-Requested-With': 'XMLHttpRequest'
}

response = requests.get(api_url, headers=api_headers)
data = response.json()

for item in data['items']:
    print(f"商品: {item['name']}, 价格: {item['price']}")

技巧三：数据存储优化

使用Pandas将数据保存为CSV：

import pandas as pd

# 假设已收集多个商品数据
products = [
    {'name': 'iPhone', 'price': 5999},
    {'name': '华为', 'price': 4999}
]

df = pd.DataFrame(products)
df.to_csv('products.csv', index=False, encoding='utf_8_sig')

常见问题

Q：遇到403 Forbidden错误怎么办？

A：通常是由于缺少必要请求头或被IP封禁。解决方案：

添加完整的请求头（包括Cookie、Referer等）
使用代理IP轮换
降低请求频率

Q：如何处理登录后的页面数据？

A：需要携带登录后的Cookie：

with requests.Session() as s:
    # 先执行登录请求
    login_data = {'username': 'your_name', 'password': 'your_pwd'}
    s.post('https://www.example.com/login', data=login_data)
    
    # 后续请求会自动携带Cookie
    response = s.get('https://www.example.com/member-data')

Q：数据解析不准确如何调试？

A：

使用print(response.text)查看原始HTML
在浏览器中打开页面，用开发者工具检查元素
尝试更具体的CSS选择器（如div.container > ul.list > li.item）

小结

本文通过完整的实战案例，演示了Python爬取电商平台商品信息的全流程：

分析目标网站结构，确定采集策略
使用requests+BeautifulSoup处理静态页面
通过Selenium或直接调用API处理动态内容
实现数据存储和异常处理

实际项目中还需注意：

遵守目标网站的robots.txt协议
控制采集频率（建议1-3秒/次）
定期更新代理IP池
考虑使用Scrapy框架处理大规模爬取

掌握这些技术后，你可以轻松扩展到价格监控、竞品分析、选品决策等业务场景。建议从少量数据测试开始，逐步优化爬取策略。

468 × 60 文章底部广告 7XM2LNHL

🏷 标签：实战教程 Python 网络爬虫电商平台商品信息

引言 / 什么是电商爬虫

准备工作

环境配置

反爬对策准备

基础操作：静态页面爬取

步骤一：获取商品列表页

步骤二：解析商品详情页

进阶技巧：动态页面处理

技巧一：使用Selenium处理JS渲染

技巧二：解析API接口

技巧三：数据存储优化

常见问题

小结

🗂 相关分类

💡 推荐阅读

Word长文档如何快速生成目录？超详细教程

Excel错误值处理的7个实用技巧

Word段落格式设置：让文档结构更清晰

Photoshop入门教程：PS基础操作完全指南

PowerPoint动画优化：如何提升动画的流畅度和自然度？

如何用AI工具快速生成短视频封面和标题？

Figma入门教程：UI设计从零开始

AE关键帧速度控制：打造个性化动画节奏

安卓手机实用技巧：让手机更好用的50个小技巧

PPT制作入门：从零开始做出好看的演示文稿

WPS Office完全使用指南

iOS系统设置：如何自定义通知显示方式？

VS Code插件推荐：提升开发效率的必备神器

Python 文件自动化处理：批量重命名技巧

Python Web 开发：性能优化技巧大揭秘

数据库备份与恢复自动化：提升效率的利器

MySQL 基础入门：从安装到简单查询全攻略

VBA错误处理与调试：让Excel程序更稳定

MySQL 索引原理与实战：加速查询的利器

MySQL 存储过程与函数：简化复杂操作的利器

广告投放和询