Amazon Customer Reviews Dataset 完整指南：数据集、实时抓取与生产级方案

文章摘要

「Amazon customer reviews dataset」的搜索背后，藏着三种截然不同的需求：学术研究者想要的是 571M 级离线语料，电商从业者要的是实时竞品评论监控，AI Agent 开发者需要的是能被工具调用的结构化 API。本文逐一拆解市场上每一类方案的真实能力与盲区，给出带代码的技术演示，并直接告诉你什么场景该用什么工具——包括为何你自己写的爬虫在 2026 年已经撑不过三周。

你真正需要的不是「数据集」，而是「数据能力」

每个月有数以万计的开发者、数据科学家、电商运营搜索「amazon customer reviews dataset」，但他们要解决的问题差了十万八千里。学术圈的研究者在找 571 亿条可用于模型训练的离线语料；跨境电商卖家想知道竞品上周新增了哪些差评；LLM 应用开发者则需要一个能被 AI Agent 实时调用的 JSON 接口。把这三种需求塞进同一个关键词，几乎注定了大多数人会找错答案。

市场上的现有方案也在制造混乱。Kaggle 上那份被转载无数次的「Amazon Product Reviews」数据集，最后一次更新停在 2018 年；McAuley Lab 2023 年发布的新版虽然体量惊人，但许可证明文禁止商业用途；自己写 Python 爬虫的人，2024 年底就发现亚马逊把评论页全面移入了登录墙；至于那些声称能「实时采集」的 API，价格从每千次 $0.20 到 $3.00 不等，实际成功率和数据完整性却没人说清楚。

这篇文章要做的，是把这个混乱的市场拆开来讲清楚：每种方案能给你什么、不能给你什么、适合谁、多少钱、以及当你真的需要在生产环境跑评论数据时，正确的技术路径是什么。

现有方案全景：571M 数据集到底能用来做什么？

学术数据集：体量大但时效死

目前最权威的公开 Amazon customer reviews dataset，是加州大学圣地亚哥分校 McAuley 实验室维护的系列数据集。2023 年发布的最新版本涵盖 5.715 亿条评论，横跨 33 个品类，时间跨度从 1996 年 6 月到 2023 年 9 月。数据托管在 Hugging Face 和 AWS S3，可以直接用 datasets 库加载，也支持通过 AWS Athena 做无下载的 SQL 查询。

这是学术研究的金矿，但用在商业场景会碰三堵墙。第一，CC BY-NC 4.0 许可证明确禁止商业使用，用它训练商业模型在法律上处于灰色地带。第二，数据集的天花板是 2023 年 9 月，如果你做的是竞品监控或市场情绪分析，这份数据已经「死」了将近三年。第三，数据质量偏斜严重：5 星好评占比超过 60%，没有任何情感标注，且不包含亚马逊 2023 年才推出的「Customer Says」AI 摘要字段——这恰恰是当前买家决策最依赖的信息层。

AWS Open Data Registry 上还托管着 2014 年和 2018 年的历史版本，主要供学术复现使用，商业价值更低。Kaggle 上流传的各种 Amazon reviews 数据集，来源混杂，有的直接来自上述学术版本，有的是社区爬取后再分发，数据完整性和合规性都存在疑问。

商业预打包数据集：贵且照样不新鲜

Bright Data 的 Amazon Reviews Dataset 是商业数据集市场的代表：41M+ 条记录，支持 JSON/CSV/Parquet 格式，可直接交付到 S3 或 Snowflake。定价按记录量计算，起步价约 $0.0025/条，最低订单 $250。听起来是省事的选项，但本质问题没有解决——这依然是预打包的快照数据，更新频率通常是月度甚至季度级，你无法指定特定 ASIN 的最新评论。

如果你做的是大规模语料训练（比如覆盖 500 万个 ASIN 的品类语义分析），商业数据集有其合理性。但若需要监控 100 个竞品 ASIN 的实时评论动态，这条路走不通——你买到的永远是过期的照片，不是实时的摄像头。

第三方评论数据平台：按需而定

Jungle Scout、Helium10 等亚马逊卖家工具也会在其产品界面展示评论数据，但这些工具的底层逻辑是「给卖家看数据」而非「给开发者用数据」。API 接口往往不开放，或者开放后只能查询少量字段，难以支撑大规模的程序化数据消费。更关键的是，这类工具通常按月订阅，价格从 $49 到 $499 不等，但你能拿到的评论量受严格限制。

自己写爬虫有多难？一段代码告诉你现实

2024 年前后的分水岭：登录墙的出现

在 2024 年 11 月之前，你用 requests + BeautifulSoup 还能爬到亚马逊产品页面上的「前 10 条精选评论」。这之后，亚马逊将 /product-reviews/{ASIN} 端点整体移入了登录验证流程——未登录的请求会被 302 重定向到 /ap/signin。这一改动让无数依赖公开评论页的爬虫脚本在一夜之间失效。

即使是产品详情页（/dp/{ASIN}），「精选评论」的渲染逻辑也在持续变化：部分评论通过 JavaScript 动态加载，部分字段（如 Customer Says 摘要、评分分布图）是异步请求的独立接口，单纯解析 HTML 源码会拿到一个残缺的数据结构。

一个真实可运行的入门爬虫

下面这段代码展示了一个「基础级」的亚马逊评论采集器，能在小规模测试中工作，但你应该认真阅读它之后的缺陷分析：

"""
Amazon Reviews 基础采集器 — 仅供原理演示
警告：此脚本不适合生产环境，详见下方缺陷分析
依赖: pip install requests beautifulsoup4 lxml
"""

import requests
from bs4 import BeautifulSoup
import time
import random
import json
from dataclasses import dataclass, asdict
from typing import Optional


@dataclass
class Review:
    asin: str
    review_id: str
    title: str
    rating: float
    body: str
    verified: bool
    date: str
    helpful_count: int
    reviewer_name: str
    reviewer_id: Optional[str] = None


class AmazonReviewScraper:
    """
    基础亚马逊评论爬虫
    注意：此实现仅能抓取产品详情页上的"精选评论"（通常 8 条）
    完整评论列表已被亚马逊移入登录墙，此脚本无法访问
    """

    BASE_URL = "https://www.amazon.com/dp/{asin}"

    # 模拟真实浏览器 Headers — 这是能否绕过初步检测的关键
    HEADERS = {
        "User-Agent": (
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
            "AppleWebKit/537.36 (KHTML, like Gecko) "
            "Chrome/125.0.0.0 Safari/537.36"
        ),
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Language": "en-US,en;q=0.5",
        "Accept-Encoding": "gzip, deflate, br",
        "Connection": "keep-alive",
        "Upgrade-Insecure-Requests": "1",
        # 缺少 sec-ch-ua 等现代 Client Hints，TLS 指纹暴露
    }

    def __init__(self, delay_range=(3, 8)):
        self.session = requests.Session()
        self.session.headers.update(self.HEADERS)
        self.delay_range = delay_range

    def _get_page(self, url: str) -> Optional[BeautifulSoup]:
        """获取页面，附加随机延迟"""
        try:
            # 随机延迟模拟人类行为，但频率和节奏仍暴露自动化特征
            time.sleep(random.uniform(*self.delay_range))
            response = self.session.get(url, timeout=15)

            # 检测是否被重定向至登录页或 CAPTCHA
            if "ap/signin" in response.url:
                print(f"[警告] 被重定向至登录页：{response.url}")
                return None
            if response.status_code == 503:
                print(f"[警告] 收到 503，可能触发了 Bot 检测")
                return None
            if response.status_code != 200:
                print(f"[错误] HTTP {response.status_code}: {url}")
                return None

            return BeautifulSoup(response.text, "lxml")

        except requests.exceptions.Timeout:
            print(f"[错误] 请求超时: {url}")
            return None
        except requests.exceptions.ConnectionError as e:
            print(f"[错误] 连接失败: {e}")
            return None

    def scrape_featured_reviews(self, asin: str) -> list:
        """
        仅能抓取产品详情页上的精选评论（8 条）
        完整评论列表（/product-reviews/ 端点）需要登录，此方法无法访问
        """
        url = self.BASE_URL.format(asin=asin)
        soup = self._get_page(url)

        if not soup:
            return []

        reviews = []
        # 亚马逊频繁变更 HTML 结构，以下选择器可能随时失效
        review_divs = soup.select("[data-hook='review']")

        if not review_divs:
            review_divs = soup.select(".review")

        for div in review_divs:
            try:
                review = self._parse_review_div(asin, div)
                if review:
                    reviews.append(review)
            except Exception as e:
                print(f"[解析错误] ASIN {asin}: {e}")
                continue

        return reviews

    def _parse_review_div(self, asin: str, div) -> Optional[Review]:
        """解析单条评论 HTML"""

        review_id_elem = div.get("id", "")
        if not review_id_elem:
            return None

        # 评分：提取星级文本 "4.0 out of 5 stars"
        rating_elem = div.select_one("[data-hook='review-star-rating'] span")
        if not rating_elem:
            rating_elem = div.select_one(".review-rating span")
        rating_text = rating_elem.get_text() if rating_elem else "0"
        try:
            rating = float(rating_text.split()[0])
        except (ValueError, IndexError):
            rating = 0.0

        title_elem = div.select_one("[data-hook='review-title'] span:last-child")
        title = title_elem.get_text(strip=True) if title_elem else ""

        body_elem = div.select_one("[data-hook='review-body'] span")
        body = body_elem.get_text(strip=True) if body_elem else ""

        date_elem = div.select_one("[data-hook='review-date']")
        date = date_elem.get_text(strip=True) if date_elem else ""

        verified_elem = div.select_one("[data-hook='avp-badge']")
        verified = verified_elem is not None

        helpful_elem = div.select_one("[data-hook='helpful-vote-statement']")
        helpful_text = helpful_elem.get_text(strip=True) if helpful_elem else "0"
        try:
            helpful_count = int(helpful_text.split()[0].replace(",", ""))
        except (ValueError, IndexError):
            helpful_count = 0

        reviewer_elem = div.select_one(".a-profile-name")
        reviewer_name = reviewer_elem.get_text(strip=True) if reviewer_elem else "Unknown"

        return Review(
            asin=asin,
            review_id=review_id_elem,
            title=title,
            rating=rating,
            body=body,
            verified=verified,
            date=date,
            helpful_count=helpful_count,
            reviewer_name=reviewer_name,
        )

    def scrape_batch(self, asin_list: list) -> list:
        """批量抓取，返回 JSON 友好的字典列表"""
        all_reviews = []
        for i, asin in enumerate(asin_list):
            print(f"[{i+1}/{len(asin_list)}] 抓取 ASIN: {asin}")
            reviews = self.scrape_featured_reviews(asin)
            all_reviews.extend([asdict(r) for r in reviews])
            print(f"  获取 {len(reviews)} 条精选评论")
        return all_reviews


# ===== 使用示例 =====
if __name__ == "__main__":
    test_asins = ["B08N5WRWNW", "B07XJ8C8F5"]

    scraper = AmazonReviewScraper(delay_range=(4, 10))
    results = scraper.scrape_batch(test_asins)

    print(json.dumps(results[:2], indent=2, ensure_ascii=False))
    print(f"\n总计采集: {len(results)} 条评论")

这段代码的七个致命缺陷

把上面的代码跑通之后，你会遇到的问题远不止「抓到的评论太少」：

① 评论覆盖率极低。此脚本只能抓产品详情页上的「精选评论」，通常不超过 8 条。一个有 5000 条评论的 ASIN，你只能看到亚马逊精选展示的极小子集，且 2–3 星的负面评论几乎不会出现在精选位。

② TLS 指纹暴露。Python 的 requests 库使用的 TLS 握手特征（cipher suites 顺序、扩展字段）与 Chrome 浏览器有显著差异。亚马逊的底层防护层会在 TCP 握手阶段就识别出「这不是真实浏览器」，直接返回空页面或 503，无论你的 User-Agent 伪装得多像 Chrome。解决方案是改用 curl_cffi 或 playwright，但这显著增加了维护复杂度。

③ HTML 选择器脆弱性。亚马逊平均每 2–4 周会调整一次产品页的 HTML 结构，data-hook 属性的值可能变化，CSS 类名经过混淆处理。上面的选择器在今天能用，三周后可能全部失效，你需要专人维护选择器并持续监控采集成功率。

④ 无法处理地区版本和语言差异。亚马逊不同站点（amazon.de、amazon.co.jp）的页面结构、评论字段、日期格式各不相同。如果你需要多站点评论数据，就需要为每个站点维护独立的解析逻辑。

⑤ 代理成本失控。每个 IP 能在被封禁前发出的有效请求数非常有限。单纯依赖数据中心 IP 几乎立即被识别并封禁；住宅代理的成本通常在 $3–$15/GB，对于评论页这类文本密集型请求，每千条评论的代理成本可能超过 $5，远高于直接调用商业 API。

⑥ Customer Says 完全抓不到。亚马逊的 AI 摘要功能（Customer Says）是通过独立的异步 API 接口加载的，不在 HTML 源码中，静态解析无法获取。这一字段越来越成为卖家和 AI Agent 做产品分析的核心输入。

⑦ 无合规保障。亚马逊 ToS 明确禁止自动化数据采集。虽然美国 hiQ v. LinkedIn 判例确立了公开数据抓取的一定合法性，但亚马逊的法务部门主动性远强于 LinkedIn，且针对账号关联的卖家，账号封禁风险是真实的。

结论很直接：这段代码适合学习爬虫原理，适合小规模一次性数据探索，不适合任何需要稳定性、规模性或数据完整性的生产环境。

amazon reviews dataset vs DIY scraper vs review API 生产可用性对比 — 从左到右：学术数据集免费但无法实时更新，DIY 爬虫被登录墙封堵，专业 Review API 才是生产环境的可行解

商业 API 方案对比：谁能在生产环境真正跑起来？

主流评论数据 API 横向评测

我们在 Pangolinfo 实测过市场上主流的几家 Amazon Reviews 数据服务，用相同的测试集（100 个不同体量的 ASIN，涵盖 5 个品类）比较了成功率、数据完整性和实际成本：

方案	类型	定价模型	成功率	实时性	Customer Says	生产可用性
McAuley Lab 数据集	静态数据集	免费（CC BY-NC）	N/A	截至 2023-09	❌	仅学术/研究
DIY Python 爬虫	自建	代理成本 $3–15/GB	<30%	受限（登录墙）	❌	❌ 不可用
Bright Data Reviews	商业 API	$0.75–3.00/千次	~95%	实时	部分支持	✅ 企业级
Oxylabs	商业 API	$0.50–1.35/千条	~93%	实时	部分支持	✅ 企业级
Apify Reviews Actor	Actor 平台	约 $0.20–2.00/千次	~85%	实时（延迟较高）	❌	✅ 开发者友好
Pangolinfo Amazon Review API	商业 API	按量付费，成本优势明显	99%+	分钟级实时	✅ 完整抓取	✅ 生产级

选型的核心矛盾：你真正的瓶颈是什么？

从表格出发，几个容易被忽视的选型细节值得展开说。

Apify 的灵活性被高估了。Actor 平台的优势是快速试错——你可以在几分钟内部署一个社区维护的评论爬虫，不需要自己写代码。但问题在于，社区 Actor 的维护责任在开发者社区，一旦亚马逊更新反爬策略，Actor 可能在你不知情的情况下静默失败（返回空数据而非报错）。在需要 SLA 保证的生产场景，这是严重风险。

Bright Data 的价格体系比它看起来的要复杂。$0.75/千次是入门价，实际上高质量住宅代理、JavaScript 渲染、CAPTCHA 解决方案通常叠加计费。我们实测了一个需要 JS 渲染的评论页场景，实际到手价格接近 $2.50/千次，与官网宣传的起步价差距明显。

Customer Says 字段是一个隐性的技术门槛。亚马逊于 2023 年推出的 AI 生成摘要功能，已经成为买家决策的核心参考。这个字段通过独立异步接口加载，不在标准 HTML 中，大多数爬虫和低端 API 服务都无法覆盖。如果你的应用场景涉及产品舆情分析或 AI Agent 产品调研，缺少 Customer Says 字段的评论数据是一个重大的信息缺口。

生产级方案：Pangolinfo Amazon Review API 的实际接入方式

为什么 Customer Says 完整抓取是差异化能力

在 Pangolinfo 构建 Amazon Review API 的过程中，我们发现大多数竞品的评论数据实际上只覆盖了「传统评论列表」，而忽略了亚马逊评论体系中越来越重要的两个层次：一是 Customer Says（AI 生成的跨评论主题摘要），二是 Rating Distribution（各星级数量分布及趋势）。这两个字段在卖家工具、选品分析、AI Agent 的场景中价值极高，却因为技术门槛高而普遍缺失。

我们的实测数据显示：在 30M+/天的调用量下，Pangolinfo Review API 的采集成功率稳定在 99% 以上，平均响应时间低于 2 秒，支持指定地区（邮区）抓取——这对于研究区域性消费差异的卖家和研究者来说是独特价值。

用 Pangolinfo API 替换上面的 DIY 爬虫

下面的代码展示了用 Pangolinfo Amazon Review API 替代 DIY 爬虫后的实现效果——代码量更少，数据更完整，不需要维护代理和解析器：

"""
Pangolinfo Amazon Review API 接入示例
获取完整评论数据，包含 Customer Says、评分分布等字段
文档：https://docs.pangolinfo.com/en-api-reference/
"""

import requests
import json
from typing import Optional


class PangolReviewClient:
    """Pangolinfo Amazon Review API 客户端"""

    API_ENDPOINT = "https://api.pangolinfo.com/v1/amazon/reviews"

    def __init__(self, api_key: str):
        self.api_key = api_key
        self.session = requests.Session()
        self.session.headers.update({
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        })

    def get_reviews(
        self,
        asin: str,
        marketplace: str = "US",
        page: int = 1,
        sort_by: str = "recent",
        star_filter: Optional[int] = None,
        zip_code: Optional[str] = None
    ) -> dict:
        """
        获取指定 ASIN 的评论数据
        返回完整 JSON，含 Customer Says、评分分布、分页信息
        """
        payload = {
            "asin": asin,
            "marketplace": marketplace,
            "page": page,
            "sort_by": sort_by,
        }
        if star_filter:
            payload["star_filter"] = star_filter
        if zip_code:
            payload["zip_code"] = zip_code

        response = self.session.post(self.API_ENDPOINT, json=payload, timeout=30)
        response.raise_for_status()
        return response.json()

    def get_all_reviews(self, asin: str, marketplace: str = "US", max_pages: int = 10) -> list:
        """分页抓取所有评论"""
        all_reviews = []
        for page in range(1, max_pages + 1):
            data = self.get_reviews(asin, marketplace, page=page)
            reviews = data.get("reviews", [])
            if not reviews:
                break
            all_reviews.extend(reviews)
            total_pages = data.get("pagination", {}).get("total_pages", 1)
            print(f"  ASIN {asin} — 第 {page}/{total_pages} 页，已获取 {len(reviews)} 条")
            if page >= total_pages:
                break
        return all_reviews

    def get_customer_says(self, asin: str, marketplace: str = "US") -> Optional[str]:
        """专门抓取 Customer Says（AI 摘要）——大多数 DIY 爬虫无法获取的字段"""
        data = self.get_reviews(asin, marketplace)
        return data.get("customer_says")

    def get_rating_distribution(self, asin: str, marketplace: str = "US") -> dict:
        """获取各星级评分分布"""
        data = self.get_reviews(asin, marketplace)
        return data.get("rating_distribution", {})


# ===== 使用示例 =====
if __name__ == "__main__":
    client = PangolReviewClient(api_key="YOUR_API_KEY")
    asin = "B08N5WRWNW"

    # 1. 获取完整评论（自动分页）
    reviews = client.get_all_reviews(asin, marketplace="US", max_pages=5)
    print(f"共获取 {len(reviews)} 条评论")

    # 2. 查看 Customer Says（AI 摘要）
    customer_says = client.get_customer_says(asin)
    print(f"Customer Says:\n{customer_says}")

    # 3. 查看评分分布
    distribution = client.get_rating_distribution(asin)
    for star, count in sorted(distribution.items(), reverse=True):
        print(f"  {star}星: {count:,} 条")

    # 4. 专门抓取差评（1–2 星），用于产品痛点分析
    negative_reviews = []
    for star in [1, 2]:
        page_data = client.get_reviews(asin, star_filter=star)
        negative_reviews.extend(page_data.get("reviews", []))
    print(f"获取到 {len(negative_reviews)} 条差评")

与前面的 DIY 爬虫相比，这段代码的工程差异一目了然：没有代理管理、没有 HTML 解析器、没有选择器维护、不会因为亚马逊改版而失效。API 返回的是已经结构化的 JSON，直接接入数据库或 AI 管道，零额外处理成本。对于需要构建长期、稳定数据流的团队，这是工程层面的降维打击。

如果你在构建 AI Agent 的选品或竞品分析工作流，Amazon Data MCP 提供了原生的 MCP 协议接入，让 Agent 能直接调用评论数据而无需自己管理 API 鉴权和分页逻辑。

Amazon Review API 架构图：代理轮换、反爬绕过、JSON 输出 — 专业 Review API 的四层处理架构，确保在亚马逊严格反爬环境下实现 99% 采集成功率

什么场景该选哪种方案？一个决策框架

场景一：学术研究 / AI 模型预训练

如果你在做情感分类模型、推荐系统研究或 NLP 基准测试，McAuley Lab 的 Amazon Reviews ’23 数据集是首选——571M 条数据足够覆盖绝大多数学术任务，完全免费，且已经过基本清洗。你需要接受的条件是：数据截止 2023 年 9 月，许可证限制商业用途，且 5 星评论严重占比（需要主动做下采样或对抗平衡）。用 Hugging Face datasets 库可以按品类流式加载，不必一次性下载数百 GB 的全量数据。

场景二：中小规模竞品监控（100–1000 个 ASIN）

这是 DIY 爬虫最常被尝试、也最容易踩坑的场景。每周跑一次批量采集，监控几百个竞品 ASIN 的最新评论——听起来量不大，但亚马逊的 IP 封禁速度非常快，住宅代理的成本和维护成本加起来往往超过直接用 API。Pangolinfo Amazon Review API 的按量付费模式在这个量级下非常划算：每月 10 万次调用的实际成本通常低于购买和维护代理池的运营成本，而且不需要专职工程师维护选择器。

场景三：大规模数据服务商 / SaaS 产品

如果你在构建面向卖家的 SaaS 工具，日调用量在百万级以上，需要 SLA 保证和稳定的企业级支持，Bright Data 和 Pangolinfo 都是合理选项。区别在于 Customer Says 字段的覆盖、多站点支持深度、以及定制化能力。我们建议先用免费额度跑一个真实业务场景的基准测试，再决定长期供应商。

场景四：AI Agent 实时工具调用

LangChain、Dify、Coze 等 Agent 框架的选品或竞品分析 Agent，需要评论数据作为实时工具输入。这个场景对延迟和结构化程度的要求最高：评论数据必须是能被 LLM 直接理解的 JSON 结构，响应时间要在 2 秒以内，Customer Says 字段直接作为 Agent 的摘要输入可以节省大量 Token。Pangolinfo 的 Amazon Data MCP 专门为这个场景设计，让 Agent 通过标准 MCP 协议直接调用，不需要开发者手动封装 API。

选型结论：从「能用」到「敢用」的距离

回到最开始的问题：搜索 amazon customer reviews dataset 的人，很少能在第一次就找到真正适合自己场景的方案。学术数据集和生产环境之间的鸿沟，不是一段 Python 爬虫能填平的——2026 年的亚马逊反爬体系已经成熟到让 DIY 方案在生产环境几乎不可持续。

真正的选型逻辑只有一条：你的数据需要多「新鲜」，以及这份新鲜值多少钱。学术研究可以接受 3 年前的快照，竞品监控需要昨天的数据，AI Agent 需要现在的数据。后两类需求，只有专业的亚马逊评论数据 API 能稳定满足。

如果你正在评估评论数据的采集方案，Pangolinfo 的 Amazon Review API 提供免费试用额度，支持 Customer Says 完整抓取和多站点覆盖。对于需要把评论数据接入 AI Agent 工作流的团队，也可以直接了解 Amazon Data MCP 的接入方案。

选型不是终点，稳定性才是。任何在生产环境跑评论数据的方案，都应该在上线前做真实业务场景的 72 小时压力测试，而不是依赖供应商的宣传数字。

常见问题解答

Amazon customer reviews dataset 免费版本有哪些？

目前最权威的免费数据集是 UC San Diego McAuley 实验室发布的 Amazon Reviews ’23，包含 571.54 亿条评论，覆盖 33 个品类，数据截止 2023 年 9 月，可通过 Hugging Face 或 AWS S3 下载。此外 AWS Open Data Registry 也托管了历史版本。核心限制：均为静态历史快照，最新数据延迟至少 3 年，且许可证（CC BY-NC 4.0）禁止商业用途。

为什么 Python requests + BeautifulSoup 爬取亚马逊评论越来越难？

2024 年底起，亚马逊将评论页面（/product-reviews/）整体移入登录墙，未登录流量直接跳转至登录页，导致传统爬虫无法抓取完整评论列表。加之 TLS 指纹识别、行为分析和 IP 频率限制三重防护，纯 requests 脚本在生产环境成功率已低于 30%。即使配合 curl_cffi 模拟浏览器指纹，仍需消耗大量住宅代理 IP 资源。

商业评论数据 API 大概多少钱？

市场价格差异较大：Bright Data 约 $0.75–$3.00/千次请求，Oxylabs 约 $0.50–$1.35/千条结果，Apify 按算力计费约 $0.20–$2.00/千次。Pangolinfo Amazon Review API 采用按量付费模式，成本整体低于头部竞品，并支持 Customer Says 完整抓取，适合中大规模商业场景。

静态数据集能用于 AI 大模型训练吗？

可以用于预训练语言模型和情感分析任务，McAuley Lab 的 BLaIR 等模型就基于此数据集训练。但需注意：CC BY-NC 4.0 限制商业用途；数据截至 2023 年，缺少近两年新增语料；数据存在较严重的正向评分偏斜（5 星占比超 60%），需要主动下采样或对抗样本补充。

什么场景真正需要实时评论数据而非历史数据集？

以下四类场景必须使用实时数据：①竞品差评监控——新差评通常在发布后 24 小时内影响评分；②新品上市监控——产品上线首周评论爆发期；③AI Agent 实时决策——LangChain/Dify 等 Agent 调用评论数据做选品决策，必须是分钟级数据；④ Customer Says 语义分析——这一 AI 摘要功能在历史数据集中根本不存在。

正在寻找稳定可靠的亚马逊评论数据方案？Amazon Review API 支持免费试用（查看Amazon Review API调用文档），Customer Says 完整抓取，99% 成功率，分钟级实时数据。

Amazon Customer Reviews Dataset 完整指南：数据集局限、实时抓取方案与生产级选型

文章摘要

你真正需要的不是「数据集」，而是「数据能力」