如何设置Python爬虫的User-Agent？

IT业界
2025-09-07 21:45:01

在Python爬虫中设置User-Agent是模拟浏览器行为、避免被目标网站识别为爬虫的重要手段。User-Agent是一个HTTP请求头，用于标识客户端软件（通常是浏览器）的类型和版本信息。通过设置合适的User-Agent，可以提高爬虫的稳定性和成功率。

以下是几种常见的方法来设置Python爬虫中的User-Agent：

1. 使用requests库设置User-Agent

requests库是Python中最常用的HTTP请求库之一，它允许在发送请求时通过headers参数设置请求头，包括User-Agent。

示例代码： import requests # 目标URL url = " example " # 设置请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3" } # 发送GET请求 response = requests.get(url, headers=headers) # 检查响应状态 if response.status_code == 200: print("请求成功") print(response.text) else: print(f"请求失败，状态码: {response.status_code}") 2. 使用BeautifulSoup和requests设置User-Agent

如果你使用BeautifulSoup来解析HTML内容，同样需要通过requests库发送请求，并设置User-Agent。

示例代码： import requests from bs4 import BeautifulSoup # 目标URL url = " example " # 设置请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3" } # 发送GET请求 response = requests.get(url, headers=headers) # 检查响应状态 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') print(soup.prettify()) else: print(f"请求失败，状态码: {response.status_code}") 3. 使用Scrapy框架设置User-Agent

如果你使用Scrapy框架来构建爬虫，可以在settings.py文件中全局设置User-Agent，或者在每个请求中动态设置。

全局设置User-Agent（在settings.py中）： # settings.py USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' 动态设置User-Agent（在爬虫中）： import scrapy class ExampleSpider(scrapy.Spider): name = "example" start_urls = [" example "] def start_requests(self): for url in self.start_urls: yield scrapy.Request(url=url, callback=self.parse, headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3" }) def parse(self, response): # 解析响应内容 self.logger.info("成功获取页面") 4. 使用随机User-Agent

为了避免被目标网站识别出规律性请求，可以使用随机的User-Agent。可以通过fake_useragent库生成随机的User-Agent。

安装fake_useragent库： pip install fake_useragent 示例代码： from fake_useragent import UserAgent import requests # 创建UserAgent对象 ua = UserAgent() # 目标URL url = " example " # 设置随机User-Agent headers = { "User-Agent": ua.random } # 发送GET请求 response = requests.get(url, headers=headers) # 检查响应状态 if response.status_code == 200: print("请求成功") print(response.text) else: print(f"请求失败，状态码: {response.status_code}") 5. 注意事项

遵守法律法规：在进行爬虫操作时，必须严格遵守相关法律法规，尊重网站的robots.txt文件规定。

合理设置请求频率：避免过高的请求频率导致对方服务器压力过大，甚至被封禁IP。

应对反爬机制：目标网站可能会采取一些反爬措施，如限制IP访问频率、识别爬虫特征等。可以通过使用动态代理、模拟正常用户行为等方式应对。

通过以上方法，你可以在Python爬虫中灵活地设置User-Agent，从而更好地模拟浏览器行为，避免被目标网站识别为爬虫。希望这些信息对你有所帮助！

标签：

如何设置Python爬虫的User-Agent？由讯客互联IT业界栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“如何设置Python爬虫的User-Agent？”

上一篇
放大镜效果

下一篇
电商分布式场景中如何保证数据库与缓存的一致性？实战方案与Ja