前言
本文主要的知识点是使用python的beautifulsoup进行多层的遍历。
如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。
示例代码
from bs4 import beautifulsoup as bs
import requests
headers = {
“host”: “www.jd.com”,
“user-agent”: “mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/47.0.2526.80 safari/537.36 core/1.47.933.400 qqbrowser/9.4.8699.400”,
“accept”: “text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8”
}
session = requests.session()
def get_url():
renspned = bs(session.get(‘http://www.jd.com/’,headers = headers).text,’html.parser’)
for i in renspned.find(“p”, {“class”: “dd-inner”}).find_all(“a”,{“target”:”_blank”}):
print(i.get_text(),’:’,i.get(‘href’))
get_url()
运行这段代码以及达到了我们的目的。
更多python爬取京东的商品分类与链接相关文章请关注php中文网!