Python BeautifulSoup网页爬虫实战分享

2023-04-17 00:00:00 爬虫 网页 实战

开始之前,请确保您已经安装好了 Python 和 BeautifulSoup 库。

  1. 导入库
    我们首先需要导入需要的库:urllib.request 用于下载网页,BeautifulSoup 用于解析网页。

import urllib.request
from bs4 import BeautifulSoup

  1. 获取网页内容
    我们可以使用 urllib.request 库来获取网页的内容。下面的示例中我们获取 pidancode.com 网站的内容。

url = "https://pidancode.com"
response = urllib.request.urlopen(url)
html = response.read()

  1. 解析网页
    我们将使用 BeautifulSoup 库来解析网页。在下面的示例中,我们用 “html.parser” 解析器解析了 pidancode.com 网站。

soup = BeautifulSoup(html, 'html.parser')

  1. 获取网页标题
    网页标题通常包含在 标签中。我们可以使用 BeautifulSoup 库来获取网页标题。</li> </ol> <p>title = soup.title.string</p> <ol start="5"> <li>获取所有链接<br /> 我们可以使用 find_all() 函数来获取网页中所有的链接。下面的示例中,我们获取了 pidancode.com 网站中所有的链接。</li> </ol> <p>for link in soup.find_all('a'):<br /> print(link.get('href'))</p> <ol start="6"> <li>获取指定标签<br /> 如果您只需要获取指定标签的内容,可以使用 find() 或 find_all() 函数来实现。下面的示例中,我们获取了 pidancode.com 网站中所有的 h1 标签内容。</li> </ol> <p>for h1 in soup.find_all('h1'):<br /> print(h1.string)</p> <ol start="7"> <li>搜索指定内容<br /> 如果您需要搜索指定的文本内容,可以使用 find_all() 函数来实现。下面的示例中,我们搜索了 pidancode.com 网站中包含 “Python” 文本的标签。</li> </ol> <p>for tag in soup.find_all(text='Python'):<br /> print(tag.parent)</p> <ol start="8"> <li>结论<br /> 通过使用 Python 和 BeautifulSoup 库,您可以轻松地爬取网页并提取其中的数据。上述内容只是一个简单的示例,实际应用中您可能需要更多的代码来获取和处理数据。请谨慎使用爬虫,尊重网站的隐私和版权。</li> </ol> </div> <div class=""> <p><strong>相关文章</strong></p> </div> </article> </div> </main> <footer> <div class="container"> <p> <span>友情链接:</span> <a href="https://www.688576.com" target="_blank">雨伦博客</a>   <a href="https://www.yaanbbs.net" target="_blank">雅安论坛</a> </p> <a href="https://beian.miit.gov.cn" target="_blank">京ICP备15023317号-6</a> </div> </footer> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?30b42218aa13759c43de5f1971d0a93b"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>