国内成立最早的白癜风医院 https://m.39.net/baidianfeng/a_4604169.html今天我们简单的了解下网络爬虫,网络爬虫其实就是一个自动获取网页内容的程序。Python的爬虫需要用到一个第三方的库requests。requests库可以在gitbash中使用命令pipinstallrequests进行安装。如果你安装了anaconda的话,它里面就自带这个requests库。那么要使用这个requests库,还是跟以前一样,用import进行引入。然后我们请求网易的这个网站的网址,然后把获取到的网页的源代码打印出来。代码如下:运行结果:由于打印的结果是非常长的文本字符串,所以只截取其中一小部分。我们平常上网是这样一个过程:在地址栏输入网址,其实就是请求该网址指向的网站服务器,服务器会把相应的网页源代码以及图片等资源,发送到我们的电脑或者手机上,然后我们的电脑或者手机上面的浏览器会对服务器发送过来的网页源代码等资源进行解析,然后渲染成我们人类能够看得懂的内容。现在我们把刚刚用requests请求到的网易的网页源代码,在Python里面进行解析。Python里面没有浏览器,那么怎么进行解析呢?这就要用到另一个第三方库BeautifulSoup来进行解析。同样,如果你安装了anaconda,它就自带了这个库。如果你没有安装anaconda,可以在gitbash中用pipinstallBeautifulSoup来进行安装。(关于BeautifulSoup,如果你感兴趣,可以自行百度,查看它的文档)。现在我们在Python中,引入BeautifulSoup这个第三方库对请求到的网页源代码进行解析。代码如下:以上代码说明:BeautifulSoup这个第三方库就相当于Python里面的浏览器。Python是一门面向对象的编程语言,它里面的万事万物都可以看做是一个对象。所以这里用BeautifulSoup()函数可以创建出一个专门的对象,这个对象是专门对接BeautifulSoup的对象。soup=BeautifulSoup(a,html.parser)返回的结果是一个对象,保存在soup中。第一个参数a,是要解析的字符串对象,这里的a就是使用requests请求到的网页源代码的文本字符串,第二个参数html.parser表示解析成什么格式的文件,BeautifulSoup可以解析很多种格式的文件,在这里html.parser就表示解析成html格式的文件,因为网页文件就是html文件。print(soup.p)表示把解析出来的html格式的对象soup的第一个段落打印出来,p在html标记语言中表示段落标签。关于html相关的知识,如果是没有接触过web前端相关知识的小伙伴,可能不是很清楚,后面会介绍。以上代码运行结果:我们打开网易
转载请注明:http://www.aierlanlan.com/rzdk/7260.html