博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫基础练习
阅读量:5815 次
发布时间:2019-06-18

本文共 1507 字,大约阅读时间需要 5 分钟。

0.可以新建一个用于练习的html文件,在浏览器中打开。

1.利用requests.get(url)获取网页页面的html文件

import requestsnewsurl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'res =requests.get(newsurl)res.encoding='utf-8'

2.利用BeautifulSoup的HTML解析器,生成结构树

from bs4 import BeautifulSoupsoup = BeautifulSoup(res.text,'html.parser')

3.找出特定标签的html元素

soup.psoup.headsoup.p.namesoup.p.attrssoup.p.contentssoup.p.textsoup.p.stringsoup.select('li')

4.取得含有特定CSS属性的元素

soup.select('#p1Node')soup.select('.news-list-title')

5.练习:

取出h1标签的文本

import requestsfrom bs4 import BeautifulSoupurl = 'http://localhost:63342/draw/venv/329.html?_ijt=nf522vm6pmjoqqg6p6nfqp03rf'res =requests.get(url)res.encoding='utf-8'res.textsoup = BeautifulSoup(res.text,'html.parser')a=soup.select('h1')[0].textprint(a)

取出a标签的链接

print(soup.a.attrs['href'])print(soup.li.a.attrs['href'])

 

取出所有li标签的所有内容

for b in soup.select('li'):    print(b)

 

取出一条新闻的标题、链接、发布时间、来源

print(soup.select('.news-list-title')[0].text)print(soup.body.li.a.attrs['href'])print(soup.select('.news-list-info')[0].contents[0].text)print(soup.select('.news-list-info')[0].contents[1].text)

 

转载于:https://www.cnblogs.com/candyxue/p/8677728.html

你可能感兴趣的文章
采用JXL包进行EXCEL数据写入操作
查看>>
一周总结
查看>>
将txt文件转化为json进行操作
查看>>
线性表4 - 数据结构和算法09
查看>>
C语言数据类型char
查看>>
Online Patching--EBS R12.2最大的改进
查看>>
Binary Search Tree Iterator leetcode
查看>>
Oracle性能优化--DBMS_PROFILER
查看>>
uva-317-找规律
查看>>
Event事件的兼容性(转)
查看>>
我的2014-相对奢侈的生活
查看>>
zoj 2412 dfs 求连通分量的个数
查看>>
Java设计模式
查看>>
一文读懂 AOP | 你想要的最全面 AOP 方法探讨
查看>>
Spring Cloud 微服务分布式链路跟踪 Sleuth 与 Zipkin
查看>>
ORM数据库框架 SQLite 常用数据库框架比较 MD
查看>>
华为OJ 名字美丽度
查看>>
微信公众号与APP微信第三方登录账号打通
查看>>
onchange()事件的应用
查看>>
Windows 下最佳的 C++ 开发的 IDE 是什么?
查看>>