您现在的位置是:首页 > 网站优化网站优化

Python编程——爬小说《星辰变》

胜于蓝2020-01-29【网站优化】人已围观

简介看的第一本小说 怀旧一下 hhhhh 代码如下 ( 使用正则表达式进行匹配 ) #小说爬虫 《星辰变》 import re import requests url="http://www.xbiquge.la/5/5623/" #小说

看的第一本小说 怀旧一下 hhhhh v4H胜于蓝|优秀个人博客

代码如下 ( 使用正则表达式进行匹配 ) v4H胜于蓝|优秀个人博客


 
  1. #小说爬虫 《星辰变》
  2.  
  3. import re
  4. import requests
  5. url="http://www.xbiquge.la/5/5623/" #小说目录
  6.  
  7. txt=requests.get(url).content.decode("utf-8")
  8. j=re.compile(r"<dd><a href='/5/5623/(.+?)' >(.+?)</a></dd>") #匹配正则
  9. ml=j.findall(txt)
  10. mlist=[(i[1],url+i[0]) for i in ml] #将章节和网址保存成列表mlist ,
  11. #print(mlist)
  12.  
  13. with open("11.txt","w",encoding="utf-8") as f:
  14. for i in mlist:
  15. print("开始下载--->",i[0])
  16. t1=requests.get(i[1]).content.decode("utf-8",errors="ignore") #忽略错误
  17. zw1=re.compile(r'tent">(.+?)<p>') #正则匹配正文部分
  18. zw=zw1.findall(t1)[0]
  19. zw=zw.replace("&nbsp;","") #因为解码格式不同 将乱码替换掉
  20. zw=zw.replace("<br />","")
  21. zw=zw.replace("<script></script>","")
  22. zw=zw.replace("readx();","")
  23. f.write(i[0]+"\n\n\n")
  24. f.write(zw+"\n\n\n")
  25. print("下载完毕")

 v4H胜于蓝|优秀个人博客

Tags:

很赞哦! ()

文章评论

当前时间

快速排名

  • 网站建设|万词霸屏,企业软文推广,刷下拉框
  • 快速排名:不用再等SEO三个月,只需3-7天即可把行业关键词覆盖百度搜索引擎首页,点击不收费,排名报表,真实访问量报表一目了然。

合作加盟

  • 扫码请注明来意,否则不会通过
  • 填写商户姓名不要带有“超市”,“便利店” ,“百货”等
  • 扫码成为快钱代理
  • 扫码加站长微信,为您推荐快钱总部负责人
  • 快钱POSS机(电签版)
  • 1,免押版:签约费率快捷交易0.38%,常规交易0.65%
  • 贷记卡单笔≥3000元视为激活
  • 2,,有押版:签约快捷交易0.38%,常规交易0.65%
  • 激活首刷≥99元,扣除99元系统服务费,多出部分shishi到账
  • 电签版ipos参与每月扶持奖励
  • 电签版ipos与Mpos单独考核台均
  • 30台以上有效激活奖励3000元扶持金
  • 当月交易额≥3000元的为活跃用户

本站推荐

站点信息

  • 建站时间:2018-10-24
  • 网站程序:帝国CMS7.5
  • 主题模板《今夕何夕》
  • 文章统计7074篇文章
  • 标签管理标签云
  • 统计数据百度统计
  • 扫描二维码:请注明来意,否则不会通过
  • 微信号:扫描二维码,关注我们
歌名 - 歌手
0:00