您现在的位置是:首页 > 网站优化网站优化
Python编程——爬小说《星辰变》
胜于蓝2020-01-29【网站优化】人已围观
简介看的第一本小说 怀旧一下 hhhhh 代码如下 ( 使用正则表达式进行匹配 ) #小说爬虫 《星辰变》 import re import requests url="http://www.xbiquge.la/5/5623/" #小说
看的第一本小说 怀旧一下 hhhhh
代码如下 ( 使用正则表达式进行匹配 )
#小说爬虫 《星辰变》
import re
import requests
url="http://www.xbiquge.la/5/5623/" #小说目录
txt=requests.get(url).content.decode("utf-8")
j=re.compile(r"<dd><a href='/5/5623/(.+?)' >(.+?)</a></dd>") #匹配正则
ml=j.findall(txt)
mlist=[(i[1],url+i[0]) for i in ml] #将章节和网址保存成列表mlist ,
#print(mlist)
with open("11.txt","w",encoding="utf-8") as f:
for i in mlist:
print("开始下载--->",i[0])
t1=requests.get(i[1]).content.decode("utf-8",errors="ignore") #忽略错误
zw1=re.compile(r'tent">(.+?)<p>') #正则匹配正文部分
zw=zw1.findall(t1)[0]
zw=zw.replace(" ","") #因为解码格式不同 将乱码替换掉
zw=zw.replace("<br />","")
zw=zw.replace("<script></script>","")
zw=zw.replace("readx();","")
f.write(i[0]+"\n\n\n")
f.write(zw+"\n\n\n")
print("下载完毕")
Tags:
很赞哦! ()
上一篇:影响网站关键词相关性的四要素
下一篇:网站内容作弊方法
相关文章
随机图文
-
网站链接作弊方法
SEO网站链接作弊方法 1、博客(blog)作弊 博客(Web Log的简写,意思是网络日记)是一种在线个人刊物——一种互联网上定期发表达专栏。有时候博客几乎就像是阅 -
网站快照不更新与哪些因素有关?
在进行网站SEO优化的时候多多少少都遇到过快照不更新的情况,大家是否去了解过网站快照不更新的原因。那么,网站快照不更新与哪些因素有关? 网站存在作弊嫌疑 网站被 -
新站关键词排名怎样做?收录流量差要淡定
企业网站SEO推广是现今十分盛行的线上推广模式,很多企业在做关键词排名时,由于是新站且都不具备一定的SEO技术,所以网站推广排名的难度也就变得越来越大,网站在搜索引擎中都难以 -
个人博客网站怎么选择模板程序?
个人博客模板的选择,其实就是根据自己的爱好或模板的功能来选择。1、博客模板首页功能选择首页包含:banner大图、推荐文章、自动更新日期的文章列表、还可以推荐一个文章大图