遵义汽车网

python中函数的结果如何作为下一个入参 func(a[0])的结果为'ni','hao', 但observations=func(a[0])不对

发布时间:2019-09-17

有以下几个问题:

1、地址变了,'http://book.sina.com.cn/nzt/novel/lit/wxdfd/index.shtml'会自动跳转成http://vip.book.sina.com.cn/book/index_46651.html。前者不含有目录内容,应替换地址
2、提出目录块时,目录是ul列表里面有很多地址,但是现在的ul列表属于类变了。代码中用<ul class=l13>,实际中是<ul class="list_009">。根据比较,其他图书也改为现在的css类名字。
3、提取出目录块后,相应的下载位置也要改变。u = 'http://book.sina.com.cn' + link[0]应改为u = ‘http://vip.book.sina.com.cn/book/' + link[0][1:-1]。后者会吧引号包含所以要去掉
4、提取内容时,以前是根据“正文内容开始”和“正文内容结束”。现在我按的是正文的div,<div id="contTxt" class="contTxt1">

================================变更以上=========================
修改后的代码完整如下:
# -*- coding: cp936 -*-

import re
import urllib

def extract_links(html):
blocks = re.findall(r'<ul class="list_009">.*?</ul>', html, re.S)
links = []
for b in blocks:
links += re.findall(r'<a href=(\S+)[^<>]*>([^<>]*)</a>', b)
return links

def extract_content(html):
m = re.search('<div id="contTxt" class="contTxt1">.*</p></div>', html, re.S)
return m and html_to_text(m.group()) or ''

def html_to_text(html):
html = re.sub(r'<p>(.*?)</p>', r'\1\n', html)
html = re.sub(r'<[^<>]*>', '', html)
return "\n\n" + html.strip() + "\n\n"

def url_get(url):
u = urllib.urlopen(url)
c = u.read()
u.close()
return c

def download_book(urlindex, filename):
links = extract_links(url_get(urlindex))
fp = open(filename, 'w')
for link in links:
u = 'http://vip.book.sina.com.cn/book/' + link[0][1:-1]
title = link[1]
fp.write(title)
fp.write(extract_content(url_get(u)))
print u
print title
fp.close()

# 使用例子,下载并合成一个单独的 txt
download_book('http://vip.book.sina.com.cn/book/index_46651.html', '五星大饭店.txt')

回复:

print ("Hello ,World!")
name = raw_input ("What is your name?\n")
print 'Hello,%s!' % (name)

用raw_input吧,这样是没问题的

回复:

梦幻天堂·龙网情色自拍.扎克和米莉拍A片BluRay中英字幕(2)种子下载地址:

别拿了资源不给分啊

回复:

print ("Hello ,World!") name = raw_input ("What is your name?\n") print 'Hello,%s!' % (name) 用raw_input吧,这样是没问题的

回复:

有以下几个问题: 1、地址变了,'http://book.sina.com.cn/nzt/novel/lit/wxdfd/index.shtml'会自动跳转成http://vip.book.sina.com.cn/book/index_46651.html。前者不含有目录内容,应替换地址 2、提出目录块时,目录是ul列表里面有很多地址,...

回复:

梦幻天堂·龙网情色自拍.扎克和米莉拍A片BluRay中英字幕(2)种子下载地址:

上一篇:他们谁的长相好 下一篇:如果住旅馆欠钱了这个人未满18岁用还钱么

    返回主页:遵义汽车网

    本文网址:http://0852auto.cn/view-208451-1.html
      信息删除