上交所最新公告PDF下载代码-python

# import requests import re import os import urllib.request import random class SseCrawl(): def __init__(self): self.url = "http://www.sse.com.cn/disclosure/listedinfo/announcement/json/stock_bulletin_publish_order.json?v=0.46853839377888784" self.headers =[{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36'},] self.server = "http://www.sse.com.cn/" self.root_pattern = re.compile(r'{"([sS]*?)},') self.pdf_pattern = re.compile(r'"bulletinUrl":"([sS]*?)","securityCode"') self.name_pattern = re.compile(r'"bulletinTitle":"([sS]*?)","bulletinClassic"') def get_html(self): r = requests.get(self.url) r.encoding = 'utf-8' htmls = r.text return htmls def analysis(self,htmls): root_htmls = re.findall(self.root_pattern, htmls) anchors = [] for html in root_htmls: root_pdf = re.findall(self.pdf_pattern, html) url = self.server + "".join(root_pdf) root_name = re.findall(self.name_pattern, html) anchor = {'name':root_name, 'address' : url} anchors.append(anchor) return anchors def download(self,anchors): os.mkdir('Pdf_Download') os.chdir(os.path.join(os.getcwd(), 'Pdf_Download')) for anchor in anchors: file_url = "".join(anchor['address']) req_data = urllib.request.Request(file_url, headers=self.headers) u = urllib.request.urlopen(req_data) req_data = request.Request(anchor['address'], headers=headers[random.randint(0, 9)]) u = request.urlopen(req_data)""" f = open("".join(anchor['name']), 'wb') block_sz = 8192 # 因为UFS默认大小是8192字节（8KB） while True: buffer = u.read(block_sz) if not buffer: break f.write(buffer) f.close() def main(self): htmls = self.get_html() anchors = self.analysis(htmls) self.download(anchors) spider = SseCrawl() spider.main()

正数办公

上交所最新公告PDF下载代码-python

更多相关文章

推荐文章

年会PPT怎么做(年会ppt怎么做好看)

我哭了，早知道PPT排版有这么简单就好了

怎么才能用PPT赚到钱呢，PPT不过就是一个文档啊,它怎么能赚钱呢？

ICO推荐

热门文章

山东省16地市各姓氏家谱族谱PDF电子版

天津市16区各姓氏家谱族谱PDF电子版

河北省11地市家谱族谱PDF电子版大全

云南省16市州各姓氏家谱族谱PDF电子版

河南省17地市各姓氏家谱族谱PDF电子版

河北省历代地方志PDF电子版大全，县志州志应有尽有

最新文章

怎么把两个pdf合并成一个？pdf合并方法

如何把pdf转换成excel表格？

功能丰富的PDF在线转换工具，每天都可以免费试转

OFD文件如何免费转化成PDF

几百份Word转PDF，用一个神器就够了

PDF阅读器具备谷歌翻译功能了，效率值拉满

标签列表