for imgurl in imglist: # request.urlretrieve(imgurl,'%s.png' %x) fnew.write(imgurl + "\n") x+=1
fnew.close()
html = getHtml("https://www.12355.net/wechat/view/find_consult/find_consult_question_detail.html?quId=10087550&username=25133106") print (getVideoUrl(html))
defgetVideoUrl(html): reg = r'"creatorName":"(.*?)"' nameReg = re.compile(reg) nameList = re.findall(nameReg,html) withopen('worm/data.txt','w') as fnew: for name in studentName: fnew.write("%s " % name) for creatorName in nameList: if name == creatorName: fnew.write("合格\n") break else: fnew.write("\n")
return studentName
quId = "10087550"
url = "https://api.12355.net/pc/service/getReplysByQuestionId?quId=%s&page=1&rows=500" % quId
html = getHtml(url) getVideoUrl(html)
如此执行完之后,会输出这个txt文档
后面就是将相关的数据输入到excel表格即可。
总结
学了一年的前端,感觉之前的学习都没有白费,充分体会到知识积累的重要性。 爬虫并没有想象中的艰难 (其实很困难,之前尝试过抓取Pluralsight视频链接,结果失败了) 最近其实状态不是十分好,硬着头皮看 Pluralsight - Procedural Cities with Houdini and Python 教程 虽然霆宇也在研究,不过自己也想学,但是这套教程还是挺复杂的,目前看了40多集,思路还没有完全理清楚。 很快就要去华强方特那边实习了,所以师兄在催促我加快学习Qt的进度。 正好我也想给这个爬虫开发个GUI界面,简化爬虫的复杂程度。 自动城市的教程得先搁置了,Qt,我来也!!!