Snailclimb
diff --git a/‎PythonDemo/.spyproject/workspace.ini‎
Lines changed: 1 addition & 1 deletion b/‎PythonDemo/.spyproject/workspace.ini‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎PythonDemo/saveToExcel/xlwtDemo.py‎
Lines changed: 47 additions & 0 deletions b/‎PythonDemo/saveToExcel/xlwtDemo.py‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎PythonDemo/saveToExcel/xwltDemo2.py‎
Lines changed: 7 additions & 0 deletions b/‎PythonDemo/saveToExcel/xwltDemo2.py‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎PythonDemo/spider/bs4JokeToExcel.py‎
Lines changed: 83 additions & 0 deletions b/‎PythonDemo/spider/bs4JokeToExcel.py‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎PythonDemo/spider/bs4Meizitu.py‎
Lines changed: 69 additions & 0 deletions b/‎PythonDemo/spider/bs4Meizitu.py‎
Lines changed: 69 additions & 0 deletions
diff --git a/‎PythonDemo/spider/bs4WangYiYun.py‎
Lines changed: 44 additions & 0 deletions b/‎PythonDemo/spider/bs4WangYiYun.py‎
Lines changed: 44 additions & 0 deletions
diff --git a/‎PythonDemo/spider/bs4WangYiYunToExcel.py‎
Lines changed: 76 additions & 0 deletions b/‎PythonDemo/spider/bs4WangYiYunToExcel.py‎
Lines changed: 76 additions & 0 deletions
@@ -6,5 +6,5 @@ save_non_project_files = False
 
 [main]
 version = 0.1.0
-recent_files = ['C:\\Users\\Administrator\\.spyder-py3\\temp.py', 'C:\\Users\\Administrator\\Desktop\\PythonDemo\\test.py', 'C:\\Users\\Administrator\\Desktop\\PythonDemo\\test2.py', 'D:\\Anaconda3\\lib\\site-packages\\ncmbot\\core.py', 'D:\\Anaconda3\\lib\\site-packages\\psutil\\__init__.py']
+recent_files = ['E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\bs4JokeToExcel.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\bs4WangYiYunToExcel.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\saveToExcel\\xlwtDemo.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\saveToExcel\\xwltDemo2.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\bs4WangYiYunToExcel2.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\bs4quickstart.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\bs4Meizitu.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\urllib.requestDemo1.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\weixin.py', 'E:\\GitHubWorkplace\\Python\\PythonDemo\\spider\\weixinItchat.py']
 
@@ -0,0 +1,47 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Mar 13 14:40:09 2018
+
+@author: Administrator
+"""
+ 
+import xlwt           
+  
+  
+def set_style(name, height, bold = False):  
+    style = xlwt.XFStyle()   #初始化样式  
+      
+    font = xlwt.Font()       #为样式创建字体  
+    font.name = name  
+    font.bold = bold  
+    font.color_index = 4  
+    font.height = height  
+      
+    style.font = font  
+    return style  
+  
+      
+def write_excel():  
+    #创建工作簿  
+    workbook = xlwt.Workbook(encoding='utf-8')    
+    #创建sheet  
+    data_sheet = workbook.add_sheet('demo')    
+    row0 = [u'歌单介绍', u'歌曲链接地址', '歌曲播放次数', '收藏次数','评论次数']  
+    row1 = [u'测试', '15:50:33-15:52:14', '22706', 4190202,'sss']  
+    data_sheet.col(0).width = 9999#设置单元格宽度
+    data_sheet.col(1).width = 9999#设置单元格宽度
+    data_sheet.col(2).width = 4444#设置单元格宽度
+    data_sheet.col(3).width = 3333#设置单元格宽度
+    data_sheet.col(4).width = 3333#设置单元格宽度
+    #生成第一行和第二行  
+    for i in range(len(row0)):  
+        data_sheet.write(0, i, row0[i], set_style('Times New Roman', 220, True))  
+        data_sheet.write(1, i, row1[i], set_style('Times New Roman', 220, True))  
+      
+    #保存文件  
+    workbook.save('C:/Users/Administrator/Desktop/xlwtDemo.xls')     
+      
+      
+if __name__ == '__main__':   
+    write_excel()  
+    print (u'创建demo.xlsx文件成功' ) 
@@ -0,0 +1,7 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Mar 13 15:39:00 2018
+
+@author: Administrator
+"""
+
@@ -0,0 +1,83 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Mar 13 12:58:54 2018
+http://blog.csdn.net/weixin_39198406/article/details/73332565
+@author: Administrator
+"""
+
+#抓取糗事百科笑话的脚本  
+import urllib.request  
+from bs4 import BeautifulSoup  
+import xlwt   #写入文件  
+import time  
+  
+#返回文本式的html  
+def getHTML(url):  
+    #给头文件伪装成浏览器访问  
+    headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}  
+    req = urllib.request.Request(url, headers=headers)  
+    return urllib.request.urlopen(req).read()  
+  
+#返回一个bs4_url对象  
+def creatSoup(url):  
+    html_text = getHTML(url)  
+    soup_0 = BeautifulSoup(html_text,'html5lib')  
+    return soup_0  
+  
+#新建Excel文件和其中的一个sheet，注意传的参数是字符串格式，新建完在空间中打开，直接使用write写入数据  
+def creatExcelAndSheet(sheetName):  
+    #新建一个excel文件  
+    file = xlwt.Workbook(encoding = 'utf-8', style_compression = 0)  
+    #新建一个sheet  
+    sheet = file.add_sheet(sheetName)  
+    #返回打开的sheet对象  
+    return sheet,file  
+  
+#执行写入Excel的程序。参数含义 a-选择写入行，b-选择写入列，c-选择写入的内容（字符串类型）  
+def writeToSheet(a,b,c):  
+    sheet.write(a,b,c)  
+  
+#抓取结束的提示信息,分别是页循环次数和内容循环次数，由于结束之前页和内容循环数还会+1.所以summary要-1  
+def summaryAllContent(a,b,url):  
+    print('提示：抓取结束，无更多内容！')  
+    print('------------------Summary------------------')  
+    print('您抓取的网址为%s'%url)  
+    print('共抓取 %d页 共 %d个内容'%(a-1,b-1))  
+    print('-------------------------------------------')  
+  
+#得到每一条内容的处理函数，根据不同的html需要修改  
+def getEachContent(eachContent):  
+    a = eachContent.select('div')[0]  
+    b = a.select('span')[0]  
+    sss = ''  
+    for s in b.strings:  
+        sss+=s  
+    return sss  
+  
+sheet,file = creatExcelAndSheet('data')  
+  
+i = 1  
+k = 1  
+while i <2:   
+      
+    # url = 'https://www.qiushibaike.com/8hr/page/1/?s=4991834' 根据url多页的特性，找到翻页的一个参数  
+    url = 'https://www.qiushibaike.com/8hr/page/' + str(i) + '/?s=4991834'  
+    soup = creatSoup(url)  
+    a_soup = soup.select('a[class=contentHerf]')  #根据关键字取得按list存放的内容  
+    contentLen = len(a_soup) #取得列表长度  
+    print('Info: 第%d页有%d个笑话'%(i,contentLen))  
+  
+    for eachContent in a_soup:  
+        sss = getEachContent(eachContent)  
+        writeToSheet(k,0,k)  
+        writeToSheet(k,1,sss)  
+        print('正在获取第%d个内容...Done'%k)  
+        time.sleep(0.05)  
+        k+=1  
+  
+    print('提示: 正在获取下一页内容...')  
+    i += 1  
+    time.sleep(3)  
+  
+summaryAllContent(i,k,url)  
+file.save('C:/Users/Administrator/Desktop/糗事百科Data.xls')  #这里写要保存的路径
@@ -0,0 +1,69 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Mon Mar 12 22:20:22 2018
+
+@author: Administrator
+@description： BeautifulSoup抓取美女图片
+"""
+
+import requests
+from bs4 import BeautifulSoup
+import os,re
+#导入所需要的模块
+class mzitu():
+    def all_url(self, url):
+        html = self.request(url)##
+        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a', href=re.compile('[0~9]'))
+        for a in all_a:
+            title = a.get_text()
+            print('------开始保存：', title) 
+            path = str(title).replace("?", '_') ##替换掉带有的？
+            self.mkdir(path) ##调用mkdir函数创建文件夹！这儿path代表的是标题title
+            href = a['href']
+            self.html(href) 
+
+    def html(self, href):   ##获得图片的页面地址并保存图片
+        html = self.request(href)
+        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='pagenavi').find_all('span')[-2].get_text()
+        #这个上面有提到
+        for page in range(1, int(max_span) + 1):
+            page_url = href + '/' + str(page)
+            self.img(page_url) ##调用img函数
+
+    def img(self, page_url): ##处理图片页面地址获得图片的实际地址
+        img_html = self.request(page_url)
+        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']
+        self.save(img_url)
+
+    def save(self, img_url): ##保存图片
+        name = img_url[-9:-4]
+        img = self.request(img_url)
+        f = open(name + '.jpg', 'ab')
+        f.write(img.content)
+        f.close()
+
+    def mkdir(self, path): ##创建文件夹
+        path = path.strip()
+        isExists = os.path.exists(os.path.join("E:\mzitu2", path))
+        if not isExists:
+            print('建了一个名字叫做', path, '的文件夹！')
+            os.makedirs(os.path.join("E:\mzitu2", path))
+            os.chdir(os.path.join("E:\mzitu2", path)) ##切换到目录
+            return True
+        else:
+            print( path, '文件夹已经存在了！')
+            return False
+
+    def request(self, url): ##这个函数获取网页的response 然后返回
+        headers = {
+            'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36',
+            'referer': "http://www.mzitu.com/100260/2" #伪造一个访问来源    
+                     }
+        content = requests.get(url, headers=headers)
+        return content
+#设置启动函数
+def main():
+    Mzitu = mzitu() ##实例化
+    Mzitu.all_url('http://www.mzitu.com/all') ##给函数all_url传入参数  
+
+main()
@@ -0,0 +1,44 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Mar 13 12:53:20 2018
+
+@author: Administrator
+"""
+
+# 爬取网易云音乐的爬虫
+# -*- coding: utf-8 -*-
+from bs4 import BeautifulSoup
+import urllib.request
+import urllib
+
+#获取网页
+def gethtml(url, headers={}):
+    req = urllib.request.Request(url, headers=headers)
+    response = urllib.request.urlopen(req)
+    content = response.read().decode('utf-8')
+    response.close()
+    return content
+
+#解析音乐列表网页
+def parsehtmlMusicList(html):
+    soup = BeautifulSoup(html, 'lxml')
+    list_pic = soup.select('ul#m-pl-container li div img')
+    list_nameUrl = soup.select('ul#m-pl-container li div a.msk')
+    list_num = soup.select('div.bottom span.nb')
+    list_author = soup.select('ul#m-pl-container li p a')
+    n = 0
+    length = len(list_pic)
+    while n < length:
+        print('歌单图片：'+list_pic[n]['src']+'\n\n')
+        print('歌单名称：'+list_nameUrl[n]['title']+'\n\n歌单地址：'+list_nameUrl[n]['href']+'\n\n')
+        print('歌单播放量：'+list_num[n].text+'\n\n')
+        print('歌单作者：'+list_author[n]['title']+'\n\n作者主页：'+list_author[n]['href']+'\n\n\n')
+        n += 1
+
+
+url = 'http://music.163.com/discover/playlist'
+url = gethtml(url, headers={
+    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
+    'Host': 'music.163.com'
+})
+parsehtmlMusicList(url) 
@@ -0,0 +1,76 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Tue Mar 13 15:11:32 2018
+
+@author: Administrator
+"""
+
+from bs4 import BeautifulSoup
+import urllib.request
+import urllib
+import xlwt 
+
+#获取网页
+def gethtml(url, headers={}):
+    req = urllib.request.Request(url, headers=headers)
+    response = urllib.request.urlopen(req)
+    content = response.read().decode('utf-8')
+    response.close()
+    return content
+def set_style(name, height, bold = False):  
+    style = xlwt.XFStyle()   #初始化样式  
+      
+    font = xlwt.Font()       #为样式创建字体  
+    font.name = name  
+    font.bold = bold  
+    font.color_index = 4  
+    font.height = height  
+      
+    style.font = font  
+    return style  
+
+#解析音乐列表网页
+def parsehtmlMusicList(html):
+    soup = BeautifulSoup(html, 'lxml')
+    list_pic = soup.select('ul#m-pl-container li div img')
+    list_nameUrl = soup.select('ul#m-pl-container li div a.msk')
+    list_num = soup.select('div.bottom span.nb')
+    list_author = soup.select('ul#m-pl-container li p a')
+    n = 0
+    length = len(list_pic)
+    #创建工作簿  
+    workbook = xlwt.Workbook(encoding='utf-8')    
+    #创建sheet  
+    data_sheet = workbook.add_sheet('demo')    
+    row0 = [u'歌单介绍', u'歌曲链接地址', u'歌曲播放次数', u'歌单作者']   
+    data_sheet.col(0).width = 9999#设置单元格宽度
+    data_sheet.col(1).width = 9999#设置单元格宽度
+    data_sheet.col(2).width = 4444#设置单元格宽度
+    data_sheet.col(3).width = 3333#设置单元格宽度
+    data_sheet.col(4).width = 3333#设置单元格宽度
+    #生成第一行和第二行  
+    for i in range(len(row0)):  
+        data_sheet.write(0, i, row0[i], set_style('Times New Roman', 220, True))
+    while n < length:
+        description=list_nameUrl[n]['title']#歌单介绍
+        songhref= list_nameUrl[n]['href']
+        num=list_num[n].text#歌曲播放量
+        #picture=list_pic[n]['src']#图片链接地址
+        author=list_author[n]['title']#歌单作者
+        row=[description, songhref, num, author]
+        #print('歌单图片：'+list_pic[n]['src']+'\n\n')
+        #print('歌单名称：'+list_nameUrl[n]['title']+'\n\n歌单地址：'+list_nameUrl[n]['href']+'\n\n')
+        #print('歌单播放量：'+list_num[n].text+'\n\n')
+        #print('歌单作者：'+list_author[n]['title']+'\n\n作者主页：'+list_author[n]['href']+'\n\n\n')
+        n += 1
+        for i in range(len(row)):
+            data_sheet.write(n, i, row[i], set_style('Times New Roman', 220, True))
+    workbook.save('C:/Users/Administrator/Desktop/xlwtDemo.xls')
+url = 'http://music.163.com/discover/playlist'
+url = gethtml(url, headers={
+    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
+    'Host': 'music.163.com'
+})
+parsehtmlMusicList(url)
+
+