JavaGle
diff --git a/‎matplp/jieba/image/jishu.png‎
-232 KB b/‎matplp/jieba/image/jishu.png‎
-232 KB
diff --git a/‎爬虫/Include/csdn/mobai.py‎
Lines changed: 12 additions & 0 deletions b/‎爬虫/Include/csdn/mobai.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎爬虫/Include/csdn/test.py‎
Lines changed: 6 additions & 3 deletions b/‎爬虫/Include/csdn/test.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎爬虫/Include/csdn/test3.py‎
Lines changed: 56 additions & 0 deletions b/‎爬虫/Include/csdn/test3.py‎
Lines changed: 56 additions & 0 deletions
diff --git a/‎爬虫/Include/csdn/yx.xls‎
155 KB b/‎爬虫/Include/csdn/yx.xls‎
155 KB
diff --git a/‎爬虫/Include/csdn/zhilia.py‎
Lines changed: 86 additions & 0 deletions b/‎爬虫/Include/csdn/zhilia.py‎
Lines changed: 86 additions & 0 deletions
diff --git a/‎爬虫/Include/selenium/baidu.png‎
-3.38 KB b/‎爬虫/Include/selenium/baidu.png‎
-3.38 KB
diff --git a/‎爬虫/Include/selenium/itcast.png‎
-357 KB b/‎爬虫/Include/selenium/itcast.png‎
-357 KB
diff --git a/‎爬虫/Include/selenium/seleniumtest.py‎
Lines changed: 25 additions & 24 deletions b/‎爬虫/Include/selenium/seleniumtest.py‎
Lines changed: 25 additions & 24 deletions
diff --git a/‎爬虫/Include/selenium/test.py‎
Lines changed: 43 additions & 0 deletions b/‎爬虫/Include/selenium/test.py‎
Lines changed: 43 additions & 0 deletions
@@ -0,0 +1,12 @@
+import  requests
+from bs4 import BeautifulSoup
+header = {
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
+     'Cookie':'acw_tc=2760824715607559510924771ef86ea31609a042abdeb32a42b51c684bb64f; x-zp-client-id=1b9430ab-2602-4ed8-b8a2-5bdb7d6a0e78; isShowSalary=t; select_city_code=489; select_city_name=%E5%85%A8%E5%9B%BD; sajssdk_2015_cross_new_user=1; Hm_lvt_08e585d395455886ebe17d4b393b6523=1560755962; isShowDownload=f; Hm_lpvt_08e585d395455886ebe17d4b393b6523=1560756695; sts_deviceid=16b6474cb3a3b9-09c17de8e4bef4-1a29140e-2073600-16b6474cb3b71a; jobRiskWarning=true; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216b644df12c433-0e9727c003282c-207a2549-341200-16b644df12d80f%22%2C%22%24device_id%22%3A%2216b644df12c433-0e9727c003282c-207a2549-341200-16b644df12d80f%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; ZPCITIESCLICKED=|635; LastCity=%E5%8D%97%E4%BA%AC; LastCity%5Fid=635; sts_sg=1; sts_sid=16b6474f17e8d6-068f25c51e25b7-1a29140e-2073600-16b6474f17fd1b; sts_chnlsid=Unknown; zp_src_url=https%3A%2F%2Fcompany.zhaopin.com%2FCZ219167780.htm; sou_experiment=unexperiment; ZP_OLD_FLAG=false; Hm_lvt_38ba284938d5eddca645bb5e02a02006=1560758528; Hm_lpvt_38ba284938d5eddca645bb5e02a02006=1560758528; ZL_REPORT_GLOBAL={%22company%22:{%22actionid%22:%22a40af7db-6f0c-47ba-a386-f05e858a61ca-company%22%2C%22funczone%22:%22hiring_jd%22}%2C%22//www%22:{%22seid%22:%22%22%2C%22actionid%22:%2228f00cc7-ac8d-49d4-92ed-c61c700bff80-cityPage%22}%2C%22sou%22:{%22actionid%22:%223fd31c57-25b6-4e69-9dd4-91708cd522c3-sou%22%2C%22funczone%22:%22smart_matching%22}}; sts_evtseq=9'
+}
+
+data={"pageIndex":7,"pageSize":20,"S_SOU_FULL_INDEX":"python","S_SOU_WORK_CITY":"538","at":"","rt":"","platform":7,"d":"b89414a2-9303-4681-8939-d78cf1722eed","channel":""}
+url='https://m.zhaopin.com/api/capi?capiUrl=position/search&x-zp-page-request-id=1faaa9a9e31b48408727df14500c75f9-1560756694516-139343&x-zp-client-id=1b9430ab-2602-4ed8-b8a2-5bdb7d6a0e78'
+req=requests.post(url,data=data,headers=header)
+res=req.json()
+print(res)
@@ -3,7 +3,10 @@
 from bs4 import BeautifulSoup 
 
 header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
-
+###
+def getpage(url):
+    pass
+    
 
 #获取访客，粉丝等基础信息
 def getbaseinfor(url):
@@ -12,11 +15,11 @@ def getbaseinfor(url):
     soup=BeautifulSoup(res,'lxml')
     node=soup.find(id="asideProfile")
     count=node.dd.span.text#总文章数
-    fan=node.select("#fanBox")[0].get('title')#粉丝数
+    fan=node.select("#fanBox")[0].get('title') #粉丝数
     love=soup.find(attrs={'class':'data-info d-flex item-tiling'}).find_all("dl")[2].get('title')#喜欢
     comment=soup.find(attrs={'class':'data-info d-flex item-tiling'}).find_all("dl")[3].get('title')#评论数量
 
-    node=node.find(attrs={'class':'grade-box clearfix'}).find_all('dl')
+    node=node.find(attrs={'class': 'grade-box clearfix'}).find_all('dl')
     visit=node[1].dd.get('title')
     jifen=node[2].dd.get('title')
     rank=node[3].get('title')
 
@@ -0,0 +1,56 @@
+import urllib.request,urllib.parse
+import json,re
+
+url = "https://fe-api.zhaopin.com/c/i/sou?"
+kw_work = input("请输入您想查找的工作的关键字：")
+city = input("请输入您想选择的城市：")
+start_page = int(input("请输入开始爬取的页："))
+end_page = int(input("请输入结束爬取的页："))
+for page in range(start_page,end_page+1):
+    data = {
+        'start': page,
+        'pageSize': '60',
+        'cityId': city,
+        'salary': '0,0',
+        'workExperience': '-1',
+        'education': '-1',
+        'companyType': '-1',
+        'jobWelfareTag': '-1',
+        'kw': kw_work,  # 输入搜索的关键字
+        'kt': '3',
+        '': '0',
+        '_v': '0.08095475',
+        'x-zp-page-request-id': 'a5a5b670d31c43b79fad5a8d98622136-1556194064568-484956'
+    }
+    url_now = url + urllib.parse.urlencode(data)  # 得到信息真实地址
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
+    }
+    request = urllib.request.Request(url=url_now, headers=headers)
+    response = urllib.request.urlopen(request)  # 发送请求，获取响应
+    real_data = json.loads(response.read().decode())  # 此时real_data的类型为dict型
+    print(real_data)
+    # for data in real_data['data']['results']:
+    #     data_list = []
+    #     job_name = data['jobName']  # 工作名称
+    #     data_list.append(job_name)
+    #     job_salary = data['salary']  # 工作薪水
+    #     data_list.append(job_salary)
+    #     job_welfare = json.loads(data['positionLabel'])['jobLight']  # 此处与上面不同，必须先将其转化成字典之后再取值
+    #     data_list.append(job_welfare)
+    #     job_experence = data['workingExp']['name']  # 工作经验
+    #     data_list.append(job_experence)
+    #     job_eduLevel = data['eduLevel']['name']  # 学业水平
+    #     data_list.append(job_eduLevel)
+    #     job_company = data['company']['name']  # 公司名
+    #     data_list.append(job_company)
+    #     job_companytype = data['company']['type']['name']  # 公司性质
+    #     data_list.append(job_companytype)
+    #     job_url = data['positionURL']  # 详细的网站
+    #     data_list.append(job_url)
+    #     # 创建一个txt文件，将数据写入，或者也可以创建一个Excel表格将其写入，这里就不再举例
+    #     with open('data.txt', 'a')as f:
+    #         f.write(str(data_list))
+    #         f.write("\n")
+    #     f.close()
+print("爬取成功！")
@@ -0,0 +1,86 @@
+import urllib.request
+import json
+# 提取json格式信息的库
+import jsonpath
+# 存取进xls文件的库
+import xlwt
+
+n = 0
+myxls = xlwt.Workbook()
+sheet1 = myxls.add_sheet(u'yx', cell_overwrite_ok=True)
+# write(i,j,value)存取文档的首行
+sheet1.write(0, 1, "公司名")
+sheet1.write(0, 2, "地区")
+sheet1.write(0, 3, "公司人数")
+sheet1.write(0, 4, "类型")
+sheet1.write(0, 5, "公司网站")
+sheet1.write(0, 6, "岗位需求")
+sheet1.write(0, 7, "要求毕业性质")
+sheet1.write(0, 8, "薪资")
+sheet1.write(0, 9, "工作性质")
+sheet1.write(0, 10, "福利")
+
+for i in range(1, 10):
+    url3 = "https://fe-api.zhaopin.com/c/i/sou?start=" + str(
+        i * 90) + "&pageSize=90&cityId=530&industry=160400&workExperience=-1&education=4&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=java&kt=3&_v=0.20600649&x-zp-page-request-id=a0a5c8da8e5e455ca30312a4d85fa52d-1548559285341-380683"
+    req = urllib.request.Request(url3)
+    req.add_header("User-Agent",
+                   "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE")
+    data = urllib.request.urlopen(req).read()
+    data = json.loads(data)
+    jobName = jsonpath.jsonpath(data, '$..jobName')
+    searchTag = jsonpath.jsonpath(data, "$..searchTag")
+
+    company = jsonpath.jsonpath(data, "$..company")
+    companyName = jsonpath.jsonpath(data, "$..company.name")
+    companyPeopleNum = jsonpath.jsonpath(data, "$..company.size.name")
+    companyType = jsonpath.jsonpath(data, "$..company.type.name")
+    companyUrl = jsonpath.jsonpath(data, "$..company.url")
+
+    city = jsonpath.jsonpath(data, "$..city")
+    cityName = jsonpath.jsonpath(data, "$..city.display")
+
+    workingExp = jsonpath.jsonpath(data, "$..workingExp")
+    workingExpName = jsonpath.jsonpath(data, "$..workingExp.name")
+
+    jobType = jsonpath.jsonpath(data, "$..jobType")
+    jobTypeName = jsonpath.jsonpath(data, "$..jobType.display")
+
+    eduLevel = jsonpath.jsonpath(data, "$..eduLevel")
+    eduLevelName = jsonpath.jsonpath(data, "$..eduLevel.name")
+
+    welfare = jsonpath.jsonpath(data, "$..welfare")
+    salary = jsonpath.jsonpath(data, "$..salary")
+    emplType = jsonpath.jsonpath(data, "$..emplType")
+    jobTag = jsonpath.jsonpath(data, "$..jobTag.searchTag")
+
+    for i in range(0, 89):
+        print("公司编号：" + str(n))
+        print(companyName[i])
+        print(cityName[i])
+        print(companyPeopleNum[i])
+        print(companyType[i])
+        print(companyUrl[i])
+        print(workingExpName[i])
+#        print(jobTypeName[i])
+        print(eduLevelName[i])
+        # print(welfare[i])
+        print(salary[i])
+        print(emplType[i])
+#        print(jobTag[i])
+        print()
+        n = n + 1
+        sheet1.write(n, 0, n)
+        sheet1.write(n, 1, companyName[i])
+        sheet1.write(n, 2, cityName[i])
+        sheet1.write(n, 3, companyPeopleNum[i])
+        sheet1.write(n, 4, companyType[i])
+        sheet1.write(n, 5, companyUrl[i])
+#        sheet1.write(n, 6, jobTypeName[i])
+        sheet1.write(n, 7, eduLevelName[i])
+        # sheet1.write(n,8,welfare[i])
+        sheet1.write(n, 8, salary[i])
+        sheet1.write(n, 9, emplType[i])
+#        sheet1.write(n, 10, jobTag[i])
+
+myxls.save('yx.xls')
@@ -21,42 +21,43 @@
 
 # 生成当前页面快照并保存
 driver.save_screenshot("baidu.png")
-
+time.sleep(3)
 # id="kw"是百度搜索输入框，输入字符串"长城"
-driver.find_element_by_id("kw").send_keys(u"印正荣")
 
-# id="su"是百度搜索按钮，click() 是模拟点击
+driver.find_element_by_id("kw").send_keys("印正荣")
+
+# # id="su"是百度搜索按钮，click() 是模拟点击
 driver.find_element_by_id("su").click()
 time.sleep(2)
-# 获取新的页面快照
-driver.save_screenshot("我儿.png")
+# # 获取新的页面快照
+# driver.save_screenshot("我儿.png")
 
-# 打印网页渲染后的源代码
-#print (driver.page_source)
+# # 打印网页渲染后的源代码
+# #print (driver.page_source)
 
-# 获取当前页面Cookie
-print (driver.get_cookies())
+# # 获取当前页面Cookie
+# print (driver.get_cookies())
 
-# ctrl+a 全选输入框内容
-driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
+# # ctrl+a 全选输入框内容
+# driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
 
-# ctrl+x 剪切输入框内容
-driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
+# # ctrl+x 剪切输入框内容
+# driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
 
-# 输入框重新输入内容
-driver.find_element_by_id("kw").send_keys("赛哥哥")
-time.sleep(2)
-# 模拟Enter回车键
-driver.find_element_by_id("su").send_keys(Keys.RETURN)
+# # 输入框重新输入内容
+# driver.find_element_by_id("kw").send_keys("赛哥哥")
+# time.sleep(2)
+# # 模拟Enter回车键
+# driver.find_element_by_id("su").send_keys(Keys.RETURN)
 
-# 清除输入框内容
-driver.find_element_by_id("kw").clear()
+# # 清除输入框内容
+# driver.find_element_by_id("kw").clear()
 
-# 生成新的页面快照
-driver.save_screenshot("itcast.png")
+# # 生成新的页面快照
+# driver.save_screenshot("itcast.png")
 
-# 获取当前url
-print (driver.current_url)
+# # 获取当前url
+# print (driver.current_url)
 
 # 关闭当前页面，如果只有一个页面，会关闭浏览器
 # driver.close()
 
@@ -0,0 +1,43 @@
+from selenium import webdriver
+driver = webdriver.Chrome()
+driver.get("https://www.baidu.com/")
+print(driver.title)
+
+
+import time
+import requests
+ 
+from selenium import webdriver
+from bs4 import BeautifulSoup
+ 
+user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
+headers = {'User-Agent': user_agent}
+#事先在百度输入框中搜索要下载的图片，取出链接地址。这里搜索的是"证件照"
+httpUrl = "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1526001481384_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&hs=2&word=%E7%99%BB%E8%AE%B0%E7%85%A7"
+ 
+ 
+def main():
+    driver = webdriver.Chrome()
+    driver.get(httpUrl)
+ 
+    soup = BeautifulSoup(driver.page_source, "html.parser")
+    imglist = soup.find_all("img", {'class': 'main_img img-hover'})  # 内容
+    x = 0
+    for img in imglist:
+        print(img['data-imgurl'])
+        saveImg(img['data-imgurl'], x)
+        x += 1
+    driver.close()
+ 
+ 
+def saveImg(pic_link, x):
+    path = "img/"  # 存储路径
+    pp = requests.get(pic_link, headers=headers)
+    pth = path + str(x) + ".png"  # 设置图片名
+    with open(pth, "wb") as f:
+        for chunk in pp:  # 读取每个图片链接的二进制数据
+            f.write(chunk)  # 写入
+    print("第%s张下载好" % x)
+ 
+if __name__ == '__main__':
+    main()