0

2016-06-23 23:27:21 +08:00 · 2016-06-23 23:27:21 +08:00 · ddea04e411
parent f1c5aaa3e8
commit ddea04e411
11 changed files with 353 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
 /no_use
--- a/CpuToInfluxdb.py
+++ b/CpuToInfluxdb.py
@ -0,0 +1,53 @@
 import psutil
 import os
 from influxdb import InfluxDBClient
 import time,math,random
 #获取当前运行的pid
 p1=psutil.Process(os.getpid()) 
 #打印本机的内存信息
 #print ('直接打印内存占用： '+(str)(psutil.virtual_memory))
 #打印内存的占用率
 from influxdb import InfluxDBClient
 import time,math,random
 while True:
    # for i in range(360):
    #     sin = round(random.random()*1000,2)
    #     print (sin)
    a = psutil.virtual_memory().percent
 #本机cpu的总占用率
    b = psutil.cpu_percent(interval=1.0)
    json_body = [
        {
            "measurement": "cpu_load_short",
            "tags": {
                "host": "server01",
                "region": "us-west"
            },
            #"time": "2009-11-10T23:00:00Z",
            "fields": {
                "cpu": b,
                "mem": a
            }
        }
    ]
    client = InfluxDBClient('localhost', 8086, 'root', 'root', 'xxyyxx')
    print('aaaaaa')
    #client.create_database('xxyyxx',if_not_exists=False)
    print('bbbbb')
    client.write_points(json_body)
    #result = client.query('select value from cpu_load_short;')
    #print("Result: {0}".format(result))
    time.sleep(2)
--- a/ModifyFilename.py
+++ b/ModifyFilename.py
@ -0,0 +1,10 @@
 import os
 dir = os.getcwd()
 subdir = os.listdir(dir)
 for i in subdir:
 	path = os.path.join(dir,i)
 	if os.path.isdir(path):
 	    end_dir = os.listdir(path)
 	    for i in range(len(end_dir)):
 	    	newname = end_dir[i][0:50]
 	    	os.rename(os.path.join(path,end_dir[i]),os.path.join(path,newname))
--- a/countFile.py
+++ b/countFile.py
@ -0,0 +1,16 @@
 import os
 result = []
 def get_all(cwd):
    get_dir = os.listdir(cwd)  #遍历当前目录，获取文件列表
    for i in get_dir:          
        sub_dir = os.path.join(cwd,i)  # 把第一步获取的文件加入路径
        if os.path.isdir(sub_dir):     #如果当前仍然是文件夹，递归调用
            get_all(sub_dir)
        else:
            ax = os.path.basename(sub_dir)  #如果当前路径不是文件夹，则把文件名放入列表
            result.append(ax)
            print(len(result))   #对列表计数
 if __name__ == "__main__": 
    cur_path = os.getcwd()   #当前目录
    get_all(cur_path)
--- a/countPm.py
+++ b/countPm.py
@ -0,0 +1,23 @@
 # -*- coding:utf-8 -*-
 def count_pm(*args):
    alist = list([round(i*2-8,2) for i in args])  #计算三种颗粒浓度
    result = []
    for pm in alist:
    	pm_abs = abs(pm)
    	result.append(generate_iso_code(pm_abs))
    print (result)
    return result
 def generate_iso_code(x):
 	pm_value = [0.01,0.02,0.04,0.08,0.16,0.32,0.64,1.3,2.5,5,10,20,40,80]  #颗粒浓度
 	iso = list(range(1,25))   #iso级别，共24级
 	for i in range(len(pm_value)):           #for循环得到某个浓度范围的iso4006级别
 		if pm_value[i] < x <= pm_value[i+1]:
 			iso_code = iso[i]
 			break
 	return iso_code
 if __name__ == '__main__':
    count_pm(7.95,5.85,3.98)		
    count_pm(7.918,5.949,5.456)	
    count_pm(6.916,3.956,3.956)		
--- a/douban_book.py
+++ b/douban_book.py
@ -0,0 +1,55 @@
 from bs4 import BeautifulSoup
 import requests
 from openpyxl import Workbook
 excel_name = "书籍.xlsx"
 wb = Workbook()
 ws1 = wb.active
 ws1.title='书籍'
 def get_html(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}
    html = requests.get(url, headers=header).content
    return html
 def get_con(html):
    soup = BeautifulSoup(html,'html.parser')
    book_list = soup.find('div', attrs={'class': 'article'})
    page = soup.find('div', attrs={'class': 'paginator'})
    next_page = page.find('span', attrs={'class': 'next'}).find('a')
    name = []
    for i in book_list.find_all('table'):
        book_name = i.find('div', attrs={'class': 'pl2'})
        m = list(book_name.find('a').stripped_strings)
        if len(m)>1:
            x = m[0]+m[1]
        else:
            x = m[0]
        #print(x)
        name.append(x)
    if next_page:
        return name, next_page.get('href')
    else:
        return name, None
 def main():
    url = 'https://book.douban.com/top250'
    name_list=[]
    while url:
        html = get_html(url)
        name, url = get_con(html)
        name_list = name_list + name
    for i in name_list:
        location = 'A%s'%(name_list.index(i)+1)
        print(i)
        print(location)
        ws1[location]=i
    wb.save(filename=excel_name)
 if __name__ == '__main__':
    main()
--- a/douban_movie.py
+++ b/douban_movie.py
@ -0,0 +1,79 @@
 #!/usr/bin/env python
 # encoding=utf-8
 import requests,re
 import codecs
 from bs4 import BeautifulSoup
 from openpyxl import Workbook
 wb = Workbook()
 dest_filename = '电影.xlsx'
 ws1 = wb.active  
 ws1.title = "电影top250"
 DOWNLOAD_URL = 'http://movie.douban.com/top250/'
 def download_page(url):
    """获取url地址页面内容"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }
    data = requests.get(url, headers=headers).content
    return data
 def get_li(doc):
    soup = BeautifulSoup(doc, 'html.parser')
    ol = soup.find('ol', class_='grid_view')
    name = [] #名字
    star_con = [] #评价人数
    score = []  #评分
    info_list = []  #短评
    for i in ol.find_all('li'):
        detail = i.find('div', attrs={'class': 'hd'})
        movie_name = detail.find('span', attrs={'class': 'title'}).get_text() #电影名字
        level_star = i.find('span',attrs={'class':'rating_num'}).get_text() #评分
        star = i.find('div',attrs={'class':'star'})
        star_num = star.find(text=re.compile('评价'))  #评价
        info = i.find('span',attrs={'class':'inq'})  #短评
        if info:     #判断是否有短评
            info_list.append(info.get_text())
        else:
            info_list.append('无')
        score.append(level_star)
        name.append(movie_name)
        star_con.append(star_num)
    page = soup.find('span', attrs={'class': 'next'}).find('a') #获取下一页
    if page:
        return name,star_con,score,info_list,DOWNLOAD_URL + page['href']
    return name,star_con,score,info_list,None
 def main():
    url = DOWNLOAD_URL
    name = []
    star_con=[]
    score = []
    info = []
    while url:
        doc = download_page(url)
        movie,star,level_num,info_list,url = get_li(doc)
        name = name + movie
        star_con = star_con + star
        score = score+level_num
        info = info+ info_list
    for (i,m,o,p) in zip(name,star_con,score,info):
        col_A = 'A%s'%(name.index(i)+1)
        col_B = 'B%s'%(name.index(i)+1)
        col_C = 'C%s'%(name.index(i)+1)
        col_D = 'D%s'%(name.index(i)+1)
        ws1[col_A]=i
        ws1[col_B] = m
        ws1[col_C] = o
        ws1[col_D] = p
    wb.save(filename=dest_filename)
 if __name__ == '__main__':
    main()
--- a/excelToDatabase.py
+++ b/excelToDatabase.py
@ -0,0 +1,32 @@
 from openpyxl import load_workbook
 import pymysql
 config = {
 	'host': '127.0.0.1',
 	'port':3306,
 	'user': 'root',
 	'password': 'root',
 	'charset': 'utf8mb4',
 	#'cursorclass': pymysql.cursors.DictCursor
 }
 conn = pymysql.connect(**config)
 conn.autocommit(1)
 cursor = conn.cursor()
 name = 'lyexcel'
 cursor.execute('create database if not exists %s' %name)
 conn.select_db(name)
 table_name = 'info'
 cursor.execute('create table if not exists %s(id MEDIUMINT NOT NULL AUTO_INCREMENT,name varchar(30),tel varchar(30),primary key (id))'%table_name)
 wb2 = load_workbook('hpu.xlsx')
 ws=wb2.get_sheet_names()
 for row in wb2:
 	print("1")
 	for cell in row:
 		value1=(cell[0].value,cell[4].value)
 		cursor.execute('insert into info (name,tel) values(%s,%s)',value1)
 print("overing...")
 # for row in A:
 # 	print(row)
 #print (wb2.get_sheet_names())
--- a/lagouSpider.py
+++ b/lagouSpider.py
@ -0,0 +1,37 @@
 import requests
 from openpyxl import Workbook
 def get_json(url, page, lang_name):
    data = {'first': 'true', 'pn': page, 'kd': lang_name}
    json = requests.post(url, data).json()
    list_con = json['content']['positionResult']['result']
    info_list = []
    for i in list_con:
        info = []
        info.append(i['companyShortName'])
        info.append(i['companyName'])
        info.append(i['salary'])
        info.append(i['city'])
        info.append(i['education'])
        info_list.append(info)
    return info_list
 def main():
    lang_name = input('职位名：')
    page = 1
    url = 'http://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    info_result = []
    while page < 31:
        info = get_json(url, page, lang_name)
        info_result = info_result + info
        page += 1
    wb = Workbook()
    ws1 = wb.active
    ws1.title = lang_name
    for row in info_result:
        ws1.append(row)
    wb.save('职位信息.xlsx')
 if __name__ == '__main__':
    main()
--- a/login_zhihu.py
+++ b/login_zhihu.py
@ -0,0 +1,30 @@
 import requests,time
 from bs4 import BeautifulSoup
 url = 'https://www.zhihu.com/login/email'
 def get_captcha(data):
    with open('captcha.gif','wb') as fb:
        fb.write(data)
    return input('captcha')
 def login(username,password,oncaptcha):
    sessiona = requests.Session()
    print(sessiona)
    print('aaaa')
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}
    xyz = sessiona.get('https://www.zhihu.com/#signin',headers=headers).content
    _xsrf = BeautifulSoup(sessiona.get('https://www.zhihu.com/#signin',headers=headers).content,'html.parser').find('input',attrs={'name':'_xsrf'}).get('value')
    captcha_content = sessiona.get('https://www.zhihu.com/captcha.gif?r=%d&type=login'%(time.time()*1000),headers=headers).content
    data = {
        "_xsrf":_xsrf,
        "email":username,
        "password":password,
        "remember_me":True,
        "captcha":oncaptcha(captcha_content)
    }
    print(data)
    resp = sessiona.post('https://www.zhihu.com/login/email',data,headers=headers).content
    print(resp)
    return resp 
 if __name__ == "__main__":
    login('email','password',get_captcha)
--- a/readExcel.py
+++ b/readExcel.py
@ -0,0 +1,17 @@
 from openpyxl import Workbook
 from openpyxl.compat import range
 from openpyxl.cell import get_column_letter
 wb = Workbook()
 dest_filename = 'empty_book2.xlsx'
 ws1 = wb.active              #第一个表
 ws1.title = "range names"    #第一个表命名
 #遍历第一个表的1到40行，赋值一个600内的随机数。
 for row in range(1,40):
    ws1.append(range(60))
 ws2 = wb.create_sheet(title="Pi")
 ws2['F5'] = 3.14
 ws3 = wb.create_sheet(title="Data")
 for row in range(10,20):
    for col in range(27,54):
        _=ws3.cell(column=col,row=row,value="%s" % get_column_letter(col))
 wb.save(filename=dest_filename)