process data

# version 1.0
def connect_mysql(sql, oper_type="select", data_l=None):

    conn = pymysql.connect(host='localhost', user="root", password="",

                           database="work", port=3306)

    cur = conn.cursor()

    if oper_type == "insert":

        cur.executemany(sql, data_l)

        conn.commit()

    else:

        cur.execute(sql)

    result = cur.fetchall()

    # print(type(result), "result")

    conn.close()

    return result

def process_jobs(field_name):

    sql = "select j." + field_name + " FROM personal_jobs j"

    column_name = connect_mysql(sql, oper_type="select")

    row_total = (len(column_name))

    row_category = set(column_name)

    # init category dict

    category_dict = {}

    for k in row_category:

        category_dict[k] = 0

    # calculate amount

    cal_nmu = 0

    for k in row_category:

        for r in column_name:

            if r == k:

                cal_nmu += 1

        category_dict[k] = cal_nmu

        cal_nmu = 0

    print(type(category_dict.items()), category_dict.items())

    print(row_total, len(category_dict.items()))

    return row_total, category_dict

process_jobs("job_salary")

version 1.1
def count_times(all_list):

    ls = []

    item_list = list(set(all_list))

    for m in item_list:

        c = all_list.count(m)

        ls.append([m, c])

    return sorted(ls)

def process_salary(field_name):

    # sql = "select " + field_name + " from work.personal_jobs where job_exp = '1-3年';"

    sql = "select " + field_name + " from work.personal_jobs where job_exp = '1年以内' or job_exp = '经验不限';"

    original_sal = connect_mysql(sql)

    # sort salary order

    row_category = list(set(original_sal))

    general_min, general_avg, general_max = [], [], []

    # cal_num = 0

    for sal in row_category:

        # calculate category amount

        # for cat in column_name:

        #     if cat == sal:

        #         cal_num += 1

        # process salary

        if field_name == "job_salary":

            sal_tmp = str(sal).strip("('").strip("K',)").split("K-")

            general_min.append(int(sal_tmp[0]))

            general_max.append(int(sal_tmp[1]))

        # process experience

        if field_name == "job_exp":

            print(original_sal)

        # initial again

        # cal_num = 0

    # calculate min sal

    min_sal = count_times(general_min)

    for m1 in min_sal:

        min_s = str(m1[0]) + "K"

        m1[0] = min_s

    # calculate max sal

    max_sal = count_times(general_max)

    for m2 in max_sal:

        min_s = str(m2[0]) + "K"

        m2[0] = min_s

    # calculate avg sal

    avg_sal = count_times(original_sal)

    print("original: ", avg_sal)

    for a1 in avg_sal:

        sal_tmp_1 = str(a1[0]).strip("('").strip("K',)").split("K-")

        a1[0] = (int(sal_tmp_1[0]) + int(sal_tmp_1[1])) / 2.0

    avg_sal = sorted(avg_sal)

    for a2 in avg_sal:

        a2[0] = str(a2[0]) + "K"

    # debug

    print(len(min_sal), min_sal)

    print(len(avg_sal), avg_sal)

    print(len(max_sal), max_sal)

    return min_sal, avg_sal, max_sal

# process_salary("job_salary")

import jieba

from wordcloud import WordCloud

import matplotlib.pyplot as plt

from collections import Counter

from scipy.misc import imread

def process_reqirement(field_name):

    sql = "select " + field_name + " from work.personal_jobs where job_exp = '1年以内' or job_exp = '经验不限';"

    original_req = connect_mysql(sql)

    userdict = ["C", "C#", "C++", "Go", "Linux", "MongoDB", "Mysql", "PostgreSQL", "Ajax", "Bootstrap", "CSS", "Django", "Docker", "Flask", "Git", "http", "tcp", "Java", "JavaScript", "Jquery", "Oracle", "Python", "Redis", "Ruby", "Scrapy", "shell", "Tornado", "Web", "Zabbix", "RESTful", "云计算", "分布式", "前端", "后端", "大数据", "高并发", "数据分析", "数据挖掘", "机器学习", "爬虫", "算法", "自动化", "运维", "集群"]

    jieba.load_userdict(userdict)

    # print(type(original_req), str(original_req))

    text0 = Counter(jieba.cut(str(original_req)))

    text1 = " ".join(jieba.cut(str(original_req)))

    [item for item in sorted(text0.values())]

    # print(text0.keys(), text0.values())

    # print(type(text0), text0)

    # # create word cloud

    # wordcloud = WordCloud(font_path=r"D:\wwj\work\script\web\personal\database_operation\MSYH.TTC",

    #                       background_color="white", mask=imread("china.jpg")).generate(text1)

    # plt.imshow(wordcloud)

    # plt.axis("off")

    # plt.show()

    # find requirement item what we really need

    req_list = []

    # print(len(text0.keys()), text0)

    for k, v in text0.items():

        for kk, vv in text0.items():

            if str(k).lower() == str(kk).lower():

                # print(k, v)

                req_list.append([k, (v + vv)])

                # print(k, v)

                break

    print(len(req_list), req_list)

    for t in userdict:

        for k, v in text0.items():

            if t.lower() == str(k).lower():

                req_list.append([t, v])

                break

    # print(req_list)

    return req_list

process_reqirement("job_requirement")

def user_defined(file_name):

    user_list = []

    with open(file_name, "r", encoding="utf8") as f:

        for i in f:

            user_list.append(i.strip())

    return user_list

def process_company(field_name):

    sql = "select " + field_name + " from work.personal_jobs"

    company = [list(i) for i in connect_mysql(sql)]

    user_list = user_defined("t.txt")

    user_list = ['C','C#','C++','Go','Linux','MongoDB','Mysql','PostgreSQL','Ajax','Bootstrap','CSS','Django','Docker','Flask','Git','http','tcp','Java','JavaScript','Jquery','Oracle','Python','Redis','Ruby','Scrapy','shell','Tornado','Web','RESTful','云计算','分布式','前端','后端','大数据','高并发','数据分析','数据挖掘','机器学习','爬虫','算法','自动化','测试','运维','集群']

    jieba.load_userdict(user_list)

    me_list = ['python', 'django', 'linux', '运维', '自动化', '爬虫', '数据分析', 'shell', 'mysql', 'oracle']

    req_list, suit_list = [], []

    for req in company:

        req_dict = Counter(jieba.cut(req[1]))

        req_list.append([req[0], [k for k in req_dict.keys() if k in user_list]])

    for r in req_list:

        if len(r[1]) > 0:

            # print(r[1])

            own = [item for item in me_list if item in r[1]]

            if len(own) > 0:

                suit_list.append([r[0], int(len(own) * 100/len(r[1]))])

    return sorted(suit_list, key=lambda x: x[1])

    # print(sorted(suit_list, key=lambda x: x[1]))

process_company("company_name, job_requirement")

process data的更多相关文章

1.3 Quick Start中 Step 8: Use Kafka Streams to process data官网剖析（博主推荐）
不多说,直接上干货! 一切来源于官网 http://kafka.apache.org/documentation/ Step 8: Use Kafka Streams to process data ...
[CDH] Process data: integrate Spark with Spring Boot
c 一.Spark 统计计算简单统计后写入Redis. /** * 订单统计和乘车人数统计 */ object OrderStreamingProcessor { def main(args: Ar ...
Flink应用案例：How Trackunit leverages Flink to process real-time data from industrial IoT devices
January 22, 2019Use Cases, Apache Flink Lasse Nedergaard Recently there has been significant dis ...
[AJAX系列]$.post(url,[data],[fn],[type])
概述: 通过远程HTTP POST请求载入信息参数: url:发送请求地址 data:待发送Key/value值 callback:发送成功时回调函数 type:返回内容格式 xml html ...
Data Science at the Command Line学习笔记（二）
1.vagrant建立简单httpserver方法: 1)映射端口修改Vagrantfile, 末尾添加本地端口和虚机端口的映射关系, 然后执行vagrant reload. Vagrant::Co ...
[Chapter 3 Process]Practice 3.3 Discuss three major complications that concurrent processing adds to an operating system.
3.3 Original version of Apple's mobile iOS operating system provied no means of concurrent processi ...
Learn know more about big data
As we all know,we are in a big data age now."Every sword has two slides",as a ITer,we shou ...
Monitoring and Tuning the Linux Networking Stack: Receiving Data
http://blog.packagecloud.io/eng/2016/06/22/monitoring-tuning-linux-networking-stack-receiving-data/ ...
Big Data Analytics for Security（Big Data Analytics for Security Intelligence）
http://www.infoq.com/articles/bigdata-analytics-for-security This article first appeared in the IEEE ...

随机推荐

Table View Programming Guide for iOS---(一)---About Table Views in iOS Apps
About Table Views in iOS Apps Table views are versatile user interface objects frequently found in i ...
H.264（MPEG-4 AVC）级别（Level）、DPB 与 MaxDpbMbs 详解（转载）
转自:http://www.cnblogs.com/zyl910/archive/2011/12/08/h264_level.html 对于H.264(MPEG-4 AVC)而言,级别(Level)是 ...
shell初级-----数据呈现方式
输入与输出 Linux系统将每个对象当作文件处理,这包括输入和输出进程.Linux用文件描述符来标识每个文件对象.文件描述符是一个非负整数,可以唯一标识会话中打开的文件.每个进程一次多可以有九个文件描 ...
洛谷 - P1426 - 小鱼会有危险吗 - 模拟
https://www.luogu.org/problemnew/show/P1426 题目说的是小鱼进入探测器一秒后就会有危险,所以不应该让小鱼先游,而是先检测探测器. #include<bi ...
Codeforces Round #355 (Div. 2)C - Vanya and Label
啊啊啊啊啊啊啊,真的是智障了... 这种题目,没有必要纠结来源.只要知道它的结果的导致直接原因?反正这句话就我听的懂吧... ">>"/"&" ...
bzoj 2927: [Poi1999]多边形之战【博弈论】
先手必胜状态是黑三角在边上然后其他情况脑补一下,n为偶数先手必胜,可以理解为从某一边取,先手总有办法让后手取得一边有奇数个 #include<iostream> #include< ...
hdu 1573 X问题【扩展中国剩余定理】
扩展中国剩余定理的板子,合并完之后算一下范围内能取几个值即可(记得去掉0) #include<iostream> #include<cstdio> #include<cm ...
shiro之自定义realm
Shiro认证过程创建SecurityManager--->主体提交认证--->SecurityManager认证--->Authenticsto认证--->Realm验证 ...
safari 日期显示NAN
解决方案: 1.服务器端将时间转换为时间戳,前端再进行处理,问题解决. fastjson,JSON.toJSONString() 自动将时间字段转换为时间戳类型,然后传到前端. @RequestMap ...
Odd sum CodeForces - 797B
Odd sum CodeForces - 797B 好方法:贪心贪心2 糟糕(不用动脑)的方法:dp ans[i][0]表示到第i个和为偶数最大,ans[i][1]表示到第i个和为奇数最大. 但是, ...

process data

process data的更多相关文章

随机推荐

热门专题