titlesplit源码

CREATE TABLE titlesplit(id INT(12) UNSIGNED NOT NULL  AUTO_INCREMENT,

innserSessionid VARCHAR(50),

times VARCHAR(50),

channelType VARCHAR(50),

sourcetitle VARCHAR(500),

title VARCHAR(500),

words VARCHAR(500),

characters VARCHAR(150),

refer VARCHAR(150),

role VARCHAR(150),

Nowtime INT(15),

PRIMARY KEY(id)

)  DEFAULT CHARSET=utf8;

ALTER TABLE `titlesplit` ADD INDEX(`words`)

/**

  * Created by lkl on 2017/6/26.

  *///spark-shell --driver-class-path /home/hadoop/test/mysqljdbc.jar

import java.sql.{DriverManager, ResultSet}

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import java.text.SimpleDateFormat

import java.util.Date

object titlesplit {

  val rl = "jdbc:mysql://192.168.0.37:3306/emotional?user=root&password=123456&useUnicode=true&characterEncoding=utf8&autoReconnect=true&failOverReadOnly=false"

  classOf[com.mysql.jdbc.Driver]

  val conn = DriverManager.getConnection(rl)

  val statement = conn.createStatement(ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_UPDATABLE)

  def main(args: Array[String]) {

    val conf = new SparkConf().setMaster("local").setAppName("test")

    val sc = new SparkContext(conf)

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    val format = new java.text.SimpleDateFormat("yyyyMMdd")

    val yearformat = new java.text.SimpleDateFormat("yyyy")

    val year = yearformat.format(new java.util.Date().getTime())

//

    val format2s=new java.text.SimpleDateFormat("yyyyMMddHHmmss")

//

    val monthformat = new java.text.SimpleDateFormat("MM")

    val month = monthformat.format(new java.util.Date().getTime())

    val dayformat = new java.text.SimpleDateFormat("dd")

    val day = dayformat.format(new java.util.Date().getTime())

    val dat01 = format.format(new java.util.Date().getTime() - 1 * 24 * 60 * 60 * 1000)

    val dat02 = format.format(new java.util.Date().getTime() - 0 * 24 * 60 * 60 * 1000)

    val dat03 = format.format(new java.util.Date().getTime() - 2 * 24 * 60 * 60 * 1000)

    val format2 = new java.text.SimpleDateFormat("yyyy-MM-dd")

    val dat = format2.format(new java.util.Date().getTime() - 1 * 24 * 60 * 60 * 1000)

    // val log01= sc.textFile("hdfs://192.168.0.211:9000/user/datacenter/home/datacenter/datacollect/logs/dataplatform/Crawler/Crawler_Common_WebPageNews/"+year+"/"+month+"/"+day+"/events_192.168.0.217_datacenter4.1499879147814")

   // val log01 = sc.textFile("hdfs://192.168.0.211:9000/user/datacenter/home/datacenter/datacollect/logs/dataplatform/Crawler/Crawler_Common_WebPageNews/2017/07/14/events_192.168.0.217_datacenter4.1499994258650.gzip")

    ///user/datacenter/home/datacenter/datacollect/logs/dataplatform/Crawler/Crawler_Common_WebPageNews/2017/07/13

    //    val  l=log01.map(line=>(line.split("\",\"")(1).split("\":\"")(1),line.split("\",\"")(4).split("\":\"")(1),line.split("\",\"")(12).split("\":\"")(1)

    //     ,line.split("\",\"")(13).split("\":\"")(1)

    //      ,line.split("\",\"")(23).split("\":\"")(1)))

    //

    //     val role = "jdbc:mysql://192.168.0.37:3306/emotional?user=root&password=123456&useUnicode=true&characterEncoding=utf8&autoReconnect=true&failOverReadOnly=false"

    //    import sqlContext.implicits._

    //    val df=l.toDF("channelType","sourcetitle","title","time","innerSessionId")

    //    df.printSchema()

    //    df.insertIntoJDBC(role, "newstitles", true)

    val job = sqlContext.jdbc("jdbc:mysql://192.168.0.37:3306/emotional?user=root&password=123456", "s_data_Crawler_Common_WebPageNews")

    val jo = job.toDF().registerTempTable("job")

    val ed = sqlContext.sql("select `INNERSESSIONID`,`TIME`,`CHANNELTYPE`,`SOURCETITLE`,`TITLE` from job")

    // val job = sqlContext.jdbc("jdbc:mysql://192.168.0.37:3306/emotional?user=root&password=123456", "layer")

    //val jo = job.toDF().registerTempTable("job")

//  val  d=sqlContext.sql("select words from job")

    val pp = ed.map(p => {

      val v0 = p.getString(0)

      val v1 = p.getTimestamp(1).toString

      val v2 = p.getString(2)

      val v3 = p.getString(3)

      val v4 = p.getString(4)

      val v5 = p.getString(4).split("\\|")

      (v0, v1, v2, v3, v4, v5)

    })

    pp.foreach(p => {

      for (i <- 0 until p._6.size) {

        println(p._6.size)

        val v0 = p._1

        val v1 = p._2

        val v2 = p._3

        val v3 = p._4

        val v4 = p._5

        val v5 = p._6(i).split(" ")

        if (v5.size == 4) {

          val now = new Date()

          val a = now.getTime.toInt

          insert(v0, v1, v2, v3, v4, v5(0), v5(1), v5(2), v5(3),a)

        }

      }

    })

    conn.close()

  }

    def insert(value0: String, value1: String, value2: String, value3: String, value4: String, value5: String,

               value6: String, value7: String, value8: String,value9:Int): Unit = {

      // CREATE TABLE words2(innersessionId VARCHAR(100),words VARCHAR(100), VARCHAR(100),posit VARCHAR(100),va VARCHAR(100))

      try {

        val prep = conn.prepareStatement("INSERT INTO titlesplit(innserSessionid,times,channelType,sourcetitle,title,words,characters,refer,role,Nowtime) VALUES (?,?,?,?,?,?,?,?,?,?) ")

        prep.setString(1, value0)

        prep.setString(2, value1)

        prep.setString(3, value2)

        prep.setString(4, value3)

        prep.setString(5, value4)

        prep.setString(6, value5)

        prep.setString(7, value6)

        prep.setString(8, value7)

        prep.setString(9, value8)

        prep.setInt(10,value9)

        prep.executeUpdate

      } catch {

        case e: Exception => e.printStackTrace

      }

      finally {

      }

    }

  }

titlesplit源码的更多相关文章

【原】Android热更新开源项目Tinker源码解析系列之三：so热更新
本系列将从以下三个方面对Tinker进行源码解析: Android热更新开源项目Tinker源码解析系列之一:Dex热更新 Android热更新开源项目Tinker源码解析系列之二:资源文件热更新 A ...
C# ini文件操作【源码下载】
介绍C#如何对ini文件进行读写操作,C#可以通过调用[kernel32.dll]文件中的 WritePrivateProfileString()和GetPrivateProfileString()函 ...
【原】FMDB源码阅读（三）
[原]FMDB源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 FMDB比较优秀的地方就在于对多线程的处理.所以这一篇主要是研究FMDB的多线程处理的实现.而 ...
从源码看Azkaban作业流下发过程
上一篇零散地罗列了看源码时记录的一些类的信息,这篇完整介绍一个作业流在Azkaban中的执行过程,希望可以帮助刚刚接手Azkaban相关工作的开发.测试. 一.Azkaban简介 Azkaban作为开 ...
【原】Android热更新开源项目Tinker源码解析系列之一：Dex热更新
[原]Android热更新开源项目Tinker源码解析系列之一:Dex热更新 Tinker是微信的第一个开源项目,主要用于安卓应用bug的热修复和功能的迭代. Tinker github地址:http ...
【原】Android热更新开源项目Tinker源码解析系列之二:资源文件热更新
上一篇文章介绍了Dex文件的热更新流程,本文将会分析Tinker中对资源文件的热更新流程. 同Dex,资源文件的热更新同样包括三个部分:资源补丁生成,资源补丁合成及资源补丁加载. 本系列将从以下三个方 ...
多线程爬坑之路-Thread和Runable源码解析之基本方法的运用实例
前面的文章:多线程爬坑之路-学习多线程需要来了解哪些东西?(concurrent并发包的数据结构和线程池,Locks锁,Atomic原子类) 多线程爬坑之路-Thread和Runable源码解析前面 ...
SDWebImage源码解读之SDWebImageDownloaderOperation
第七篇前言本篇文章主要讲解下载操作的相关知识,SDWebImageDownloaderOperation的主要任务是把一张图片从服务器下载到内存中.下载数据并不难,如何对下载这一系列的任务进行设计 ...
【深入浅出jQuery】源码浅析--整体架构
最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美. 其结构明晰,高内聚.低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺陷.渐 ...

随机推荐

border属性
border 简写属性,用于把针对四个边框的属性设置在一个声明里 border-style 用于元素所有边框的样式,或者单独的为各边框设置样式 border-width 简写属性,用于为元素的所有边框 ...
3. 文本相似度计算-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言最近在学习文本相似度的计算,前面两篇文章 ...
browser_autopwn2
browser_autopwn2是个啥玩意儿? 一个集合了浏览器漏洞的小框架 option msf > use auxiliary/server/browser_autopwn2 msf aux ...
修改zerolog使log输出的文件名可以在goland里自动定位--技巧
如何自动定位文件最近发现goland会自动识别输出的文件或者url,但是有时候又识别不出来,折腾了一下,发现原来要求文件路径或url两边要有空格改造zerolog 既然如此,那么让我们来改造一下z ...
[转]SSH和SSM对比总结
原文地址:https://blog.csdn.net/peak_and_valley/article/details/52925032 当下流行的两种企业开发MVC开源框架,是我们Java程序猿必备知 ...
facebook工具xhprof的安装与使用-分析php执行性能
下载源码包的网址 http://pecl.php.net/package/xhprof
u-boot的配置
1 sama5d31dk sama5d3_xplained:SAMA5D3,SYS_USE_NANDFLASH ...
java.io.BufferedOutputStream 源码分析
BufferedOutputStream 是一个带缓冲区的输出流,通过设置这种输出流,应用程序就可以字节写入到缓冲区中,当缓冲区满了以后再调用底层系统,而不必针对每次字节写入调用底层系统,从而提高系 ...
java.io.BufferedInputStream 源码分析
BufferedInputStream是一个带缓冲区的输入流,在读取字节数据时可以从底层流中一次性读取多个字节到缓冲区,而不必每次读取操作都调用底层流,从而提高系统性能. 先介绍几个关键属性 //默认 ...
Android——音乐播放器完善——进度条显示当前播放进度，加可拖动进度条（未待解决完问题）
效果: 问题:可拖动进度条随进度条移动时,会致使音乐卡顿(待解决) xml <?xml version="1.0" encoding="utf-8"?&g ...

titlesplit源码

titlesplit源码的更多相关文章

随机推荐

热门专题