记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused

公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错:java.net.ConnectException: Call From hadoop/133.0.123.130 to localhost:9000 fail…

调用远程主机上的 RMI 服务时抛出 java.rmi.ConnectException: Connection refused to host: 127.0.0.1 异常原因及解决方案

最近使用 jmx 遇到一个问题,client/server 同在一台机器上,jmx client能够成功连接 server,如果把 server 移植到另一台机器上192.168.134.128,抛出如下异常: java.net.ConnectException: Connection refused: connect java.rmi.ConnectException: Connection refused to host: 127.0.0.1; nested exception is: ja…

问题记录：spark读取hdfs文件出错

错误信息: scala> val file = sc.textFile("hdfs://kit-b5:9000/input/README.txt") 13/10/29 16:59:45 DEBUG MutableMetricsFactory: field org.apache.hadoop.metrics2.lib.MutableRate org.apache.hadoop.security.UserGroupInformation$UgiMetrics.loginSuccess…

Android开发—错误记录1：W/System.err: java.net.ConnectException: Connection refused

W/System.err: java.net.ConnectException: Connection refused 前台访问后台时,出现访问被拒绝情况:W/System.err: java.net.ConnectException: Connection refused 问题出在HttpURLConnection的URL上面,测试三种url"localhost:8008/……""127.0.0.1:8008/……""后台所在的服务器的IP地址IP:80…

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; impor…

Qt读取TXT文件时，GBK与UTF-8编码判断

读取txt文件时,很多时候无法获取文件的编码格式.如果直接进行使用,则有可能出现乱码.需要在使用前将其转为Unicode(Qt的默认编码格式). 虽然实际的编码格式种类非常多,但平常主要使用的有GBK与UTF-8两种.可以依次尝试转换,如果转换出现无效字符则认为不是该种编码格式. QString GetCorrectUnicode(const QByteArray &ba) { QTextCodec::ConverterState state; QTextCodec *codec = QText…

spring使用@Value注解读取.properties文件时出现中文乱码问题的解决

解决办法在spring中我们常常使用.properties对一些属性进行一个提前配置, spring 在读取*.properties文件时, 默认使用的是asci码, 这时我们需要对其编码进行转换. 下面列举两种常见的方法. 方法一:在配置spring.xml文件时,声明所需的∗.properties文件时直接使用"utf−8"编码 <context:property-placeholder location="classpath:conf/*.properties…

记录：python读取excel文件

由于最近老是用到python读取excel文件,所以特意记录一下python读取excel文件的大体框架. 库:xlrd(读),直接pip安装即可.想要写excel文件的话,安装xlwd库即可,也是直接pip安装就可以啦~ 下面直接贴代码了: import xlrd #读取excel文件内容(path为文件路径) def read_excel(path): # 获取所有sheet workbook = xlrd.open_workbook(path) sheet_names = workbook…

【 D3.js 进阶系列 — 1.2 】读取 CSV 文件时乱码的解决方法

在 D3 中使用 d3.csv 读取 CSV 文件时,有时会出现乱码问题. 怎么解决呢? 1. 乱码问题使用 d3.csv 读取 xxx.csv 文件时.假设 xxx.csv 文件使用的是 UTF-8 编码,不会有什么问题. 当然,个人觉得尽量使用 UTF-8 编码,能够在同一编码内使用各国文字. 可是.假设 xxx.csv 文件使用的是 utf-8 编码,使用 Microsoft Excel 打开的时候,可能会出现乱码,由于国内的 Excel 默认使用 GB2312 打开.并且在打开的时候不…

Spark读取HDFS文件，任务本地化(NODE_LOCAL)

Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Executor去执行任务. 这么理解没错,我搭建的Spark集群情况是这样: 15台DataNode节点的HDFS集群,我在每个DataNode上都部署了一个Spark Worker,并且,启动Spark Application的时候,每个Worker都有一个Executor,这样理论上来说,只要读取HDF…

pandas读取大文件时memoryerror的解决办法

再用pd.read_csv读取大文件时,如果文件太大,会出现memoryerror的问题. 解决办法一:pd.read_csv的参数中有一个chunksize参数,为其赋值后,返回一个可迭代对象TextFileReader,对其遍历即可 reader = pd.read_csv(file_path, chunksize=20) # 每次读取20条数据 import pandas as pd def knn(): # 读取数据 file_path = './facebook/train.csv'…

.Net读取Excel文件时丢失数据的问题（转载）

相信很多人都试过通过OleDB读取Excel文件,这种方法效率十分高,只是有一点会让人十分头痛,就是当一列中既有混合型数据,又有纯数据时,往往容易丢失数据. 百度过后,改连接字符串 “HDR=YES;IMEX=1”,再甚者改注册表,TypeGuessRows设置更大的数字或为0,然而丢失数据的问题始终解决不了. 在我试过多次后,发现其实采用ACE 引擎读取Excel文件比使用Jet引擎好很多, 首先说明一下Microsoft.Jet.OLEDB.4.0和Microsoft.ACE.OLEDB.1…

pig 自定义udf中读取hdfs 文件

最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市. 希望写一个pig udf IP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载. 这里关键点在于怎么样读取这个文件,浪费了二天时间,现在把代码记录下来供和我遇到相同问题的朋友参考. pig script register /usr/local/pig/mypigudf.jar; define ip2address my.pig.func.IP2Address('/user/anny/…

java web中读取properties文件时的路径问题

在web开发时,难免会有一些固定的参数,我们一般把这些固定的参数存在properties文件中,然后用的时候要读出来.但经常出现一些错误,找不到相应的路径,所以,今天特地讲一些如何正确获得路径. 首先,我们要将properties文件部署在$app/WEB-INF/classes文件夹里,比如将info.properties文件放在dingding这个web应用下时,该文件所在的路径为$dingding/WEB-INF/classes/info.properties. 然后读取的时候分为两种情况…

Java 读取Properties文件时应注意的路径问题

1. 使用Class的getResourceAsStream()方法读取Properties文件(资源文件)的路径问题: InputStream in = this.getClass().getResourceAsStream("资源Name"); 注意: (1)这种方式要求 Properties资源文件必须与当前类文件在同一个包下(同文件夹下) ,如果不在则会报空指针异常,如果不在同一个包(文件夹)下可以使用,如果方式: InputStream in = this.getClas…

java分享第十六天（ java读取properties文件的几种方法&java配置文件持久化：static块的作用）

java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Properties p=new Properties(); //p需要InputStream对象进行读取文件,而获取InputStream有多种方法: //1.通过绝对路径:InputStream is=new FileInputStream(filePath); //2.通过Class.getResou…

读取hdfs文件之后repartition 避免数据倾斜

场景一: api: textFile("hfds://....").map((key,value)).reduceByKey(...).map(实际的业务计算逻辑) 场景:hdfs的某个文件有183个block,他们的大小分布非常不均匀时,比如有的是200M,有的是1M,有的是10K.此时spark计算非常非常慢,通过web ui监视发现,有的task处理了好几百M的数据,有的 task之处理了几k,导致严重的数据倾斜. 其中stage0阶段有183个task,这个阶段几乎没有什么计…

Spark设置自定义的InputFormat读取HDFS文件

本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serializable Spark提供了HDFS上一般的文件文件读取接口 sc.textFile(),但在某些情况下HDFS中需要存储自定义格式的文件,需要更加灵活的读取方式. 使用KeyValueTextInputFormat Hadoop的MapReduce框架下提供了一些InputFormat的实现,其…

java Api 读取HDFS文件内容

package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java.io.*; public class HDFSApi { /** * 读取文件内容 */ public static void cat(Configuration conf, String remoteFilePath) throws IOException { FileSystem fs = F…

java读取视频文件时长

1.下载jar包:http://www.sauronsoftware.it/projects/jave/index.php 2.上代码 @RequestMapping(value = "amendFile.htm", produces = "application/json;charset=UTF-8") @ResponseBody public String amendFile(MultipartFile file, HttpServletRequest requ…

使用Jmeter性能测试，读取csv文件时的乱码问题

读取csv参数乱码问题发送请求时参数通过CSV文件读取,发送请求后显示错误,把获取的参数通过在线urlencode转码器转码后发现是乱码.打开csv设值,编码格式选择的是UTF-8,打开参数文件后发现编码格式是GB2312,把参数文件的编码格式改为UTF-8后解决了这个问题.因此,应该是Jmeter中选择的编码格式和csv文件的编码格式不一致引起的乱码问题.…

读取hdfs文件内容

基础环境: cdh2.71 需要注意: url地址参照 <property> <name>dfs.namenode.servicerpc-address</name> <value>node11.com:8022</value> </property> hdfs url地址参照 hdfs-site.xml public static void main(String[] args) throws Exception{ public s…

python读取ini文件时，特殊字符的读取

前言: 使用python在读取配置文件时,由于配置文件中存在特殊字符,读取时出现了以下错误: configparser.InterpolationSyntaxError: '%' must be followed by '%' or '(', found: '%sbc09' 错误代码: config=configparser.ConfigParser() 解决方案: 使用 RawConfigParser()方法进行读取即可,代码如下: config=configparser.RawConfigP…

Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task，没办法找到"spark自定义Kryo序列化输入输出API"

声明:本文转自<在Spark中自定义Kryo序列化输入输出API> 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继承java.io.Serializable的类系列化,虽然Java系列化非常灵活,但是它的性能不佳.然而我们可以使用Kryo 库来系列化,它相比Java serialization系列化高效,速…

记录Linux下解压大文件时的一次奇葩经历

由于需要安装新的系统,使用wget下载tar包,8G多下载了1个多小时.解压完后的文件夹中的tar包数量明显不够,而且原始的tar包竟然不见了. 同样的操作又进行了一次,结果还是一样,不得不怀疑是哪里出了问题. 第3次下载完tar包后,使用df -h看了一下,剩余空间只有6G多,看来是空间不足引起的问题了.但是为什么会把原始的tar包删掉,暂时还没想明白. tar包移动了到空间充足的位置,再次解压后,结果和期望的是一致的.…

用java api读取HDFS文件

import java.io.IOException; import java.io.InputStream; import java.security.PrivilegedExceptionAction; import java.text.SimpleDateFormat; import java.util.concurrent.ConcurrentHashMap; import java.util.concurrent.ConcurrentMap; import org.apache.had…