第一句子网 > python利用pandas读取.data文件并对nan进行处理

python利用pandas读取.data文件并对nan进行处理

时间：2023-05-19 17:00:21

在数据挖掘的很多领域，数据内容往往以.data形式给出，因此读取data文件到矩阵中并对异常值进行处理就变得很重要了。

一个data文件的截图：

该data文件为一个1567 X 590的矩阵，每一行代表一个样本。

操作步骤：

读取数据到矩阵中

先直接pd.read_csv()，然后通过输出了解到数据一共有多少列。

data = pd.read_csv('manifold/secom.data', sep=' ')print(data.shape[1])

输出590，于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。

完整读取数据

data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])data = np.array(data)

这样数据就变成了一个矩阵。

处理异常值nan

思路：求得每一列除nan以外数据的平均值，填充到这一列中是nan的地方。求取除nan以外数据的平均值，我的思路是先把这一列转成list，然后利用np.nanmean(list)函数，跳过nan求平均值。

temp = np.array(data)[:, i].tolist() #第i列转成listmean = np.nanmean(temp) #跳过nan求mean

填充

data[np.argwhere(np.isnan(data[:, i].T)), i] = mean#argwhere用于查找满足nan的位置

完整代码：

def load_file():data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])data = np.array(data)for i in range(data.shape[1]):temp = np.array(data)[:, i].tolist()mean = np.nanmean(temp)data[np.argwhere(np.isnan(data[:, i].T)), i] = meanreturn data

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。