Pandas_数据预处理_读写去重

发布时间 2023-06-02 12:25:11作者: 辰令

列编辑

“Column selection mode”、“列块模式”、“列编辑”、“多光标功能
notepad ++ 列模式 : alt +鼠标左键 列模式选择
vscode :Shift+Alt+鼠标左键  列模式,多行同时操作的方法步骤快捷键

Pandas 数据预处理

read_csv() sep 
    header  names encoding
df['col'] = 'str' + df['col'].astype(str)
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
         df.drop_duplicates(subset=['brand', 'style'], keep='last')

import numpy as np
df['val'] = np.arange(len(df))//4+1

DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict')
  columns  header
  index  index_label
  
concat()函数利用拼接的方式,添加新的一列。好处是可以同时新增多个列名。
    df1 = pd.concat([df1, pd.DataFrame(columns=['f'])])	
 
直接赋值法  
    df[‘新列名’]=新列的值
    df.loc[:,新列名]=值	
 df['level'] = df.apply(lambda x: getlevel(x.score), axis=1)

图片读取方式

  cv2.imread
     是uint8类型,0-255范围,图像形状是(H,W,C),读入的顺序是BGR
  cv2.imwrite - 保存numpy格式的图片
  	cv2.imwrite("cv2.jpg",img)
  	
  matplotlib.pyplot.imread
      图片是numpy数组,是unit8类型,0-255范围,图像形状是(H,W,C),读入的顺序是RGB	
  plt.imsave - 保存numpy格式的图片
  	plt.imsave('plt.jpg',img)
  	
  3.PIL.image.open	
    PIL.image - 保存PIL格式的图片
    img.save("PIL.jpg")

参考

 vscode 列操作_[vscode]列编辑功能 https://blog.csdn.net/weixin_32616935/article/details/113452810
http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table