拼接不同的表
1、纵向拼接
pd.concat([df1,df2],axis=0)
现有data1.csv和data2.csv
df1 = pd.read_csv('data1.csv',names=['category','theme','URL','content'])
df2 = pd.read_csv('data2.csv',names=['category','theme','URL','content'])
data = pd.concat([df1,df2],axis=0,ignore_index=True) #拼接表格
2、横向拼接
pd.concat([df1,df2],axis=1)
展示数据规模
1、总的行数和列数
print(data.shape)
2、按某一列名统计数量
df = data.groupby('category').count()
print(df)
简单的数据预处理
1、去空行
data = data.dropna(axis=0, how='any')
data = data.drop(index=(data_32.loc[(data_32['content']==' ')].index))
有些空行是啥也没有,这种情况用第一个,有些空行是里面有一个空格,这种情况选用第二个
2、去重,保留第一个
data_2 = data_1.drop_duplicates(keep='first')
3、剔除指定列值所对应的行
data_3 = data_2.drop(index=(data_2.loc[(data_2['现价']=='0.000000')].index))
data = data.drop(data[data['现价']=='0.000000'].index)
data = data[-data["现价"].isin(['0.000000'])]
三种写法都可以