1、枚举指定文件夹中的所有指定格式文件并访问

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import os

dirPath = './' # 文件夹路径

def ListFile(fileDir):
ret = []
# os.walk()函数返回根目录、
for root, dirs, files in os.walk(fileDir):
for file in files:
#其中os.path.splitext()函数将路径拆分为文件名+扩展名
if os.path.splitext(file)[1] == '.txt':
ret.append(os.path.join(root, file))
return ret

files = ListFile(dataPath)
for file in files:
data = pd.read_table(file)
ret = data[data['communities'] == 'at question']
if (ret.shape[0] != 0):
print('有异常数据的文件:' + file)
print(ret)

2、对series和dataframe进行排序

  • sort函数好像被淘汰,改为sort_values函数。
  • 排序不是在源dataframe里进行,而是生成新的dataframe。
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    df = df.sort_values(by='internalReturn', ascending=False, inplace=True)
    frame.sort(columns = ['a'],axis = 0,ascending = True)


    #coding=utf-8
    import pandas as pd
    import numpy as np
    #以下实现排序功能。
    series=pd.Series([3,4,1,6],index=['b','a','d','c'])
    frame=pd.DataFrame([[2,4,1,5],[3,1,4,5],[5,1,4,2]],columns=['b','a','d','c'],index=['one','two','three'])
    print frame
    print series
    print 'series通过索引进行排序:'
    print series.sort_index()
    print 'series通过值进行排序:'
    print series.sort_values()
    print 'dataframe根据行索引进行降序排序(排序时默认升序,调节ascending参数):'
    print frame.sort_index(ascending=False)
    print 'dataframe根据列索引进行排序:'
    print frame.sort_index(axis=1)
    print 'dataframe根据值进行排序:'
    print frame.sort_values(by='a')
    print '通过多个索引进行排序:'

3、

1
2
3
4
5
6
7
8
9
10
11
def use_svg_display():
# 用矢量图显示。
display.set_matplotlib_formats('svg')

def set_figsize(figsize=(3.5, 2.5)):
use_svg_display()
# 设置图的尺寸。
plt.rcParams['figure.figsize'] = figsize

set_figsize()
plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1);