Blame - wally/hlstorage.py - mcp/cvp-wally

2017-01-19 20:17:16 +0200

[diff] [blame]

1

import os

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

2

import pprint

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

3

import logging

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

4

from typing import cast, Iterator, Tuple, Type, Dict, Optional, Any, List

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

import numpy

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

8

from .suits.job import JobConfig

9

from .result_classes import SuiteConfig, TimeSeries, DataSource, StatProps, IResultStorage

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

10

from .storage import Storage

11

from .utils import StopTestError

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

12

from .suits.all_suits import all_suits

13

14

15

logger = logging.getLogger('wally')

class DB_re:

node_id = r'\d+.\d+.\d+.\d+:\d+'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

20

job_id = r'[-a-zA-Z0-9_]+_\d+'

21

suite_id = r'[a-z_]+_\d+'

22

sensor = r'[-a-z_]+'

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

23

dev = r'[-a-zA-Z0-9_]+'

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

24

tag = r'[a-z_.]+'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

25

metric = r'[a-z_.]+'

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

26

27

28

class DB_paths:

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

29

suite_cfg_r = r'results/{suite_id}\.info\.yml'

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

30

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

31

job_root = r'results/{suite_id}\.{job_id}/'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

32

job_cfg_r = job_root + r'info\.yml'

33

34

# time series, data from load tool, sensor is a tool name

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

35

ts_r = job_root + r'{node_id}\.{sensor}\.{metric}\.{tag}'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

36

37

# statistica data for ts

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

38

stat_r = job_root + r'{node_id}\.{sensor}\.{metric}\.stat\.yaml'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

39

40

# sensor data

41

sensor_data_r = r'sensors/{node_id}_{sensor}\.{dev}\.{metric}\.csv'

42

sensor_time_r = r'sensors/{node_id}_collected_at\.csv'

43

44

report_root = 'report/'

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

45

plot_r = r'{suite_id}\.{job_id}/{node_id}\.{sensor}\.{dev}\.{metric}\.{tag}'

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

46

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

47

job_cfg = job_cfg_r.replace("\\.", '.')

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

48

suite_cfg = suite_cfg_r.replace("\\.", '.')

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

49

ts = ts_r.replace("\\.", '.')

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

50

stat = stat_r.replace("\\.", '.')

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

51

sensor_data = sensor_data_r.replace("\\.", '.')

52

sensor_time = sensor_time_r.replace("\\.", '.')

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

53

plot = plot_r.replace("\\.", '.')

54

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

55

56

DB_rr = {name: r"(?P<{}>{})".format(name, rr)

57

for name, rr in DB_re.__dict__.items()

58

if not name.startswith("__")}

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

59

60

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

61

def fill_path(path: str, **params) -> str:

62

for name, val in params.items():

63

if val is not None:

64

path = path.replace("{" + name + "}", val)

65

return path

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

66

67

68

class ResultStorage(IResultStorage):

69

# TODO: check that all path components match required patterns

70

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

71

ts_header_size = 64

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

72

ts_header_format = "!IIIcc"

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

73

ts_arr_tag = 'csv'

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

74

csv_file_encoding = 'ascii'

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

75

76

def __init__(self, storage: Storage) -> None:

77

self.storage = storage

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

78

self.cache = {} # type: Dict[str, Tuple[int, int, Any, List[str]]]

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

79

80

def sync(self) -> None:

81

self.storage.sync()

82

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

83

# ----------------- SERIALIZATION / DESERIALIZATION -------------------------------------------------------------

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

84

def load_array(self, path: str, skip_shape: bool = False) -> Tuple[numpy.array, Tuple[str, ...]]:

85

with self.storage.get_fd(path, "rb") as fd:

86

stats = os.fstat(fd.fileno())

87

if path in self.cache:

88

size, atime, obj, header = self.cache[path]

89

if size == stats.st_size and atime == stats.st_atime_ns:

90

return obj, header

91

92

header = fd.readline().decode(self.csv_file_encoding).strip().split(",")

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

93

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

94

if skip_shape:

95

header = header[1:]

96

dt = fd.read().decode("utf-8").strip()

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

97

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

98

arr = numpy.fromstring(dt.replace("\n", ','), sep=',', dtype=header[0])

99

if len(dt) != 0:

100

lines = dt.count("\n") + 1

101

columns = dt.split("\n", 1)[0].count(",") + 1

102

assert lines * columns == len(arr)

if columns == 1:

arr.shape = (lines,)

else:

arr.shape = (lines, columns)

107

108

self.cache[path] = (stats.st_size, stats.st_atime_ns, arr, header[1:])

109

return arr, header[1:]

110

111

def put_array(self, path:str, data: numpy.array, header: List[str], append_on_exists: bool = False) -> None:

112

header = [data.dtype.name] + header

113

114

exists = append_on_exists and path in self.storage

115

if len(data.shape) == 1:

116

# make array vertical to simplify reading

117

vw = data.view().reshape((data.shape[0], 1))

else:

vw = data

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

121

with self.storage.get_fd(path, "cb" if not exists else "rb+") as fd:

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

122

if exists:

123

curr_header = fd.readline().decode(self.csv_file_encoding).rstrip().split(",")

124

assert header == curr_header, \

125

"Path {!r}. Expected header ({!r}) and current header ({!r}) don't match"\

126

.format(path, header, curr_header)

127

fd.seek(0, os.SEEK_END)

128

else:

129

fd.write((",".join(header) + "\n").encode(self.csv_file_encoding))

130

131

numpy.savetxt(fd, vw, delimiter=',', newline="\n", fmt="%lu")

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

132

133

def load_ts(self, ds: DataSource, path: str) -> TimeSeries:

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

134

arr, header = self.load_array(path, skip_shape=True)

135

units, time_units = header

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

136

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

137

data = arr[:,1:]

138

if data.shape[1] == 1:

139

data = data.reshape((-1,))

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

140

141

return TimeSeries("{}.{}".format(ds.dev, ds.sensor),

142

raw=None,

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

143

data=data,

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

times=arr[:,0],

source=ds,

units=units,

time_units=time_units)

148

149

def load_sensor(self, ds: DataSource) -> TimeSeries:

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

150

collected_at, collect_header = self.load_array(DB_paths.sensor_time.format(**ds.__dict__))

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

151

assert collect_header == [ds.node_id, 'collected_at', 'us'], repr(collect_header)

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

152

data, data_header = self.load_array(DB_paths.sensor_data.format(**ds.__dict__))

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

153

154

data_units = data_header[2]

155

assert data_header == [ds.node_id, ds.metric_fqdn, data_units]

156

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

157

assert len(data.shape) == 1

158

assert len(collected_at.shape) == 1

159

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

160

return TimeSeries(ds.metric_fqdn,

raw=None,

data=data,

times=collected_at,

source=ds,

units=data_units,

time_units='us')

# ------------- CHECK DATA IN STORAGE ----------------------------------------------------------------------------

169

170

def check_plot_file(self, source: DataSource) -> Optional[str]:

171

path = DB_paths.plot.format(**source.__dict__)

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

172

fpath = self.storage.resolve_raw(DB_paths.report_root + path)

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

173

return path if os.path.exists(fpath) else None

174

175

# ------------- PUT DATA INTO STORAGE --------------------------------------------------------------------------

176

177

def put_or_check_suite(self, suite: SuiteConfig) -> None:

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

178

path = DB_paths.suite_cfg.format(suite_id=suite.storage_id)

179

if path in self.storage:

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

180

db_cfg = self.storage.load(SuiteConfig, path)

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

181

if db_cfg != suite:

182

logger.error("Current suite %s config is not equal to found in storage at %s", suite.test_type, path)

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

183

logger.debug("Current: \n%s\nStorage:\n%s", pprint.pformat(db_cfg), pprint.pformat(suite))

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

184

raise StopTestError()

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

185

else:

186

self.storage.put(suite, path)

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

187

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

188

def put_job(self, suite: SuiteConfig, job: JobConfig) -> None:

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

189

path = DB_paths.job_cfg.format(suite_id=suite.storage_id, job_id=job.storage_id)

190

self.storage.put(job, path)

191

192

def put_ts(self, ts: TimeSeries) -> None:

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

193

assert ts.data.dtype == ts.times.dtype

194

assert ts.data.dtype.kind == 'u'

195

assert ts.source.tag == self.ts_arr_tag

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

196

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

197

csv_path = DB_paths.ts.format(**ts.source.__dict__)

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

198

header = [ts.data.dtype.name, ts.units, ts.time_units]

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

199

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

200

tv = ts.times.view().reshape((-1, 1))

201

if len(ts.data.shape) == 1:

202

dv = ts.data.view().reshape((ts.times.shape[0], -1))

203

else:

204

dv = ts.data

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

205

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

206

result = numpy.concatenate((tv, dv), axis=1)

207

self.put_array(csv_path, result, header)

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

208

209

if ts.raw:

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

210

raw_path = DB_paths.ts.format(**ts.source(tag=ts.raw_tag).__dict__)

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

211

self.storage.put_raw(ts.raw, raw_path)

212

213

def put_extra(self, data: bytes, source: DataSource) -> None:

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

214

self.storage.put_raw(data, DB_paths.ts.format(**source.__dict__))

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

215

216

def put_stat(self, data: StatProps, source: DataSource) -> None:

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

217

self.storage.put(data, DB_paths.stat.format(**source.__dict__))

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

218

219

# return path to file to be inserted into report

220

def put_plot_file(self, data: bytes, source: DataSource) -> str:

221

path = DB_paths.plot.format(**source.__dict__)

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

222

self.storage.put_raw(data, DB_paths.report_root + path)

223

return path

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

224

koder aka kdanilov

2017-01-19 20:17:16 +0200

[diff] [blame]

225

def put_report(self, report: str, name: str) -> str:

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

226

return self.storage.put_raw(report.encode(self.csv_file_encoding), DB_paths.report_root + name)

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

227

228

def append_sensor(self, data: numpy.array, ds: DataSource, units: str) -> None:

229

if ds.metric == 'collected_at':

230

path = DB_paths.sensor_time

231

metrics_fqn = 'collected_at'

232

else:

233

path = DB_paths.sensor_data

234

metrics_fqn = ds.metric_fqdn

kdanylov aka koder

2017-03-27 22:19:09 +0300

[diff] [blame]

235

self.put_array(path.format(**ds.__dict__), data, [ds.node_id, metrics_fqn, units], append_on_exists=True)

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

236

237

# ------------- GET DATA FROM STORAGE --------------------------------------------------------------------------

238

239

def get_stat(self, stat_cls: Type[StatProps], source: DataSource) -> StatProps:

240

return self.storage.load(stat_cls, DB_paths.stat.format(**source.__dict__))

241

242

# ------------- ITER OVER STORAGE ------------------------------------------------------------------------------

243

244

def iter_paths(self, path_glob) -> Iterator[Tuple[bool, str, Dict[str, str]]]:

245

path = path_glob.format(**DB_rr).split("/")

246

yield from self.storage._iter_paths("", path, {})

247

248

def iter_suite(self, suite_type: str = None) -> Iterator[SuiteConfig]:

249

for is_file, suite_info_path, groups in self.iter_paths(DB_paths.suite_cfg_r):

250

assert is_file

251

suite = self.storage.load(SuiteConfig, suite_info_path)

252

# suite = cast(SuiteConfig, self.storage.load(SuiteConfig, suite_info_path))

253

assert suite.storage_id == groups['suite_id']

254

if not suite_type or suite.test_type == suite_type:

255

yield suite

256

257

def iter_job(self, suite: SuiteConfig) -> Iterator[JobConfig]:

258

job_glob = fill_path(DB_paths.job_cfg_r, suite_id=suite.storage_id)

259

job_config_cls = all_suits[suite.test_type].job_config_cls

260

for is_file, path, groups in self.iter_paths(job_glob):

261

assert is_file

262

job = cast(JobConfig, self.storage.load(job_config_cls, path))

263

assert job.storage_id == groups['job_id']

264

yield job

265

266

# iterate over test tool data

267

def iter_ts(self, suite: SuiteConfig, job: JobConfig, **filters) -> Iterator[TimeSeries]:

268

filters.update(suite_id=suite.storage_id, job_id=job.storage_id)

269

ts_glob = fill_path(DB_paths.ts_r, **filters)

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

270

for is_file, path, groups in self.iter_paths(ts_glob):

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

271

tag = groups["tag"]

272

if tag != 'csv':

273

continue

koder aka kdanilov

2017-02-01 20:29:56 +0200

[diff] [blame]

274

assert is_file

275

groups = groups.copy()

276

groups.update(filters)

277

ds = DataSource(suite_id=suite.storage_id,

278

job_id=job.storage_id,

279

node_id=groups["node_id"],

280

sensor=groups["sensor"],

281

dev=None,

282

metric=groups["metric"],

kdanylov aka koder

2017-04-01 16:53:01 +0300

[diff] [blame^]

283

tag=tag)

koder aka kdanilov