Module `sktmls.datasets`

Sub-modules

sktmls.datasets.dataset

Classes

class Dataset (**kwargs)

AutoML 학습 데이터셋 클래스.

Attributes

id: (int) 데이터셋 ID
name: (str) 데이터셋 이름
status: (str) 데이터셋 상태
problem_type: (ProblemType) 문제 타입
feature_store_conf: (FeatureStoreConf) 피쳐 스토어 설정값
label_data_conf: (LabelDataConf) 레이블 데이터 설정값
created_at: (datetime.datetime) 데이터셋 생성 시점
updated_at: (datetime.datetime) 데이터셋 생성 완료 또는 갱신 시점

Methods

def get_error(self) ‑> str: 데이터셋 생성 시 에러 발생 원인을 조회한다. (데이터셋 생성 실패 시에만 값 존재)

Returns

str

class DatasetClient (env: MLSENV = None, runtime_env: MLSRuntimeENV = None, username: str = None, password: str = None)

AutoML 데이터셋 관련 기능을 제공하는 클라이언트 클래스입니다.

Args

env: (MLSENV) 접근할 MLS 환경 (MLSENV.DEV|MLSENV.STG|MLSENV.PRD) (기본값: MLSENV.STG)
runtime_env: (MLSRuntimeENV) 클라이언트가 실행되는 환경 (MLSRuntimeENV.YE|MLSRuntimeENV.EDD|MLSRuntimeENV.LOCAL) (기본값: MLSRuntimeENV.LOCAL)
username: (str) MLS 계정명 (기본값: $MLS_USERNAME)
password: (str) MLS 계정 비밀번호 (기본값: $MLS_PASSWORD)

Returns

DatasetClient

Example

client = DatasetClient(env=MLSENV.STG, runtime_env=MLSRuntimeENV.YE, username="mls_account", password="mls_password")

Ancestors

MLSClient

Methods

def create_dataset(self, name: str, problem_type: ProblemType, feature_store_conf: FeatureStoreConf, label_data_conf: LabelDataConf) ‑> Dataset

새 AutoML 데이터셋을 생성합니다.

Args

name: (str) 데이터셋 이름
problem_type: (ProblemType) 문제 타입
feature_store_conf: (FeatureStoreConf) 피쳐 스토어 설정
label_data_conf: (LabelDataConf) 레이블 데이터 설정

Returns

Dataset

Example

client = DatasetClient()
dataset = client.create_dataset(
    name="my_dataset",
    problem_type=ProblemType.SCORE,
    feature_store_conf=FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5),
    label_data_conf=LabelDataConf(source_type="ye", source_path="my_test_table"),
)

def delete_dataset(self, name: str = None, id: int = None) ‑> NoneType

해당하는 AutoML 데이터셋을 삭제합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

id: (int) 데이터셋 ID
name: (str) 데이터셋 이름

def get_dataset(self, name: str = None, id: int = None) ‑> Dataset

해당하는 AutoML 데이텨셋을 가져옵니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

id: (int) 데이터셋 ID
name: (str) 데이터셋 이름

Returns

Dataset

def list_datasets(self, **kwargs) ‑> List[Dataset]

AutoML 데이터셋 리스트를 가져옵니다.

Args

kwargs: (optional) (dict) 쿼리 조건
- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
- query: (str) 검색 문자
- page: (int) 페이지 번호

Returns

list(Dataset)

def list_features(self, name: str = None, id: int = None) ‑> List[Dict[str, Any]]

AutoML 데이터셋에 추가된 피쳐 리스트를 조회합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

id: (int) 데이터셋 ID
name: (str) 데이터셋 이름

def update_column_specs(self, name: str = None, id: int = None, column_specs=None) ‑> NoneType

데이터셋의 컬럼 스펙을 업데이트 합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

id: (int) 데이터셋 ID
name: (str) 데이터셋 이름
column_spec: (dict) 컬럼 스펙 (ex. {"feature_name": {"include": False}})
include: (bool) 학습 포함 여부
type_code: (str) 컬럼 타입 ("FLOAT64" | "CATEGORY")

class FeatureStoreConf (enabled: bool, feature_group_id_list: List[int] = None, n_label_ratio: float = 1.0)

AutoML 데이터셋의 피쳐 스토어 설정입니다.

Args

enabled: (bool) 피쳐 스토어 사용 유무
feature_group_id_list: (optional) (list(int)) 사용하고자 하는 피쳐 그룹의 ID 리스트
n_label_ratio: (optional) (float) N 레이블 샘플링 비율 (스코어 기반 고객 타겟팅 문제만 지원, 기본값: 1.0)

Example

config = FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5)

class LabelDataConf (source_type: str, source_path: str, reverse: bool = False)

AutoML 데이터셋의 레이블 데이터 설정입니다.

Args

source_type: (str) 레이블 데이터 타입 (file | table).
source_path: (str) 레이블 데이터의 이름 또는 테이블 경로.
file: 파일 이름 (ex. test.csv)
table: BigQuery 테이블의 경로 (ex. sktaic-datahub.x1234567.test)

Example

config = LabelDataConf(source_type="table", source_path="sktaic-datahub.x1234567.test")

class ProblemType (value, names=None, *, module=None, qualname=None, type=None, start=1)

AutoML 데이터셋의 문제 타입입니다.

SCORE: 스코어 기반 고객 타겟팅
CLASSIFICATION: 분류
REGRESSION: 회귀

Ancestors

enum.Enum

Class variables

var CLASSIFICATION
var REGRESSION
var SCORE

Sub-modules

Classes

Attributes

Methods

Returns

Args

Returns

Example

Ancestors

Methods

Args

Returns

Example

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Returns

Args

Returns

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args

Example

Args

Example

Ancestors

Class variables

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.

Args: `id` 또는 `name` 중 한 개 이상의 값이 반드시 전달되어야 합니다.