Module sktmls.datasets

Sub-modules

sktmls.datasets.dataset

Classes

class Dataset (**kwargs)

AutoML 학습 데이터셋 클래스.

Attributes

  • id: (int) 데이터셋 ID
  • name: (str) 데이터셋 이름
  • status: (str) 데이터셋 상태
  • problem_type: (ProblemType) 문제 타입
  • feature_store_conf: (FeatureStoreConf) 피쳐 스토어 설정값
  • label_data_conf: (LabelDataConf) 레이블 데이터 설정값
  • created_at: (datetime.datetime) 데이터셋 생성 시점
  • updated_at: (datetime.datetime) 데이터셋 생성 완료 또는 갱신 시점

Methods

def get_error(self) ‑> str

데이터셋 생성 시 에러 발생 원인을 조회한다. (데이터셋 생성 실패 시에만 값 존재)

Returns

str

class DatasetClient (env: MLSENV = None, runtime_env: MLSRuntimeENV = None, username: str = None, password: str = None)

AutoML 데이터셋 관련 기능을 제공하는 클라이언트 클래스입니다.

Args

Returns

DatasetClient

Example

client = DatasetClient(env=MLSENV.STG, runtime_env=MLSRuntimeENV.YE, username="mls_account", password="mls_password")

Ancestors

Methods

def create_dataset(self, name: str, problem_type: ProblemType, feature_store_conf: FeatureStoreConf, label_data_conf: LabelDataConf) ‑> Dataset

새 AutoML 데이터셋을 생성합니다.

Args

Returns

Dataset

Example

client = DatasetClient()
dataset = client.create_dataset(
    name="my_dataset",
    problem_type=ProblemType.SCORE,
    feature_store_conf=FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5),
    label_data_conf=LabelDataConf(source_type="ye", source_path="my_test_table"),
)
def delete_dataset(self, name: str = None, id: int = None) ‑> NoneType

해당하는 AutoML 데이터셋을 삭제합니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

  • id: (int) 데이터셋 ID
  • name: (str) 데이터셋 이름
def get_dataset(self, name: str = None, id: int = None) ‑> Dataset

해당하는 AutoML 데이텨셋을 가져옵니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

  • id: (int) 데이터셋 ID
  • name: (str) 데이터셋 이름

Returns

Dataset

def list_datasets(self, **kwargs) ‑> List[Dataset]

AutoML 데이터셋 리스트를 가져옵니다.

Args

  • kwargs: (optional) (dict) 쿼리 조건
    • id: (int) 데이터셋 ID
    • name: (str) 데이터셋 이름
    • query: (str) 검색 문자
    • page: (int) 페이지 번호

Returns

list(Dataset)

def list_features(self, name: str = None, id: int = None) ‑> List[Dict[str, Any]]

AutoML 데이터셋에 추가된 피쳐 리스트를 조회합니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

  • id: (int) 데이터셋 ID
  • name: (str) 데이터셋 이름
def update_column_specs(self, name: str = None, id: int = None, column_specs=None) ‑> NoneType

데이터셋의 컬럼 스펙을 업데이트 합니다.

Args: id 또는 name 중 한 개 이상의 값이 반드시 전달되어야 합니다.

  • id: (int) 데이터셋 ID
  • name: (str) 데이터셋 이름
  • column_spec: (dict) 컬럼 스펙 (ex. {"feature_name": {"include": False}})
  • include: (bool) 학습 포함 여부
  • type_code: (str) 컬럼 타입 ("FLOAT64" | "CATEGORY")
class FeatureStoreConf (enabled: bool, feature_group_id_list: List[int] = None, n_label_ratio: float = 1.0)

AutoML 데이터셋의 피쳐 스토어 설정입니다.

Args

  • enabled: (bool) 피쳐 스토어 사용 유무
  • feature_group_id_list: (optional) (list(int)) 사용하고자 하는 피쳐 그룹의 ID 리스트
  • n_label_ratio: (optional) (float) N 레이블 샘플링 비율 (스코어 기반 고객 타겟팅 문제만 지원, 기본값: 1.0)

Example

config = FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5)
class LabelDataConf (source_type: str, source_path: str, reverse: bool = False)

AutoML 데이터셋의 레이블 데이터 설정입니다.

Args

  • source_type: (str) 레이블 데이터 타입 (file | table).
  • source_path: (str) 레이블 데이터의 이름 또는 테이블 경로.
  • file: 파일 이름 (ex. test.csv)
  • table: BigQuery 테이블의 경로 (ex. sktaic-datahub.x1234567.test)

Example

config = LabelDataConf(source_type="table", source_path="sktaic-datahub.x1234567.test")
class ProblemType (value, names=None, *, module=None, qualname=None, type=None, start=1)

AutoML 데이터셋의 문제 타입입니다.

  • SCORE: 스코어 기반 고객 타겟팅
  • CLASSIFICATION: 분류
  • REGRESSION: 회귀

Ancestors

  • enum.Enum

Class variables

var CLASSIFICATION
var REGRESSION
var SCORE