Module sktmls.datasets.dataset
Classes
class Dataset (**kwargs)
-
AutoML 학습 데이터셋 클래스.
Attributes
- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
- status: (str) 데이터셋 상태
- problem_type: (
ProblemType
) 문제 타입 - feature_store_conf: (
FeatureStoreConf
) 피쳐 스토어 설정값 - label_data_conf: (
LabelDataConf
) 레이블 데이터 설정값 - created_at: (datetime.datetime) 데이터셋 생성 시점
- updated_at: (datetime.datetime) 데이터셋 생성 완료 또는 갱신 시점
Methods
def get_error(self) ‑> str
-
데이터셋 생성 시 에러 발생 원인을 조회한다. (데이터셋 생성 실패 시에만 값 존재)
Returns
str
class DatasetClient (env: MLSENV = None, runtime_env: MLSRuntimeENV = None, username: str = None, password: str = None)
-
AutoML 데이터셋 관련 기능을 제공하는 클라이언트 클래스입니다.
Args
- env: (
MLSENV
) 접근할 MLS 환경 (MLSENV.DEV
|MLSENV.STG
|MLSENV.PRD
) (기본값:MLSENV.STG
) - runtime_env: (
MLSRuntimeENV
) 클라이언트가 실행되는 환경 (MLSRuntimeENV.YE
|MLSRuntimeENV.EDD
|MLSRuntimeENV.LOCAL
) (기본값:MLSRuntimeENV.LOCAL
) - username: (str) MLS 계정명 (기본값: $MLS_USERNAME)
- password: (str) MLS 계정 비밀번호 (기본값: $MLS_PASSWORD)
Returns
Example
client = DatasetClient(env=MLSENV.STG, runtime_env=MLSRuntimeENV.YE, username="mls_account", password="mls_password")
Ancestors
Methods
def create_dataset(self, name: str, problem_type: ProblemType, feature_store_conf: FeatureStoreConf, label_data_conf: LabelDataConf) ‑> Dataset
-
새 AutoML 데이터셋을 생성합니다.
Args
- name: (str) 데이터셋 이름
- problem_type: (
ProblemType
) 문제 타입 - feature_store_conf: (
FeatureStoreConf
) 피쳐 스토어 설정 - label_data_conf: (
LabelDataConf
) 레이블 데이터 설정
Returns
Example
client = DatasetClient() dataset = client.create_dataset( name="my_dataset", problem_type=ProblemType.SCORE, feature_store_conf=FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5), label_data_conf=LabelDataConf(source_type="ye", source_path="my_test_table"), )
def delete_dataset(self, name: str = None, id: int = None) ‑> NoneType
-
해당하는 AutoML 데이터셋을 삭제합니다.
Args:
id
또는name
중 한 개 이상의 값이 반드시 전달되어야 합니다.- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
def get_dataset(self, name: str = None, id: int = None) ‑> Dataset
-
해당하는 AutoML 데이텨셋을 가져옵니다.
Args:
id
또는name
중 한 개 이상의 값이 반드시 전달되어야 합니다.- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
Returns
def list_datasets(self, **kwargs) ‑> List[Dataset]
-
AutoML 데이터셋 리스트를 가져옵니다.
Args
- kwargs: (optional) (dict) 쿼리 조건
- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
- query: (str) 검색 문자
- page: (int) 페이지 번호
Returns
list(
Dataset
) - kwargs: (optional) (dict) 쿼리 조건
def list_features(self, name: str = None, id: int = None) ‑> List[Dict[str, Any]]
-
AutoML 데이터셋에 추가된 피쳐 리스트를 조회합니다.
Args:
id
또는name
중 한 개 이상의 값이 반드시 전달되어야 합니다.- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
def update_column_specs(self, name: str = None, id: int = None, column_specs=None) ‑> NoneType
-
데이터셋의 컬럼 스펙을 업데이트 합니다.
Args:
id
또는name
중 한 개 이상의 값이 반드시 전달되어야 합니다.- id: (int) 데이터셋 ID
- name: (str) 데이터셋 이름
- column_spec: (dict) 컬럼 스펙 (ex. {"feature_name": {"include": False}})
- include: (bool) 학습 포함 여부
- type_code: (str) 컬럼 타입 ("FLOAT64" | "CATEGORY")
- env: (
class DatasetError (*args, **kwargs)
-
Common base class for all non-exit exceptions.
AutoML 데이터셋 에러.
Ancestors
- builtins.Exception
- builtins.BaseException
class FeatureStoreConf (enabled: bool, feature_group_id_list: List[int] = None, n_label_ratio: float = 1.0)
-
AutoML 데이터셋의 피쳐 스토어 설정입니다.
Args
- enabled: (bool) 피쳐 스토어 사용 유무
- feature_group_id_list: (optional) (list(int)) 사용하고자 하는 피쳐 그룹의 ID 리스트
- n_label_ratio: (optional) (float) N 레이블 샘플링 비율 (스코어 기반 고객 타겟팅 문제만 지원, 기본값: 1.0)
Example
config = FeatureStoreConf(enabled=True, feature_group_id_list=[1, 2, 3], n_label_ratio=1.5)
class LabelDataConf (source_type: str, source_path: str, reverse: bool = False)
-
AutoML 데이터셋의 레이블 데이터 설정입니다.
Args
- source_type: (str) 레이블 데이터 타입 (
file
|table
). - source_path: (str) 레이블 데이터의 이름 또는 테이블 경로.
- file: 파일 이름 (ex. test.csv)
- table: BigQuery 테이블의 경로 (ex. sktaic-datahub.x1234567.test)
Example
config = LabelDataConf(source_type="table", source_path="sktaic-datahub.x1234567.test")
- source_type: (str) 레이블 데이터 타입 (
class ProblemType (value, names=None, *, module=None, qualname=None, type=None, start=1)
-
AutoML 데이터셋의 문제 타입입니다.
- SCORE: 스코어 기반 고객 타겟팅
- CLASSIFICATION: 분류
- REGRESSION: 회귀
Ancestors
- enum.Enum
Class variables
var CLASSIFICATION
var REGRESSION
var SCORE