로그인

  • 잠깐! 비회원구입을 원하시나요?!
  • 부크크의 회원가입은 다른 곳의 비회원 구매보다 간단합니다.

회원가입

머신러닝을 이용한 데이터 분석

0개

|

후기 0

  • 배송일 : 영업일 기준 2-8일 내로 배송됩니다.
  • 환불규정 : 주문 후 인쇄되므로 배송이 준비된 후에는 환불이 불가능합니다
분야기타 > 과학/IT
작가허진경
출판형태종이책
페이지수 446 Pages
인쇄컬러표지-컬러, 내지-흑백
판형 B5
출판사부크크
ISBN 9791137252868
출판일2021.08.09
총 상품 금액 35,000

저자 소개

허진경

http://coderby.com

번역자 소개 (번역서인 경우 입력해주세요.)

목차

1절. 머신러닝 개요
1.1. 데이터 분석에서 가장 중요한 것은?
1.2. 데이터 분석을 잘 하려면?
1.3. 머신러닝 개념
1.4. 지도학습과 비지도학습
1.5. 데이터 분석 단계에서 머신러닝
1.6. Scikit-learn 패키지
2절. 데이터 탐색
2.1. 통계표
1) 통계 요약
2) 왜도와 첨도
3) 공분산과 상관계수
4) 기초통계량
2.2. 데이터 EDA 가속화
1) plot()
2) plot_correlation()
3) plot_missing()
2.3. 주피터 노트북 확장팩
3절. 데이터 전처리
3.1. 표준화(Standardization)
1) 표준화 함수들
2) scale()
3) robust_scale()
4) minmax_scale()
5) maxabs_scale()
6) 표준화 클래스
7) StandardScaler
3.2. 인코딩(Encoding)
1) 레이블 인코딩
2) 원-핫 인코딩
3) 평균값 인코딩(Mean Encoding)
3.3. 결측값 처리
1) 평균으로 채우기
2) 중앙값으로 채우기
3) 최빈값으로 채우기
3.4. 판다스를 이용한 결측치 처리
4절. 단순 데이터 분리
4.1. random.sample()
4.2. pandas.DataFrame.sample()
4.3. sklearn.model_selection.train_test_split()
4.4. 층화추출법
5절. 모형 생성, 예측, 평가
5.1. 모형 생성
5.2. 예측
5.3. 모형 평가
6절. 연습문제
6.1. 문제 풀이형
1) 문제
2) 정답
2장. 회귀분석 - 난 평균으로 돌아갈 거야~
1절. 회귀분석 개요
1.1. 회귀분석 정의
1.2. 회귀분석을 위한 전제 사항
1.3. 상관분석, 단순회귀분석, 다중회귀분석
2절. 분포와 추론
2.1. 표본과 실험
1) 모집단과 표본
2) 실험
2.2. 분포
1) 이산형 확률분포
2) 연속형 확률분포
2.3. 추정과 가설검정
1) 추정
2) 가설검정
3) 유의수준과 유의확률
3절. 상관분석
3.1. 피어슨 상관계수
3.2. 스피어만 상관계수
3.3. 상관계수 시각화
4절. 단순 회귀분석
4.1. 행렬을 이용한 회귀모형 구하기
4.2. 회귀모형과 예측
1) linregress()
2) polyfit()
5절. 포뮬러를 이용한 회귀식
6절. 정규화 선형회귀
6.1. 정규화 선형회귀모형
1) Lasso 회귀모형
2) Ridge 회귀모형
3) Elastic Net 회귀모형
6.2. statsmodels의 정규화 회귀모형
1) 정규화를 하지 않는 회귀모형
2) Lasso 회귀모형
3) Ridge 회귀모형
4) Elastic Net 회귀모형
6.3. Scikit-Learn의 정규화 회귀모형
1) LinearRegression을 이용한 일반 회귀모형
2) Lasso 회귀모형
3) Ridge 회귀모형
4) ElasticNet 회귀모형
6.4. Ridge 모형과 Lasso 모형의 차이
7절. 다중회귀분석
7.1. 다중 회귀의 변수 추정
7.2. 다중회귀분석 예
1) 데이터 준비하기
2) 회귀모형 만들기
3) 훈련 데이터셋을 이용한 평가
4) 예측하기
5) 검증 데이터셋을 이용한 평가
7.3. 다중회귀식의 추정방법
7.4. 상관계수와 결정계수
7.5. 회귀분석의 검증 요소들
1) 잔차의 독립성
2) 잔차의 정규성
7.6. 이상치 탐색
7.7. 다중공선성
1) 분산 확대 인자(VIF)
2) 공차한계
3) 다중공선성 의심 상황
4) VIF 확인하기
8절. 회귀모형 성능평가
8.1. 사이킷런의 모형 평가 방법
8.2. 회귀모형 평가를 위한 scoring 속성
8.3. K-폴드 교차 검증
8.4. 회귀모형 평가 함수
1) mean_squared_error
2) mean_absolute_error
3) explained_variance_score
4) r2_score
9절. 연습문제
9.1. 실습형
1) 문제
2) 정답
3장. 분류분석 - 이것은 콩! 저것은 돌!1
1절. 분류분석 개요
2절. 분류 모형
2.1. 분류분석 모형의 종류
2.2. 확률적 모형
2.3. 확률적 생성모형
1) QDA(이차 판별 분석)
2) 나이브베이즈 모형
2.4. 확률적 판별모형
1) 로지스틱회귀모형
2) 의사결정나무 모형
2.5. 판별함수 기반 모형
1) 퍼셉트론
2) 커널 SVM
2.6. 다중 클래스 분류
1) OvO(One-Vs-One)
2) OvR(One-vs-the-Rest)
3절. 인공신경망
3.1. 인공지능의 역사
3.2. 인공신경망에서의 뉴런
3.3. 활성화 함수
3.4. 인공신경망의 구조
3.5. 다층신경망
3.6. 인공신경만 모형의 파라미터
3.7. MLPClassifier
3.8. Scikit-learn MLPClassifier vs. Tensorflow DNNClassifier
4절. 분류 모형 성능평가
4.1. 사이킷런의 모형 평가 방법
4.2. 분류모형 평가를 위한 scoring 속성
4.3. Scikit-Learn에서 지원하는 성능평가 함수
4.4. Confusion Matirx 분류 결과표
1) 분류 결과표 Confusion Matrix
2) 이진 분류 결과표 Binary Confusion Matrix
4.5. 분류표 API
4.6. 혼동행렬을 이용한 평가 방법
1) Accuracy(정확도)
2) Precision(정밀도)
3) Recall(재현율)
4) Specificity(특이도)
5) Fall-Out(위양성율)
6) F(beta) score
7) classification_report
4.7. ROC와 AUC
1) ROC 커브
2) ROC 커브를 이용한 성능 비교
3) AUC(Area Under the Curve)
4) 다중 클래스의 ROC 커브
4.8. 분류 모형의 성능 비교
5절. 연습문제
5.1. 실습형
1) 문제
2) 정답
4장. 군집분석 - 모여라~ 모여라~ 모여라~1
1절. 군집 모델
1.1. 군집 모델
1) 중심 기반 클러스터링
2) 연결 기반 클러스터링
3) 밀도 기반 클러스터링
1.2. 싸이킷런의 군집 모델
2절. K-Means 클러스터링
2.1. sklearn.cluster.KMeans
2.2. K-Means 클러스터링
2.3. 회차별 군집 확인하기
2.4. iris 데이터 군집분석하기
2.5. K-Means 클러스터링의 한계와 극복
1) 크기가 다를 경우
2) 밀도가 다를 경우
3) 비 구형인 경우
3절. Hierarchical 클러스터링
3.1. 계층적 분석 방법
3.2. 계층 분석을 통한 군집의 수 결정
4절. DBSCAN 클러스터링
5절. 군집모형 성능평가
5.1. 사이킷런의 모형 평가 방법
5.2. 군집모형 평가를 위한 scoring 속성
5.3. 클러스터의 개수 및 소속을 알고 있는 경우
1) Adjusted Rand Index
2) Adjusted Mutual Information
3) Fowlkes-Mallows index
4) homogeneity, completeness, v-measure
5.4. 클러스터의 개수 및 소속을 모르고 있는 경우
1) 응집도와 분리도
2) 실루엣 계수(Silhouette Coefficient)
3) WSS와 엘보우
4) Calinski Harabasz Score
6절. 연습문제
6.1. 실습형
1) 문제
2) 정답
5장. 머신러닝 모형 최적화 - 더 빠르게, 더 정확하게~2
1절. 변수 선택과 차원 축소
1.1. 주성분 분석
1) 주성분 분석이란?
2) 주성분 계산
3) 주성분 분석의 활용
4) iris 데이터 주성분 분석 후 분류하기
5) PCA를 이용한 iris 데이터 주성분 분석
6) PCA를 이용해서 얼굴 주성분 분석하기
1.2. 특이값 분해
1) numpy.linalg.svd()
2) 특이값 분해의 계산
3) iris 데이터 특이값 분해
4) 좀 더 쉬운 방법
1.3. 분류모형의 변수 선택
1) 데이터 불러오기
2) 상관관계 확인하기
3) 분류모형의 Feature Importance
4) RFE(Recursive Feature Elimination) 방식
1.4. 회귀모형의 변수 선택
1) 데이터 표준화
2) 회귀계수(Logistic Regression)
1.5. SelectKBest
1.6. 평균값 인코딩의 과적합 해결방법
1) Smoothing
2) CV Loop
3) Expanding mean
2절. 파라미터 탐색
2.1. validation_curve
2.2. GridSearchCV
2.3. ParameterGrid
2.4. 병렬 처리
2.5. Pipeline과 GridSearchCV를 이용한 차원감소
3절. 자료 불균형 처리
3.1. 99% vs. 1% 샘플링
3.2. 언더샘플링과 오버샘플링
3.3. SMOTE를 이용한 오버샘플링
1) 전체 오버샘플링 후 데이터셋 분리
2) 계층적 샘플링 후 훈련 데이터셋 오버샘플링
3.4. 가중치 제어
4절. 앙상블 모형
4.1. 부트스트래핑과 0.632규칙
4.2. 배깅
1) Bagging
2) Random Forest
4.3. 부스팅
1) AdaBoost
2) Gradient Boosting
3) XGBoost
4) LightGBM
5) 앙상블 파라미터 탐색
4.4. 최적 모형 탐색
1) RandomForest
2) SVM
3) MLPClassifier
4) XGBoost
5) LightGBM
4.5. 투표를 이용한 앙상블
1) VotingClassifier
2) hard voting과 soft voting
3) 투표에 의한 앙상블 모형 만들기
5절. 연습문제
5.1. 실습형
1) 문제
2) 정답
6장. 부정탐지 분석 프로젝트3
1절. 프로젝트 개요
1.1. 프로젝트에 사용하는 파일
1.2. 요구사항
1) 만들어야 할 파일
1.3. 평가 방법
2절. EDA
2.1. 라이브러리 로드 및 기본 설정
2.2. CUST_DATA
1) 기본 정보 탐색
2) 결측치 분포 확인
3) 변수별 정보 확인
2.3. CLAIM_DATA
1) 기본정보 확인
2) 결측치 분포 확인
3) 변수별 정보 확인
3절. Feature Engineering
3.1. CUST_DATA 전처리
1) 나이 관련 변수(AGE, LTBN_CHLD_AGE)를 연령대로 변환
2) OCCP_GRP2 변수 삭제
3) OCCP_GRP1 변수에서 코드번호 삭제
4) MATE_OCCP_GRP_2 변수 삭제
5) MATE_OCCP_GRP_1 변수에서 코드번호 삭제
6) Date 관련 변수 삭제
7) NULL 값 확인
8) NULL값이 많은 MINCRDT, MAXCRDT열 삭제
9) 개인소득 결측치 처리
10) 가구 소득 결측치 처리
11) 기타 변수 결측치 처리
12) 중간 데이터 저장
13) 분석에 유의미하지 않다고 판단하는 열(FP_CAREER) DROP
14) 카테고리 변수 원-핫 인코딩
15) 원-핫인코딩된 데이터 저장
3.2. CLAIM_DATA로부터 파생변수 만들기
1) 결측치가 많은 변수 삭제 및 날짜 관련 변수 삭제
2) HOSP_DAYS : 고객별 평균 입원 일수
3) HEED_HOSP : 고객별 유의병원 출입여부
4) CLAIM_COUNT : 고객별 청구횟수
5) DOC_SIU_RATIO : 의사별 사기비율
6) HOSP_SIU_RATIO : 병원별 사기비율
7) HOSP_DOC_SIU : 의사 사기 비율 * 병원 사기 비율
8) ACCI_RATIO_N : 각 ACCI_DVSN(1,2,3) / 청구횟수
9) 사고원인(ACCI_DVSN)과 청구코드(DMND_RESN_CODE)를 이용한 파생변수
3.3. 최종 데이터프레임 만들기
1) 표준화
2) 전처리 완료한 데이터 저장
4절. Modeling
4.1. 데이터 샘플링
1) TRAIN / TEST / VAL(제출용) 데이터 분리
2) SMOTE를 이용한 오버샘플링
4.2. 분류모형 생성 및 평가
1) RandomForestClassifier
2) MLPClassifier
3) SVC
4) xgboost
5) lightgbm
6) catboost
5절. Ensemble
6절. 결과 파일 생성
6.1. 제출 파일
7절. 추가 제안
7.1. 변수 중요도
7.2. 변수 중요도 시각화
7.3. 상관관계 히트맵
7장. 데이터셋3
1절. Scikit-learn 데이터셋
1.1. 데이터셋 유형
1.2. Iris Plants 데이터셋
1.3. California housing 데이터셋
1.4. Wine 데이터셋
1.5. Breast Cancer 진단 데이터셋
1.6. Digits 데이터셋
2절. Statsmodels 데이터셋
2.1. statsmodels 데이터셋 객체의 속성
2.2. Edgar Anderson's Iris Data
2.3. Survival of passengers on the Titanic
2.4. Monthly Airline Passenger Numbers 1949-1960
2.5. Annual Precipitation in US Cities
2.6. Luteinizing Hormone in Blood Samples
2.7. Monthly Deaths from Lung Diseases in the UK
3절. 분석용 가상 데이터셋
3.1. make_classification()
3.2. make_blobs()
3.3. make_gaussian_quantiles()
4절. 기타 데이터셋
4.1. winequality-red.csv와 winequality-white.csv
5절. pyspark를 이용한 HDFS 데이터 분류
5.1. 데이터 준비하기
1) 하둡 분산파일 시스템에 디렉토리 생성 및 파일 업로드
2) pyspark에서 HDFS 파일 불러오기
5.2. 전처리 및 데이터 분리
1) 레이블 인코딩
2) 학습용 데이터셋과 검증용 데이터셋 분리
5.3. 모형 생성 및 예측
1) 분류모형 생성
2) 예측 및 평가

도서 정보

이 책은 머신러닝을 이용한 데이터 분석에 대해 설명합니다. 언어는 파이썬을 사용합니다.

1장은 데이터 전처리와 머신러닝을 이용해서 데이터를 분석하는 기본 흐름을 설명합니다.

2장은 회귀분석에 대해 설명합니다. 상관분석과 단순 회귀분석, 정규화 선형회귀와 다중회귀분석에 대해 설명하고 회귀 모형의 성능을 평가하는 방법을 설명합니다.

3장은 분류분석에 대해 설명합니다. 기본 분류 모형알고리즘과 분류 모형의 성능을 평가하는 방법을 설명합니다. 특히 이 책은 인공신경망 알고리즘에 대해서도 자세하게 설명합니다.

4장은 군집분석에 대해 설명합니다. 거리기반 군집, 계층형 군집, 밀도 기반 군집을 설명하고 군집모형의 성능 평가 방법을 설명합니다.

5장은 머신러닝 모형을 최적화하는 방법들을 설명합니다. 변수 선택과 차원 축소, 파라미터 탐색, 자료 불균형 처리 그리고 앙상블 모형을 설명합니다.

6장은 프로젝트를 통해 머신러닝을 이용한 데이터 분류 예측의 사례를 설명합니다.

7장은 머신러닝에 자주 사용하는 데이터셋들에 대해 설명합니다.