로그인

  • 잠깐! 비회원구입을 원하시나요?!
  • 부크크의 회원가입은 다른 곳의 비회원 구매보다 간단합니다.

회원가입

파이썬 데이터 전처리 및 탐색 라이브러리

0개

|

후기 0

  • 배송일 : 영업일 기준 2-8일 내로 배송됩니다.
  • 환불규정 : 주문 후 인쇄되므로 배송이 준비된 후에는 환불이 불가능합니다
분야기타 > 과학/IT
작가허진경
출판형태종이책
페이지수 406 Pages
인쇄컬러표지-컬러, 내지-흑백
판형 B5
출판사부크크
ISBN 9791137257726
출판일2021.09.28
총 상품 금액 29,400

저자 소개

허진경

번역자 소개 (번역서인 경우 입력해주세요.)

목차

1장. N차원 배열 다루기 - Numpy로 차원을 넘나들다.
1절. 넘파이 패키지
1.1. 넘파이 소개
1.2. ndarray 속성
1.3. dtype의 이해
2절. 넘파이 배열
2.1. array()로 넘파이 배열 만들기
2.2. 기본값이 있는 배열 만들기
2.3. 연속된 값을 갖는 배열 만들기
1) arange()
2) linspace()
2.4. 배열의 모양 변경하기
1) ravel(), reshape(), T
2) resize()
3) shape
2.5. 배열 인쇄
2.6. 기본 조작
1) 배열의 요소별 연산
2) 행렬의 곱
3) 복합대입연산자의 사용
4) 배열 요소의 집계
5) 축을 지정한 집계
2.7. 범용함수
1) 범용함수
2) 출력 인수의 사용
3) 출력 인수의 사용과 메모리 사용량 및 실행시간 비교
4) 넘파이의 범용함수들
2.8. 브로드캐스팅
1) 배열과 스칼라 연산
2) 브로드캐스팅 규칙
3절. 배열 합치기/나누기
3.1. 인덱싱과 슬라이싱
1) 인덱싱
2) 슬라이싱
3) 다차원 배열 인덱싱
4) 다차원 배열 슬라이싱
5) 축 인덱스의 생략
6) 다차원 배열 반복

3.2. 두 배열을 쌓아 합치기
1) vstack(), hstack(), dstack()
2) column_stack()
3) newaxis 속성
4) row_stack()
5) stack()
3.3. r_, c_
3.4. 하나의 배열을 여러 개의 작은 배열로 나누기
1) vsplit(), hsplit(), dsplit()
2) hsplit()과 axis=1
3) 인덱스 목록으로 나누기
4) split()
5) array_split()
4절. 복사와 뷰
4.1. 모두 복사 안 함
4.2. 얕은 복사 뷰(view)
4.3. 깊은 복사 카피(copy)
5절. 고급 인덱싱
5.1. 인덱스 배열로 인덱싱
5.2. 다차원 인덱싱
5.3. 인덱싱을 이용한 값 변경
5.4. 논리 배열을 이용한 인덱싱
5.5. ix_() 함수
5.6. 리듀스 함수의 구현
6절. 선형대수학
6.1. 배열 조작
6.2. 선형 연립방정식 풀이
7절. 유용한 정보 및 팁
7.1. shape 자동 지정하기
7.2. 히스토그램
8절. 연습문제
8.1. 실습형
1) 문제
2) 정답 및 풀이
8.2. 문제 풀이형
1) 문제
2) 정답 및 풀이

2장. 데이터프레임과 시리즈 - 데이터 분석을 위한 필수 패키지 Pandas
1절. 판다스 패키지
1.1. 판다스 소개
1.2. 판다스 장점
1.3. 판다스 기본 API
1.4. 판다스 디스플레이 옵션
2절. 데이터프레임 만들기
2.1. 딕셔너리를 이용해서 데이터프레임 만들기
2.2. 리스트를 이용해 데이터프레임 만들기
2.3. iris 데이터셋
1) Scikit-learn 패키지의 iris 데이터셋
2) statsmodels 패키지의 iris 데이터셋
3) seaborn 패키지의 iris 데이터셋
2.4. to_csv()
2.5. read_csv()
1) csv 파일 읽기
2) 행 제외하기
3) 주석행 제외하기
3절. 이름 지정하기
3.1. 열 이름 지정하기
3.2. 행 이름 지정하기
3.3. 레벨 이름 지정하기
4절. 부분 데이터 조회
4.1. 단일 열 조회
4.2. loc를 이용한 이름으로 조회
4.3. iloc를 이용한 인덱스로 조회
4.4. 조건으로 조회하기
5절. 데이터 삭제 및 추가
5.1. 데이터프레임의 요소 삭제
1) 행 삭제하기
2) 열 삭제하기
3) 열 삭제와 재할당
5.2. 데이터프레임의 요소 추가
1) 열 추가
2) 시리즈를 이용한 열 추가
3) 딕셔너리로 행 추가
4) 시리즈를 이용한 리스트 데이터의 행 추가
6절. 데이터프레임 병합과 연결
6.1. merge()를 이용한 데이터프레임 병합
6.2. concat()을 이용한 데이터프레임 연결
6.3. concat()과 reset_index()
7절. 정렬
7.1. 행 이름으로 정렬
7.2. 열 이름으로 열 순서 바꾸기
7.3. 값으로 정렬
7.4. 레벨로 정렬
8절. 기초 통계 분석
8.1. 최솟값, 최댓값, 평균, 중위수
8.2. 분산, 표준편차
8.3. 공분산, 상관계수
8.4. 요약 통계량
1) 기본 요약 통계량
2) include와 exclude
9절. 데이터 그룹화 및 집계
9.1. Group by
1) 단일 열로 그룹화
2) 다중 열로 그룹화
9.2. 그룹간 반복 처리
9.3. 데이터프레임 그룹 인덱싱
10절. 데이터 구조 변경
10.1. 와이드 포맷과 롱 포맷
1) 와이드 포맷
2) 롱 포맷
3) 샘플 데이터
10.2. melt를 이용한 언피벗팅
10.3. pivot_table을 이용한 피벗팅
11절. 데이터프레임에 함수 적용하기
11.1. apply
11.2. applymap
11.3. map
12절. 결측치 처리 및 변경하기
12.1. 실습을 위한 데이터
12.2. dropna

12.3. fillna
12.4. replace
12.5. where
12.6. astype
13절. 시리즈
13.1. 시리즈 만들기
1) 리스트로 시리즈 객체 생성
2) 딕셔너리로 시리즈 객체 생성
13.2. 시리즈 데이터 삭제하기
13.3. 시리즈에서 요소 추출하기
13.4. 시리즈 데이터의 기본 연산
13.5. 시리즈 데이터 정렬
13.6. 시리즈를 데이터프레임으로
14절. 시각화
15절. 연습문제
15.1. 실습형
1) 문제
2) 정답 및 풀이

3장. 데이터 시각화 - 가까이 하기엔 먼 숫자, 곁에 두고 싶은 그래프
1절. 시각화 개요
1.1. 시각화를 통한 정보 전달
1.2. 시각화 라이브러리
2절. Matplotlib을 이용한 시각화
2.1. 패키지 임포트 및 기본 설정
2.2. 그래프 객체
2.3. 그래프 영역 나누기
1) subplot() 함수로 서브플롯 추가
2) subplots() 함수로 서브플롯 집합 추가
2.4. 그래프 그리기
1) pyplot 함수들
2) plot()
3) scatter()
4) bar(), barh(), axvline(), axhline()
5) hist()
6) boxplot(), violineplot()
7) fill(), fill_between(), fill_betweenx()
2.5. 그래프 커스터마이징
1) linestyle, linewidth
2) text(), annotate()
3) 수학 기호
4) 축과 눈금
5) 축 공유
6) 그래프 제목과 축 제목
7) 범례 표시
8) 사용자 정의 범례
9) 플롯 스타일 지정
10) 그래프 파라미터 설정
11) 주기표(cycler)를 이용한 스타일 지정
2.6. 그래프 저장
3절. Seaborn을 이용한 시각화
3.1. 데이터 준비하기
1) iris 데이터셋
2) titanic 데이터셋
3.2. 미적 속성 설정하기
1) 그래프 영역 생성하기
2) Seaborn 스타일 지정
3) 컨텍스트 지정
4) 컬러 팔레트
5) 스타일과 팔레트 함수들
3.3. Seaborn으로 그래프 그리기
1) Relational plots : 관계형 그래프
2) Categorical plots : 범주형 그래프
3) Distribution plots : 분포형 그래프
4) Regression plots : 회귀 그래프
5) Matrix plots : 행렬 그래프
3.4. Multi-plot grids : 다중 그래프를 위한 그리드
1) FacetGrid
2) PairGrid
3) JointGrid
3.5. 그래프 커스터마이징과 저장
4절. 연습문제
4.1. 실습형

4장. 웹 데이터 수집 - 웹 데이터는 나의 것, 웹 데이터 크롤링
1절. 뷰티풀솝과 파서
1.1. Beautiful Soup
1.2. 파서 라이브러리
1.3. Selector API

1.4. DOM의 이해
1.5. CSS 선택자
1) CSS 선택자 설명을 위한 HTML 파일
2) 로컬 HTML 파일 불러오기
3) HTML 문서 파싱
4) 태그 선택자 ("element")
5) 다중(그룹) 선택자 ("selector1, selector2, selectorN")
6) 내포 선택자 ("ancestor descendant")
7) 자식 선택자 ("parent > child")
8) 클래스 선택자 (".class")
9) 아이디(id) 선택자 ("#id")
10) 속성 선택자 [name="value"]
1.6. HTTP 요청과 응답
1) HTTP Request와 HTTP Response
2) HTTP 요청 방식
3) HTTP GET Method
2절. requests를 이용한 웹 데이터 수집
2.1. requests 모듈
2.2. GET 요청
2.3. 응답 객체
1) 상태 코드
2) Content
3) 응답 헤더
2.4. 요청 파라미터 사용하기
2.5. 요청 헤더
2.6. 다른 HTTP 요청 방법
2.7. 메시지 본문
2.8. 요청 검사하기
2.9. 인증
2.10. SSL 인증서 확인
2.11. 성능
1) 타임아웃
2) 세션 객체
3) 재시도 제한
2.12. 웹 데이터 수집 예
1) 환율 정보 가져오기
2) 네이버 영화 랭킹 출력하기
3절. Selenium을 이용한 웹 데이터 수집
3.1. 셀레니움
1) 셀레니움 파이썬 바인딩
2) 웹드라이버
3.2. 셀레니움 시작하기
3.3. 문서 내에서 요소 찾기(Locating Elements)
1) id 속성으로 찾기

2) name 속성으로 찾기
3) XPath로 찾기
4) 링크 텍스트로 찾기
5) 태그 이름으로 찾기
6) class 속성으로 찾기
7) CSS 선택자로 찾기
8) By 클래스의 사용
3.4. 페이지와 상호작요하기
1) <input> 요소와 상호작용하기
2) <select> 요소와 상호작용하기
3) 양식 전송하기
4) 드래그 앤 드롭
5) 윈도우와 프레임 이동
6) 팝업 창
7) 브라우저 히스토리
8) 쿠키
3.5. 대기(Waits)
1) 암시적 대기
2) 명시적 대기
3) 일반적인 조건
4) 사용자 정의 대기 조건
3.6. WebDriver API
3.7. 유튜브 댓글 수집하기
4절. 연습문제
4.1. 실습형
1) 문제
2) 정답 및 풀이
4.2. 문제 풀이형
1) 문제
2) 정답 및 풀이

5장. 텍스트 마이닝 - 자연어에서 의미 있는 정보를 찾자.
1절. 텍스트 마이닝
1.1. 텍스트 마이닝 개요
1.2. 자연어처리와 텍스트 마이닝
2절. NLTK 자연어처리기
2.1. 말뭉치(Corpus)
1) Penn Treebank 데이터
2) book 데이터
3) gutenberg 데이터
2.2. 토큰 생성(Tokenizing)

2.3. 형태소 분석
1) 어근 추출(Stemming)
2) 원형 복원(Lemmatizing)
3) 품사 태깅(POS Tagging)
2.4. Text 클래스
2.5. FreqDist 클래스
2.6. 유튜브 댓글 분석하기
3절. KoNLPy 한글 자연어처리기
3.1. 자연어처리
3.2. 형태소
3.3. 한글 형태소 분석
3.4. KoNLPy 패키지
1) 윈도우에 KoNLPy 패키지 설치하기
2) JDK 설치
3) JAVA_HOME 환경변수 설정
4) JPype1 패키지 설치 오류 해결
3.5. 형태소 분석
3.6. 품사 태깅(POS Tagging)
1) Hannanum
2) Kkma
3) Komoran
3.7. 말뭉치(Corpus)
4절. 워드클라우드
4.1. 한국 법률 말뭉치를 이용한 워드클라우드 표시하기
4.2. 한글 처리
4.3. 전체 데이터를 이용한 워드클라우드 생성
4.4. 불용어 사전 추가
4.5. 마스킹
4.6. 색상 변경
4.7. 단어 빈도수 계산
5절. 연습문제
5.1. 실습형
1) 문제
2) 정답 및 풀이

6장. 연관분석 - 오렌지주스를 구매하는 사람은 와인을 구매할까?
1절. 연관분석 개요
1.1. 연관분석

1.2. 연관분석 평가
2절. 트랜잭션 데이터
2.1. CSV 파일로부터 트랜잭션 데이터 생성
3절. 연관분석
3.1. 연관 규칙 생성
3.2. 연관 규칙 조회
3.3. 연관 규칙 평가
1) 오렌지주스를 구매한 사람은 와인을 구매할까?
4절. 뉴스 기사 연관분석 실습
4.1. 뉴스 RSS 서버에서 링크 주소 가져오기
4.2. KoNLPy 패키지 설치
1) KoNLPy 패키지 설치
2) JDK 설치
3) JAVA_HOME 환경변수 설정
4.3. 기사 수집 및 형태소 분석
4.4. 연관분석
4.5. 연관분석 탐색
5절. 연습문제
5.1. 실습형
1) 문제
2) 정답 및 풀이

도서 정보

이 책은 파이썬을 이용해서 데이터를 전처리하고 탐색 분석을 위한 라이브러리를 설명합니다.
다차원배열을 다루는 Numpy, 데이터프레임과 시리즈를 다루는 Pandas는 데이터 전처리 및 탐색을 위한 라이브러리입니다.
데이터 시각화를 위한 Matplotlib과 Seaborn을 이용해서 분석 결과를 더 이해하기 쉽게 시각화 하세요.
웹 데이터 수집을 위한 requests, Selenium 라이브러리로 인터넷상의 데이터를 수집해서 데이터 분석에 사용할 수 있습니다.
NLTK, KoNLPy는 자연어처리를 위한 라이브러리입니다.
수집한 웹데이터를 자연어처리하고 연관분석까지 시도해 보세요. 마지막 장은 연관분석에 대해 설명합니다.