(리뷰)파이썬 라이브러리를 활용한 텍스트

반응형

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

책제목 : 파이썬 라이브러리를 활용한 텍스트 분석

저자 : 젠스 알브레히트, 싯다르트 라마찬드란, 크리스티앙 윙클러

옮김 : 심상진

출판년도 : 2022/10/11

 

 

책을 읽기 전에...

 

요즘 나의 관심사는 데이터 가공 처리 부분이다.

예전부터 직업 특성상 데이터 가공 관련 작업은 많이 하긴 했지만

실생활에 관련된 데이터를 가공처리하여 실생활에 활용하는 작업을 해 보진 않았다.

최근 몇몇개의 책을 통해 많이 작업해 본 것들이 웹의 데이터를 가공하여

간단한 어플을 만드는 것, 또는 주어진 데이터를 가공해서 자동입력해주는 어플들을 

예제로 만들다 보니 데이터 활용, 가공에 많은 관심이 생겼다.

특히 웹에서 제공되는 데이터는 정말 방대해서 이를 잘 가공해서 제공한다면

훨씬 편하게 양질의 데이터를 얻고 실생활에 활용할 수 있을것 같다.

텍스트를 분석하는 좀 더 고차원의 기법들이나 노하우를 배우거나,

한번 파이프라인이나 프레임워크등을 구축한다면 좀 더 효율적이고 쉽게

작업을 할수 있을것 같아 해당분야를 좀 더 배우고 싶었다.

 

책의 내용...

Chapter 01 텍스트 데이터에서 찾는 통찰

Chapter 02 API로 추출하는 텍스트 속 통찰

Chapter 03 웹사이트 스크래핑 및 데이터 추출

Chapter 04 통계 및 머신러닝을 위한 텍스트 데이터 준비

Chapter 05 특성 엔지니어링 및 구문 유사성

Chapter 06 텍스트 분류 알고리즘

Chapter 07 텍스트 분류기

Chapter 08 비지도 학습 : 토픽 모델링 및 클러스터링

Chapter 09 텍스트 요약

Chapter 10 단어 임베딩으로 의미 관계 탐색

Chapter 11 텍스트 데이터를 이용한 감정 분석

Chapter 12 지식 그래프 구축

Chapter 13 프로덕션에서 텍스트 분석 사용

 

책의 목차만 봐도 책의 내용을 대강 짐작할 수 있긴 하지만 좀 더 적어보자면...

시작은 역시 파이썬 라이브러리의 데이터 처리에서 가장 인기 있는 팬더스 라이브러리로

분석하는 것 부터 시작한다.

그 이후로는 여러가지 데이터(깃허브, 트위터, 위키 api, 웹사이트, jdt 등)를 가지고

다양한 라이브러리(리퀘스트, 뷰티풀 수프, 리더빌리티, 스크래피, 레직스, 스페이시, 사이킷 런,

넘파이, 앵커, 젠심, 트렌스포머스, FastAPI, 도커 등)를 활용하여 인기있는 API에서

데이터를추출하거나, 파이썬의 활용도가 높은 웹페이지 다운로드, 콘텐츠 추출을 등을 한다.

머신러닝 관련해서도 추가적인 관련 내용을 소개하는 챕터도 있고

이 머신러닝을 활용해서 텍스트를 요약하거나 데이터 셋 가공에서

의미적 유사성을 탐색하여 시각화 하거나 상품 리뷰에서 소비자의 감성을 식별하는 등의

활용 학습도 진행한다.

 

책을 읽고나서

이 책은 데이터 과학자와 개발자가 텍스트 분석 및 자연어 처리를 비즈니스에 쉽게

도입할 수 있도록 해 주는 활용서의 개념이다.

파이썬 생태계를 활용해서 텍스트 분석 및 머신러닝을 설명하긴 하지만

파이썬 기본 라이브러리등 파이썬의 기본 내용들은 이미 독자가

알고 있다고 가정하고 있기에 어느정도 파이썬이나 파이썬 라이브러리에 대한

처리 경험과 지식이 동반되어 있어야 한다.

그리고 오렐리 책은 늘 느끼는 거지만 교과서 같은 느낌이 있다.

명확하고 정확한 내용을 간결한 방법으로 알려준다.

효율적인 정보제공을 좋아하는 사람이라면 이러한 스타일을 좋아할 거고

좀 더 친절하고 가독성이 있고 읽기 쉽게되어 있는 책을 좋아한다면

오렐리 책은 딱딱하다는 느낌을 받을 수 있다.

책 내용은 파이썬을 활용하여 텍스트 분석에 대한 고급 활용 지식을

체계적이고 깔끔하게 서술하고 있어서 개인적으로는 마음에 드는 도서였다.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

깃허브 저장소 : https://github.com/blueprints-for-text-analytics-python/blueprints-text

 

GitHub - blueprints-for-text-analytics-python/blueprints-text: Jupyter notebooks for our O'Reilly book "Blueprints for Text Anal

Jupyter notebooks for our O'Reilly book "Blueprints for Text Analysis Using Python" - GitHub - blueprints-for-text-analytics-python/blueprints-text: Jupyter notebooks for our O'Re...

github.com

책 소개 : https://www.hanbit.co.kr/store/books/look.php?p_code=B8501475551 

 

파이썬 라이브러리를 활용한 텍스트 분석

분석하려는 텍스트에 맞는 처리 기법을 소개하는 도서로 실제 모범 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라인 구축, N-그램 분석, 텍스트 벡터화 등 다양한 전략과 그때 필

www.hanbit.co.kr

 

TAGS.

Comments