반응형
다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다.
데이터분석을 보다 수월하게 진행하기 위해,
크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다.
크롤링 작업을 마친 csv 파일을 불러와서
이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다.
import pandas as pd
data = pd.read_csv("크롤링한 데이터.csv")
data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True)
data.to_csv("데이터 전처리 마친 데이터.csv")
data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼명을 쓰면 된다.
데이터프레임에 정규표현식을 사용하는 거라 컬럼을 str로 꼭 변경해주어야 한다.
만약 str로 변경하지 않고 진행하면
expected string or bytes-like object
찾는 대상이 문자열이 아니라는 에러와 만나게 된다.
위와 같은 에러를 만났다면 데이터프레임을 str로 변경하지 않은채,
데이터 전처리를 진행하고 있지는 않은지 살펴보면 된다.
[참조]
반응형
'Python' 카테고리의 다른 글
[Crawling] NoSuchFrameException and not able to identify element (2) | 2023.10.16 |
---|---|
[Crawling Error] enpyxl.utils.exceptions.IllegalCharacterError 해결하기 (0) | 2023.10.13 |
[Selenium] Selenium 이용해서 네이버 블로그 크롤링 (0) | 2023.10.13 |
[Python] 구글 코랩 .ipynb파일을 HTML파일로 변환하기 (0) | 2023.01.12 |
[Python] google colab 에서 구글 드라이브 연동하는 방법 (0) | 2022.12.28 |