본문 바로가기

Python

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기

반응형

다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다. 

 

데이터분석을 보다 수월하게 진행하기 위해,

 

크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다.

 

크롤링 작업을 마친 csv 파일을 불러와서 

 

이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다.

 

import pandas as pd

data = pd.read_csv("크롤링한 데이터.csv")
data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True)
data.to_csv("데이터 전처리 마친 데이터.csv")

 

data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼명을 쓰면 된다.

 

데이터프레임에 정규표현식을 사용하는 거라 컬럼을 str로 꼭 변경해주어야 한다.

 

만약 str로 변경하지 않고 진행하면

 

expected string or bytes-like object

 

찾는 대상이 문자열이 아니라는 에러와 만나게 된다.

 

위와 같은 에러를 만났다면 데이터프레임을 str로 변경하지 않은채, 

 

데이터 전처리를 진행하고 있지는 않은지 살펴보면 된다.

 

 

 

 

 

[참조]

https://seong6496.tistory.com/239

반응형