[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기

다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다.

데이터분석을 보다 수월하게 진행하기 위해,

크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다.

크롤링 작업을 마친 csv 파일을 불러와서

이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다.

import pandas as pd

data = pd.read_csv("크롤링한 데이터.csv")
data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True)
data.to_csv("데이터 전처리 마친 데이터.csv")

data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼명을 쓰면 된다.

데이터프레임에 정규표현식을 사용하는 거라 컬럼을 str로 꼭 변경해주어야 한다.

만약 str로 변경하지 않고 진행하면

expected string or bytes-like object

찾는 대상이 문자열이 아니라는 에러와 만나게 된다.

위와 같은 에러를 만났다면 데이터프레임을 str로 변경하지 않은채,

데이터 전처리를 진행하고 있지는 않은지 살펴보면 된다.

[참조]

https://seong6496.tistory.com/239

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

[Crawling] NoSuchFrameException and not able to identify element (2)	2023.10.16
[Crawling Error] enpyxl.utils.exceptions.IllegalCharacterError 해결하기 (0)	2023.10.13
[Selenium] Selenium 이용해서 네이버 블로그 크롤링 (0)	2023.10.13
[Python] 구글 코랩 .ipynb파일을 HTML파일로 변환하기 (0)	2023.01.12
[Python] google colab 에서 구글 드라이브 연동하는 방법 (0)	2022.12.28

grit_programmer

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기

'Python' 카테고리의 다른 글

티스토리툴바

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기

'Python' 카테고리의 다른 글

'Python' Related Articles

티스토리툴바