본문 바로가기

반응형

크롤링

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기 다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다. 데이터분석을 보다 수월하게 진행하기 위해, 크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다. 크롤링 작업을 마친 csv 파일을 불러와서 이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다. import pandas as pd data = pd.read_csv("크롤링한 데이터.csv") data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True) data.to_csv("데이터 전처리 마친 데이터.csv") data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼.. 더보기
[Crawling] NoSuchFrameException and not able to identify element Selenium을 이용한 블로그 크롤링을 진행하던 중 NoSuchFrameException and not able to identify element 위와 같은 에러를 만났다. NoSuchFrameException이 발생하여 요소를 식별할 수 없다는 에러였다. 이 에러가 발생한 이유는 크롤링하는 블로그별로 CSS형식이 달라서 발생한 문제였다. 필자가 진행하던 대부분의 블로그는 제목 및 본문을 'iframe'안에 담고 있어서 iframe 안에서 제목 및 본문을 찾는 코드를 넣었는데, 형식이 다른 블로그들이 섞여있어 위와 같은 오류가 난 것이다. try: driver.switch_to.frame('mainFrame') except: driver.get(target_url) 이 오류의 해결책은 예외 처리를 활.. 더보기

반응형