'Python' 태그의 글 목록

본문 바로가기

Python

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기 다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다. 데이터분석을 보다 수월하게 진행하기 위해, 크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다. 크롤링 작업을 마친 csv 파일을 불러와서 이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다. import pandas as pd data = pd.read_csv("크롤링한 데이터.csv") data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True) data.to_csv("데이터 전처리 마친 데이터.csv") data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼.. 더보기

[Crawling] NoSuchFrameException and not able to identify element Selenium을 이용한 블로그 크롤링을 진행하던 중 NoSuchFrameException and not able to identify element 위와 같은 에러를 만났다. NoSuchFrameException이 발생하여 요소를 식별할 수 없다는 에러였다. 이 에러가 발생한 이유는 크롤링하는 블로그별로 CSS형식이 달라서 발생한 문제였다. 필자가 진행하던 대부분의 블로그는 제목 및 본문을 'iframe'안에 담고 있어서 iframe 안에서 제목 및 본문을 찾는 코드를 넣었는데, 형식이 다른 블로그들이 섞여있어 위와 같은 오류가 난 것이다. try: driver.switch_to.frame('mainFrame') except: driver.get(target_url) 이 오류의 해결책은 예외 처리를 활.. 더보기

[Crawling Error] enpyxl.utils.exceptions.IllegalCharacterError 해결하기 enpyxl.utils.exceptions.IllegalCharacterError 위의 에러는 크롤링하고 있는 사이트가 엑셀이 지원하지 않는 문자를 포함하고 있는 경우 발생하게 된다. 에러를 해결하려면? import re from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE 위의 코드를 추가한 후에 try, except 구문을 활용하여 예외 처리를 해주면 된다. except 구문에 추가할 코드는 아래와 같다. 문제가 생긴 크롤링하고 있는 부분= ILLEGAL_CHARACTERS_RE.sub(r'', 문제가 생긴 크롤링하고 있는 부분) 예시-> 제목을 크롤링하다 오류가 발생했을 경우 title = ILLEGAL_CHARACTERS_RE.sub(r'', title) .. 더보기

[Selenium] Selenium 이용해서 네이버 블로그 크롤링 Selenium 패키지는 chromdriver를 제어하여 원하는 정보를 얻기 위해 사용하는 패키지다. selenium 패키지 설치 방법 및 자세한 사항은 아래 사이트를 참조하길 바란다. https://wikidocs.net/137914 네이버 블로그에서 정보를 검색했을 때, 나오는 리스트를 자동으로 스크롤하여 크롤링하는 코드 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By import pandas as pd import re from openpyxl.cell.cell import ILLEGAL_CHARACTERS_.. 더보기

이전 1 다음

티스토리툴바