본문 바로가기

반응형

Python

[Crawling] 크롤링한 csv파일 불러와서 특수문자 제거하기 다량의 데이터를 크롤링 하다보면 데이터 상에 이모티콘, 특수문자 등이 포함된다. 데이터분석을 보다 수월하게 진행하기 위해, 크롤링이 끝났으면 데이터전처리 작업을 진행해야 한다. 크롤링 작업을 마친 csv 파일을 불러와서 이모티콘 및 특수문자를 제거하고 한글만 남긴 후, 다시 csv 파일로 저장하는 코드는 다음과 같다. import pandas as pd data = pd.read_csv("크롤링한 데이터.csv") data['title']= data['title'].str.replace(pat=r'[^가-힣]',repl=r' ',regex=True) data.to_csv("데이터 전처리 마친 데이터.csv") data['title'] 에서 'title' 대신 사용자가 데이터 전처리를 진행하고자 하는 컬럼.. 더보기
[Crawling] NoSuchFrameException and not able to identify element Selenium을 이용한 블로그 크롤링을 진행하던 중 NoSuchFrameException and not able to identify element 위와 같은 에러를 만났다. NoSuchFrameException이 발생하여 요소를 식별할 수 없다는 에러였다. 이 에러가 발생한 이유는 크롤링하는 블로그별로 CSS형식이 달라서 발생한 문제였다. 필자가 진행하던 대부분의 블로그는 제목 및 본문을 'iframe'안에 담고 있어서 iframe 안에서 제목 및 본문을 찾는 코드를 넣었는데, 형식이 다른 블로그들이 섞여있어 위와 같은 오류가 난 것이다. try: driver.switch_to.frame('mainFrame') except: driver.get(target_url) 이 오류의 해결책은 예외 처리를 활.. 더보기
[Crawling Error] enpyxl.utils.exceptions.IllegalCharacterError 해결하기 enpyxl.utils.exceptions.IllegalCharacterError 위의 에러는 크롤링하고 있는 사이트가 엑셀이 지원하지 않는 문자를 포함하고 있는 경우 발생하게 된다. 에러를 해결하려면? import re from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE 위의 코드를 추가한 후에 try, except 구문을 활용하여 예외 처리를 해주면 된다. except 구문에 추가할 코드는 아래와 같다. 문제가 생긴 크롤링하고 있는 부분= ILLEGAL_CHARACTERS_RE.sub(r'', 문제가 생긴 크롤링하고 있는 부분) 예시-> 제목을 크롤링하다 오류가 발생했을 경우 title = ILLEGAL_CHARACTERS_RE.sub(r'', title) .. 더보기
[Selenium] Selenium 이용해서 네이버 블로그 크롤링 Selenium 패키지는 chromdriver를 제어하여 원하는 정보를 얻기 위해 사용하는 패키지다. selenium 패키지 설치 방법 및 자세한 사항은 아래 사이트를 참조하길 바란다. https://wikidocs.net/137914 네이버 블로그에서 정보를 검색했을 때, 나오는 리스트를 자동으로 스크롤하여 크롤링하는 코드 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By import pandas as pd import re from openpyxl.cell.cell import ILLEGAL_CHARACTERS_.. 더보기
[Python] 구글 코랩 .ipynb파일을 HTML파일로 변환하기 오늘은 구글 코랩 파일을 html 파일로 변환하는 법을 소개합니다. 1. 완성된 코랩 파일 ipynb 파일로 저장하기 코랩 노트에 가서 저장하고 싶은 파일을 연 다음, 위에 있는 파일을 클릭합니다. 파일 --> 다운로드 --> .ipynb 다운로드 위의 순서데로 클릭하면 내가 원하는 파일이 ipynb 파일로 다운로드 됩니다. 2. cmd 창을 실행하여 jupyter notebook 열기 컴퓨터 검색창에 cmd를 검색하여 명령 프롬포트를 실행합니다. 명령 프롬포트에 jupyter notebook 위의 코드를 입력하면 jupyter notebook 이 실행됩니다. 위와 같은 창이 뜨면 아까 파일을 다운 받았던 폴더로 들어갑니다. 저는 downloads 폴더로 들어갔습니다. 3. HTML로 변경 원하는 파일 .. 더보기
[Python] google colab 에서 구글 드라이브 연동하는 방법 이번 포스팅은 google colab에서 구글 드라이브를 연동하여, 데이터를 가져오는 방법을 소개합니다. 1. 크롬에서 구글 로그인해주기 크롬으로 들어가서 코랩을 사용할 계정에 로그인해줍니다. 2. 데이터를 구글 드라이브 Colab Notebooks 폴더에 넣기 저는 Colab Notebooks 안에 2023폴더를 만들고, 2023 폴더 안에 human 폴더를 다시 만든 후에 데이터를 넣어줬습니다. 3. 코랩 노트 열기 코랩 노트를 연 후 아래의 코드를 입력합니다. from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive 위의 결과가 나오면 구글 드라이브 연동이 끝난 겁니다. 드라이브를 연동하였으니 데이터를.. 더보기
[Python] 파이썬으로 김밥헤븐 만들어 주문 받기 이번 포스팅은 파이썬으로 김밥헤븐을 만드는 코드를 소개합니다. restaurant.py 파일 만들기 VS Code를 실행하여 restaurant.py 파일을 만들어 준비합니다. # -*- coding: utf-8 -*- class Comments: title = "#### %s 레스토랑에 오신걸 환영합니다. ####" product_description = "%s:%s(%s원)" insert_price = "\n요금을 넣어 주세요. : " insufficient_price = "%s 요금이 부족합니다. 거스름돈은 %s원 입니다." select_menu = "원하시는 메뉴를 선택하세요." select_error = "잘못 입력하셨습니다." finish_sale = "선택하신 %s 입니다. 거스름돈은 %s원.. 더보기
[Python] 기초 문법 정리(숫자형, 문자열, 리스트, 튜플, 딕셔너리) 이번 포스팅은 파이썬의 기초 문법에 대해 소개합니다~!!! 변수의 종류 변수의 종류 : 숫자, 문자, 논리 (true,false), null # 정수형 num_int = 1 print(num_int) print(type(num_int)) 1 정수형 데이터를 num_int 변수에 담아 출력합니다. 변수 앞에 type를 붙여서 출력하면 변수의 type를 확인할 수 있습니다. # 실수형 num_float = 0.2 print(num_float) print(type(num_float)) 0.2 # 논리 자료형 bool_true = False print(bool_true) print(type(bool_true)) False # NULL 자료형 none_x = None print(none_x) print(type(.. 더보기

반응형