본문 바로가기
데이터분석/데이터분석

[alice] 파이썬 크롤링

by merona99 2020. 9. 4.
반응형

alice 파이썬 크롤링

 

1. 크롤링의 기초

크롤링: 웹 페이지에서 필요한 데이터를 추출해내는 작업

크롤링 프로그램: 크롤러

 

※ 필요한것

  • 웹 페이지의 html을 얻기 위해 -> requests 라이브러리
  • 가져온 html을 분석하기 위해 -> BeautifulSoup 라이브러리

 

[Beautiful Soup]

  • html, json, xml등 파일의 구문을 분석하는 모듈
  • 웹 페이지를 표현하는 html을 분석하기 위해 사용
  • find : 처음 등장하는 태그 찾기
  • find_all : 모든 태그 찾기
  • find('p').get_text() : 태그가 가지고 있는 텍스트 얻기
  •  

[requests 라이브러리]

  • python에서 http 요청을 보낼 수 있는 모듈
  • get, post 요청

※ F12 -> 개발자 도구

   마우스 우클릭 -> 검사

 

 

[네이버 헤드뉴스 찾기]

find와 find_all 사용

 

 

2. 여러 페이지 크롤링하기

 

가장 쉬운 방법)

URL을 문자열 연산으로 처리하여 새로운 URL을 얻기

ex) url = '주소?p=' + str((i*20+1))

 

[Query]

웹 서버에 get요쳥을 보낼 때 조건에 맞는 정보를 표현하기 위한 변수

request의 get 메소드로 GET 요청을 보낼 때 params 매개변수에 딕셔너리를 전달함으로서 쿼리를 지정

ex) request = requests.get(url, params={'movie':code})

 

[Tag 속성]

'tag'.arrts : 어떤 태그의 속성이 무엇이 있는지 확인할 때

 

[Children, Name]

childeren : 어떤 태그가 포함하고 있는 태그

name : 어떤 태그의 이름을 의미하는 속성

(태그가 존재x : None값을 얻음)

 

 

[실전 크롤링]

 

 

 

 

 

 

 

 

 

 

 

반응형

'데이터분석 > 데이터분석' 카테고리의 다른 글

[pandas] 인덱스 재정렬, 결측치 변환  (0) 2020.09.14
[alice] 월드컵 데이터 분석(이수)  (64) 2020.07.21
[alice] Matplotlib  (0) 2020.07.19
[alice] numpy, pandas  (0) 2020.07.17

댓글