반응형
alice 파이썬 크롤링
1. 크롤링의 기초
크롤링: 웹 페이지에서 필요한 데이터를 추출해내는 작업
크롤링 프로그램: 크롤러
※ 필요한것
- 웹 페이지의 html을 얻기 위해 -> requests 라이브러리
- 가져온 html을 분석하기 위해 -> BeautifulSoup 라이브러리
[Beautiful Soup]
- html, json, xml등 파일의 구문을 분석하는 모듈
- 웹 페이지를 표현하는 html을 분석하기 위해 사용
- find : 처음 등장하는 태그 찾기
- find_all : 모든 태그 찾기
- find('p').get_text() : 태그가 가지고 있는 텍스트 얻기
[requests 라이브러리]
- python에서 http 요청을 보낼 수 있는 모듈
- get, post 요청
※ F12 -> 개발자 도구
마우스 우클릭 -> 검사
[네이버 헤드뉴스 찾기]
find와 find_all 사용
2. 여러 페이지 크롤링하기
가장 쉬운 방법)
URL을 문자열 연산으로 처리하여 새로운 URL을 얻기
ex) url = '주소?p=' + str((i*20+1))
[Query]
웹 서버에 get요쳥을 보낼 때 조건에 맞는 정보를 표현하기 위한 변수
request의 get 메소드로 GET 요청을 보낼 때 params 매개변수에 딕셔너리를 전달함으로서 쿼리를 지정
ex) request = requests.get(url, params={'movie':code})
[Tag 속성]
'tag'.arrts : 어떤 태그의 속성이 무엇이 있는지 확인할 때
[Children, Name]
childeren : 어떤 태그가 포함하고 있는 태그
name : 어떤 태그의 이름을 의미하는 속성
(태그가 존재x : None값을 얻음)
[실전 크롤링]
반응형
'데이터분석 > 데이터분석' 카테고리의 다른 글
[pandas] 인덱스 재정렬, 결측치 변환 (0) | 2020.09.14 |
---|---|
[alice] 월드컵 데이터 분석(이수) (64) | 2020.07.21 |
[alice] Matplotlib (0) | 2020.07.19 |
[alice] numpy, pandas (0) | 2020.07.17 |
댓글