본문 바로가기

데이터분석/크롤링4

[Selenium] 사람인(Saramin) 채용공고 크롤링 사람인에서 채용공고 크롤링하기 캡스톤을 진행하면서 했던 마지막 크롤링 정리 사람인이 가장 데이터가 많았다. [사람인 홈페이지] 사람인: https://www.saramin.co.kr/zf_user/jobs/list/domestic 지역별 채용정보 - 사람인 채용공고 | 지역, 근무지역, 경력, 학력, 연봉 등으로 찾는 취업정보 - 사람인 www.saramin.co.kr 크롤링 방법 hashtag = ['Back_end', 'Software', 'System', 'Database', 'Network/Security', 'Front_end', 'Application', 'Service', 'Game', 'AI'] 해당 부분은 임의로 10개로 IT직군을 나눈 라벨링 데이터이다. 또한 해당 라벨링에 어울리는 직.. 2022. 6. 29.
[Selenium] 프로그래머스(Programmers) 채용공고 크롤링 프로그래머스에서 채용공고 크롤링하기 캡스톤을 진행하면서 채용 데이터가 필요해서 '프로그래머스', '사람인'에서 크롤링을 진행했다. 둘다 하루만에 비교적 쉽게 만들 수 있었다. 하지만 처음 크롤링을 했을때는 라벨링값을 달지 않고 (ex) backend) 채용공고 내용만을 크롤링해서 이 채용공고가 어떤 분야의 채용공고인지 알 수 없었다. 그래서 별수 없이 2차 크롤링도 진행했다. 2차 크롤링에서는 '채용 본문 데이터 + 해쉬태그값'의 형태로 진행했다. 두 가지의 크롤링 모두 포스팅하려고 한다:) 또한 프로그래머스는 크롤링하기 편리한 구조로 되어있긴 하지만 모델에 돌릴 데이터 양으로는 채용공고가 매우 부족했다. [프로그래머스 홈페이지] 프로그래머스: https://programmers.co.kr/job 개발자.. 2022. 6. 29.
[Selenium] 링크드인(RinkedIn) 채용공고 크롤링 링크드인에서 채용공고 크롤링하기 '사람인', '프로그래머스', '그림닷컴' 등에서 크롤링 하는건 쉬웠는데 여기는 힘들었다. 우선 데이터를 가져오는거 까진 평소처럼 했는데 항상 250개나 500개쯤에서 아이디가 벤을 먹었다.... 그래서 그 이후는 계속 error가 출력되는데 조금 무서웠다.ㅋㅋ 내 이메일계정 3개를 바치고 지인도 가입시켜서 그 아이디도 벤먹으면서 겨우 완성했다..ㅎ 보통 하루뒤에 벤이 풀리던데 내 계정 하나는 여러번 벤먹어서 그런가 지금 정리하면서 다시 코드를 실행했는데 아직도 벤이당ㅎㅎ. 그래도 코드를 완성해서 겨우 캡스톤 발표까지 할 수 있었달까~ 진짜 3~4일 걸린거같다. [링크드인 홈페이지] 링크드인: https://www.linkedin.com 크롤링 방법 ['backend%20.. 2022. 6. 12.
[BeautifulSoup] 사이트에서 이미지 크롤링 사이트에서 이미지 크롤링하기 '그림플렛폼 프로젝트'에서 우리가 구축한 색추출 모델(knn+mean shift clustering)을 시험해보기 위한 그림 샘플을 구함 참고한 크롤링 사이트: https://gurim.com/search-all/ (그림닷컴 - 그림전체보기) 1페이지부터 286번페이지까지 긁어왔는데 총 13,400개의 .jpg 데이터를 확보함 크롤링 순서 1. 모듈 불러오기 파이썬 기반의 BeautifulSoup: html파일로 크롤링을 진행 크롤링할 주소를 설정해주는 urllib라이브러리도 추가 2. 크롤링 할 주소 입력 해당 사이트의 경우 1페이지부터 286번 페이지까지 있어서 두개의 url로 나누고 가운데 숫자가 들어가도록 함 3. 크롤링 할 주소 열기 & html 파일 가져오기 .fi.. 2022. 5. 22.
반응형