본문 바로가기

데이터분석9

[Selenium] 사람인(Saramin) 채용공고 크롤링 사람인에서 채용공고 크롤링하기 캡스톤을 진행하면서 했던 마지막 크롤링 정리 사람인이 가장 데이터가 많았다. [사람인 홈페이지] 사람인: https://www.saramin.co.kr/zf_user/jobs/list/domestic 지역별 채용정보 - 사람인 채용공고 | 지역, 근무지역, 경력, 학력, 연봉 등으로 찾는 취업정보 - 사람인 www.saramin.co.kr 크롤링 방법 hashtag = ['Back_end', 'Software', 'System', 'Database', 'Network/Security', 'Front_end', 'Application', 'Service', 'Game', 'AI'] 해당 부분은 임의로 10개로 IT직군을 나눈 라벨링 데이터이다. 또한 해당 라벨링에 어울리는 직.. 2022. 6. 29.
[Selenium] 프로그래머스(Programmers) 채용공고 크롤링 프로그래머스에서 채용공고 크롤링하기 캡스톤을 진행하면서 채용 데이터가 필요해서 '프로그래머스', '사람인'에서 크롤링을 진행했다. 둘다 하루만에 비교적 쉽게 만들 수 있었다. 하지만 처음 크롤링을 했을때는 라벨링값을 달지 않고 (ex) backend) 채용공고 내용만을 크롤링해서 이 채용공고가 어떤 분야의 채용공고인지 알 수 없었다. 그래서 별수 없이 2차 크롤링도 진행했다. 2차 크롤링에서는 '채용 본문 데이터 + 해쉬태그값'의 형태로 진행했다. 두 가지의 크롤링 모두 포스팅하려고 한다:) 또한 프로그래머스는 크롤링하기 편리한 구조로 되어있긴 하지만 모델에 돌릴 데이터 양으로는 채용공고가 매우 부족했다. [프로그래머스 홈페이지] 프로그래머스: https://programmers.co.kr/job 개발자.. 2022. 6. 29.
[Selenium] 링크드인(RinkedIn) 채용공고 크롤링 링크드인에서 채용공고 크롤링하기 '사람인', '프로그래머스', '그림닷컴' 등에서 크롤링 하는건 쉬웠는데 여기는 힘들었다. 우선 데이터를 가져오는거 까진 평소처럼 했는데 항상 250개나 500개쯤에서 아이디가 벤을 먹었다.... 그래서 그 이후는 계속 error가 출력되는데 조금 무서웠다.ㅋㅋ 내 이메일계정 3개를 바치고 지인도 가입시켜서 그 아이디도 벤먹으면서 겨우 완성했다..ㅎ 보통 하루뒤에 벤이 풀리던데 내 계정 하나는 여러번 벤먹어서 그런가 지금 정리하면서 다시 코드를 실행했는데 아직도 벤이당ㅎㅎ. 그래도 코드를 완성해서 겨우 캡스톤 발표까지 할 수 있었달까~ 진짜 3~4일 걸린거같다. [링크드인 홈페이지] 링크드인: https://www.linkedin.com 크롤링 방법 ['backend%20.. 2022. 6. 12.
[BeautifulSoup] 사이트에서 이미지 크롤링 사이트에서 이미지 크롤링하기 '그림플렛폼 프로젝트'에서 우리가 구축한 색추출 모델(knn+mean shift clustering)을 시험해보기 위한 그림 샘플을 구함 참고한 크롤링 사이트: https://gurim.com/search-all/ (그림닷컴 - 그림전체보기) 1페이지부터 286번페이지까지 긁어왔는데 총 13,400개의 .jpg 데이터를 확보함 크롤링 순서 1. 모듈 불러오기 파이썬 기반의 BeautifulSoup: html파일로 크롤링을 진행 크롤링할 주소를 설정해주는 urllib라이브러리도 추가 2. 크롤링 할 주소 입력 해당 사이트의 경우 1페이지부터 286번 페이지까지 있어서 두개의 url로 나누고 가운데 숫자가 들어가도록 함 3. 크롤링 할 주소 열기 & html 파일 가져오기 .fi.. 2022. 5. 22.
[pandas] 인덱스 재정렬, 결측치 변환 df.reset_index(drop=True) : 새롭게 인덱스 정렬하기 df['columns'] = df['columns'].replace(np.nan, ' ') : 결측치를 ' '로 변환(마음대로 설정가능) 2020. 9. 14.
[alice] 파이썬 크롤링 alice 파이썬 크롤링 1. 크롤링의 기초 크롤링: 웹 페이지에서 필요한 데이터를 추출해내는 작업 크롤링 프로그램: 크롤러 ※ 필요한것 웹 페이지의 html을 얻기 위해 -> requests 라이브러리 가져온 html을 분석하기 위해 -> BeautifulSoup 라이브러리 [Beautiful Soup] html, json, xml등 파일의 구문을 분석하는 모듈 웹 페이지를 표현하는 html을 분석하기 위해 사용 find : 처음 등장하는 태그 찾기 find_all : 모든 태그 찾기 find('p').get_text() : 태그가 가지고 있는 텍스트 얻기 [requests 라이브러리] python에서 http 요청을 보낼 수 있는 모듈 get, post 요청 ※ F12 -> 개발자 도구 마우스 우클릭.. 2020. 9. 4.
[alice] 월드컵 데이터 분석(이수) 월드컵 데이터 분석 & 실력확인 테스트 df.astype(int) : data를 int형으로 바꿈 plt.tight_layout() : index값 이름 겹치지 않게함 [시험] 이때까지 했던 실습이 조금 변형되서 나왔다. 끝 ㅎㅎ '파이썬으로 시작하는 데이터분석 완강!' 더보기 2020. 7. 21.
[alice] Matplotlib Matplotlib Matplotlib : 데이터를 시각화하는 라이브러리 alice에서 하는 시각화방식과 수업에서 하는 방식이 살짝 달라서 헷갈렸던 부분이다. [수업내용] 바로 plt를 사용해서 그래프를 그린다. [alice 내용으로 바꾼 것] subplot()을 생성해서 그래프를 그린다. 이를 수업내용처럼 바꿔서 해보는데 잘되지않아 강사님에게 여쭤봤다. 그랬더니 fig, ax = plt.subplots()는 plt객체 ax를 만드는 코드라고 하셨다. 수업진도에 맞추어서 수업에서는 뺸 내용이라고 하셨다. plt.xlabel -> ax.set_xlabel plt.ylabel -> ax.set_ylabel plt.title -> ax.set_title plt.show()는 둘다 똑같았다. ※ pd연계 인덱싱.. 2020. 7. 19.
반응형