본문 바로가기

크롤링4

[Data Science] 파이썬 크롤링 - 워드 클라우드 만들기 파이썬 모듈을 사용하여 한때 유행했던(?) 워드 클라우드를 만든다. 워드 클라우드란? 워드 클라우드는 텍스트 데이터에서 단어가 등장한 횟수를 기준으로 표현하는 그림이다. 모듈을 사용해서 어려운 점은 딱히 없었지만... 그래도 잊어버리기 쉬우니까 정리해보자. 1. 영어 문장 나누기 영어 문장에 등장한 단어의 횟수를 세기 위해선 다음 과정을 거친다. 1. 특수문자를 지운다. 2. 띄어쓰기를 기준으로 리스트에 단어를 담는다. 3. 등장한 단어의 횟수를 체크한다. 그리고 위의 과정을 거치기 위해 필요한 모듈은 Counter와 puntucation이다. Counter는 주어진 리스트에서 특정값이 몇 번 등장하는지 세는 역할 puntuation은 특수문자가 담겨있는 문자열이다. from collections imp.. 2021. 1. 12.
[Data Science] API 크롤링 html문서가 아닌 json 형태로 정보를 전달하는 api에서 크롤링하기 위한 방법에 대해 배워보자. API에 접근하기 위해선 우회를 해줘야한다. 이를 우회하기 위해서 요청시에 headers 매개변수를 지정한다. 1. headers 옵션 custom_header = { 'referer':... # 이전 웹페이지의 주소 'user-agent': ... # 이용자의 여러가지 사양 ex) 브라우저 os } req = requests.get(url, headers = custom_header) 2. api 확인하기 사용된 api를 확인하는 방법에 대해 알아보자. finance.daum.net/ 다음 증권사 페이지에 들어가서 상위 10개 기업을 크롤링하고자 한다. api를 확인하기 위해선 f12를 눌러 개발자 모.. 2021. 1. 7.
[Data Science] 파이썬 크롤링 2 여러 페이지를 크롤링 하는 법을 배워보자. 1. Query url엔 쿼리라는게 존재한다. url 끝쪽에 ? 뒤에 있는 부분이 쿼리다. 이 쿼리를 바꾸는 방법으론 스트링을 직접 붙이는 방법도 있다. for i in range(0,5): url = f"http://sports.donga.com/Enter?p={(i*20 + 1)}" 그치만...안예쁘다. 우리가 배운 requests 모듈을 사용해보자 params 매개변수에 딕셔너리를 전달하여 쿼리를 전달한다. url = "https://news.naver.com/main/main.nhn" # ? 전까지 result = requests.get(url, params={'mode':'LSD', 'mid':'shm', 'sid1':102}) 2. 태그와 속성 태그마.. 2021. 1. 7.
[Data Science] 파이썬 크롤링 인턴 필수 강의로 듣고 정리하는 파이썬 크롤링^^ 데이터과학 수업 들으면서 잠깐 해봤는데 그 때보다 재밌게 배운 것 같다. 과제가 아니라서 재밌나보다. 암튼 배운 내용을 잊지 않기 위해 정리해본다. 크롤링에 사용되는 2가지 라이브러리 requests와 BeautifulSoup이다. 예전에 soap으로 써서 오류가 계속 발생했다... ㅠㅠ 이름이 특이한듯...... requests 라이브러리 python에서 http요청을 보낼 수 있는 모듈이다. url을 통해 서버에 요청을 보내서 response를 받아온다. html문서를 받아오는 역할이라고 할 수 있다. BeautifulSoup 라이브러리 받아온 html 문서를 처리하는 모듈이다. 주로 사용하는 건 find와 find_all인듯 싶다. 1. reques.. 2021. 1. 6.