본문 바로가기

Data Science8

[Data Science] API 크롤링 html문서가 아닌 json 형태로 정보를 전달하는 api에서 크롤링하기 위한 방법에 대해 배워보자. API에 접근하기 위해선 우회를 해줘야한다. 이를 우회하기 위해서 요청시에 headers 매개변수를 지정한다. 1. headers 옵션 custom_header = { 'referer':... # 이전 웹페이지의 주소 'user-agent': ... # 이용자의 여러가지 사양 ex) 브라우저 os } req = requests.get(url, headers = custom_header) 2. api 확인하기 사용된 api를 확인하는 방법에 대해 알아보자. finance.daum.net/ 다음 증권사 페이지에 들어가서 상위 10개 기업을 크롤링하고자 한다. api를 확인하기 위해선 f12를 눌러 개발자 모.. 2021. 1. 7.
[Data Science] 파이썬 크롤링 2 여러 페이지를 크롤링 하는 법을 배워보자. 1. Query url엔 쿼리라는게 존재한다. url 끝쪽에 ? 뒤에 있는 부분이 쿼리다. 이 쿼리를 바꾸는 방법으론 스트링을 직접 붙이는 방법도 있다. for i in range(0,5): url = f"http://sports.donga.com/Enter?p={(i*20 + 1)}" 그치만...안예쁘다. 우리가 배운 requests 모듈을 사용해보자 params 매개변수에 딕셔너리를 전달하여 쿼리를 전달한다. url = "https://news.naver.com/main/main.nhn" # ? 전까지 result = requests.get(url, params={'mode':'LSD', 'mid':'shm', 'sid1':102}) 2. 태그와 속성 태그마.. 2021. 1. 7.
[Data Science] 파이썬 크롤링 인턴 필수 강의로 듣고 정리하는 파이썬 크롤링^^ 데이터과학 수업 들으면서 잠깐 해봤는데 그 때보다 재밌게 배운 것 같다. 과제가 아니라서 재밌나보다. 암튼 배운 내용을 잊지 않기 위해 정리해본다. 크롤링에 사용되는 2가지 라이브러리 requests와 BeautifulSoup이다. 예전에 soap으로 써서 오류가 계속 발생했다... ㅠㅠ 이름이 특이한듯...... requests 라이브러리 python에서 http요청을 보낼 수 있는 모듈이다. url을 통해 서버에 요청을 보내서 response를 받아온다. html문서를 받아오는 역할이라고 할 수 있다. BeautifulSoup 라이브러리 받아온 html 문서를 처리하는 모듈이다. 주로 사용하는 건 find와 find_all인듯 싶다. 1. reques.. 2021. 1. 6.
[딥러닝] 3월 7일 토요일 1일차 목표: 역전파와 딥러닝의 개념 이해하기 용어) - 예측값 = 예상값 = 우리가 만든 모델에서 예상한 값 - 정답값 = 실제값 = 기존 데이터 - 비용함수 cost function en(w) : 예측값과 실제값의 오차를 측정하는 함수 - 파라미터 w(w1, w2, ... ,wn) : 학습도중 변하는 변수. cost func에서 곱하는 값이다. cost func에서 w로 미분해서 기울기를 구한후 cost func값을 줄여나가기 위해 w값을 조정한다. (선형모델에서는 w가 기울기를 뜻한다. 기울기를 조정해서 정답값과 예측값의 차이를 줄여나가는 것이 목표이다.) - 하이퍼파라미터 : 사용자가 임의로 정하는 input - 활성화 함수 activation function: 노드에 들어온 input을 activati.. 2020. 3. 10.