본문 바로가기

Data Science8

[Data Science] CSV 데이터 읽고 처리하기 데과 수업 듣기 전에 이걸 들었더라면... 좀 더 과제가 쉽지 않았을까.. 1. CSV 데이터 CSG 데이터는 Comma Separated Value, 즉 콤마로 나뉘어진 데이터 형식이다. 콤마가 data의 각 column을 가리킨다고 보면 된다. (콤마말고 다른 구분문자도 사용가능) 주로 엑셀 파일로 나타내며 용량이 작은 이점이 있다고 한다. (json과 비교하면 용량이 작다는 걸 쉽게 확인할 수 있다.) 하지만 그만큼 데이터 오염이 쉽기 때문에 주의하자. 2. csv 데이터 읽기 파일을 열어서 csv 모듈을 사용한다. delimiter뒤에 구분자가 들어간다. import csv with open('movies.csv') as file: reader = csv.reader(file, delimiter=.. 2021. 1. 19.
[Data Science] 데이터 형변환 1. 딕셔너리 딕셔너리는 key와 value로 이루어진 자료구조이다. 한 번 선언한 key는 변경이 불가능하다. 선언하는 방법은 리스트와 달리 중괄호{} 이다. id_pass = ("hello", "pw123") accounts = { id_pass: ('hello', ...), } # {(id, 비밀번호): 계정정보 } 딕셔너리에 값을 집어넣는 방법은 단순하다. dic[key] = val하면 값이 생긴다. user_to_titles = {} with open(filename) as file: for line in file: user, title = line.strip().split(':') #strip은 앞 뒤 공백을 제거해주는 함수 user_to_titles[user] = title # 딕셔너리에 값.. 2021. 1. 17.
[Data Science] 텍스트 파일 분석 이전 강의는 파이썬 기본 문법이라 생략. 이번 강의는 파이썬으로 파일을 읽어오고 matplotlib 맛보기까지 진행한다. 1-1. 파일 열기 with 인덴트 안에서 파일 읽기가 가능하다. content에 파일 전체가 들어간다. with open('filename.txt') as file: content = file.read() 다른 방법으로는 file = open('filename.txt') content = file.read() file.close() # 파일 닫기 with으로 불러오면 file.close를 실행하지 않아도 된다. 1-2. 파일을 한 줄씩 읽어오기 contents = [] with open('filename.txt') as file: for line in file: contents.ap.. 2021. 1. 12.
[Data Science] 파이썬 크롤링 - 워드 클라우드 만들기 파이썬 모듈을 사용하여 한때 유행했던(?) 워드 클라우드를 만든다. 워드 클라우드란? 워드 클라우드는 텍스트 데이터에서 단어가 등장한 횟수를 기준으로 표현하는 그림이다. 모듈을 사용해서 어려운 점은 딱히 없었지만... 그래도 잊어버리기 쉬우니까 정리해보자. 1. 영어 문장 나누기 영어 문장에 등장한 단어의 횟수를 세기 위해선 다음 과정을 거친다. 1. 특수문자를 지운다. 2. 띄어쓰기를 기준으로 리스트에 단어를 담는다. 3. 등장한 단어의 횟수를 체크한다. 그리고 위의 과정을 거치기 위해 필요한 모듈은 Counter와 puntucation이다. Counter는 주어진 리스트에서 특정값이 몇 번 등장하는지 세는 역할 puntuation은 특수문자가 담겨있는 문자열이다. from collections imp.. 2021. 1. 12.