일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- JavaScripts
- datetime #zip
- 모델서빙
- pickle #datetime
- Google Cloud Storage
- Docker
- 빗썸api
- mariadb설치 #mysql설치
- 정규표현식
- 가상환경 초기세팅
- text.children
- 자연어처리 환경 컨테이너
- ssh operator
- aiflow
- FastAPI
- celery
- K-ICT
- etl
- with open
- 파일저장
- enumerate #함수 # def
- airflow
- beautifulsoup
- 원하는 태그 찾기
- cron
- 리눅스 # 기초
- 자동화
- requesthead
- HeidiSQL
- requests
- Today
- Total
목록데이터 엔지니어링 (27)
오음

빗썸 api를 이용하여 수집한 데이터를 어떻게 처리를 하고 시각화할지에 대해 생각해 보았다. 우선 수집한 데이터들은 한번 스케줄 될 때 300개의 코인종목과 26가지의 컬럼정보들을 가져올 수 있다. 칼럼 정보가 많기 때문에 차원을 줄여서 따로 데이터웨어하우스를 구축해야겠다고 생각했다. 또한 원데이터의 손실을 막기 위하여 데이터 레이크를 만들어 필요한 데이터를 추출하여 필요시 전처리 할 수 있게 만들어야겠다고 생각했다. 이후, 레이크에 있는 json파일들을 spark로 전처리를 하여 최종 데이터를 산출해 내고 그 데이터를 이용하여 시각화툴을 사용하여 인사이트를 도출할 수 있도록 하고 시계열 데이터를 pytorch를 사용하여 모델링할 수 있었으면 좋겠다고 생각했다. 또한 더 생각해 볼 수 있는 것이 데이터 ..

멜론 사용자의 플레이 리스트를 크롤링 해보았다. 플레이 리스트는 사용자들의 노래방리스트들의 정보가 담겨있고 약 2000여개의 리스트들과 각 리스트들에 대한 노래정보들을 가져온다. 멜론에서는 따로 api를 발급해주지 않기 때문에 셀레니움을 이용하여 크롤링 할 예정이다. 크롤링 단계는 셀레니움으로 사용자들의 플레이리스트 id값들을 얻어온 후 request를 통해서 다시 한번 리스트 안에 있는 노래정보들을 가저올 것이다. 1. 우선 셀레니움에 필요한 라이브러리들을 임포트 해준다. from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expe..

데이터 모델링이 필요한 이유 유저의 활동은 모두 데이터이며, 수 많은 종류의 서비스나 기능이 나오고, 많은 데이터가 추가되고 삭제된다. 그 데이터로 더 나은 서비스를 제공하기 위하여 가능한 모든 데이터를 쌓아놓고 활용하려고 한다. 하지만 데이터를 보관하는 데는 비용이 들고 데이터를 조회하는 데도 비용이 든다. 이러한 데이터를 효율적으로 사용하기 위해서는 데이터 모델링이 필요하다. 데이터 모델링 현실세계에 거대하고 복잡한 정보를 데이터베이스화 시키기 위한 과정이다. 데이터를 구조화하고, 조직화하면, 관계를 정의한다. 추상화 : 다양한 것을 일정한 형식에 맞춰 표현 단순화 : 동일한 규약으로 이해하기 쉽도록 하는 것 명확성 : 정확하게 현상을 기술 여러 데이터에 맞는 데이터베이스를 만들어줘야 하고 그 데이터..

1. 도커 컴포즈란?단일 서버에서 여러개의 컨테이너를 하나의 서비스로 정희해 컨테이너의 묶음으로 관리 할 수 있는 작업 환경을 제공하는 관리 도구이다.여러 개의 컨테이너의 옵션과 환경을 정의한 파일을 읽어 컨테이너를 순차적으로 생성한다.컨테이너 간의 의존성,네트워크,볼륭 등을 정의 할 수 있다.2. 사용하기 도커 컴포즈는 compose file을 실행하기 때문에 yaml파일 작성이 필요하다. 파일의 내용은 장고와 nginx 그리고 rabbitmq를 순차적으로 생성하는 명령어version: "3" services: web: build: . container_name: django_ctn restart: "no" command: bash -c " python3 manage.py collectstatic --..