일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Docker
- requests
- mariadb설치 #mysql설치
- text.children
- 정규표현식
- 리눅스 # 기초
- etl
- 파일저장
- Google Cloud Storage
- aiflow
- airflow
- 자연어처리 환경 컨테이너
- cron
- JavaScripts
- pickle #datetime
- requesthead
- enumerate #함수 # def
- FastAPI
- 빗썸api
- ssh operator
- with open
- 가상환경 초기세팅
- beautifulsoup
- 자동화
- HeidiSQL
- 모델서빙
- celery
- datetime #zip
- K-ICT
- 원하는 태그 찾기
- Today
- Total
목록데이터 엔지니어링/Airflow (3)
오음

사용자들의 플레이리스트들을 수집해서 word2vec모델을 학습 후 새로운 사용자의 리스트를 보고 추천해주는 시스템을 만들고 싶었다. (더 공부한 후 포스팅예정!) 거의 2주간은 필요한 데이터 수집과 데이터 전처리에 많은 시간을 쏟은 것 같았다. 그럼에도 필요 데이터 수집은 계속해서 이루어져야 한다.. 왜냐? 모델 학습을 계속 진행해서 더 많은 데이터로 학습하게 만들어야 되기 때문이다. 이 과정을 airflow를 통해서 만들어진 코드들이 자동화 될 수 있게 만들어 줄 것이다. airflow 진행순서) 멜론,바이브,지니,스포티파이등등의 user 플레이리스트 크롤링 + 배포될 경우 새로운 사용자들의 리스트 -> 모델 학습 -> 모델 저장 -> 백엔드로 모델 서빙 여기서 플레이리스트 크롤링과 배포될 경우 새로운..

크롤링을 통한 데이터들을 json형태로 get하기 때문에 전처리 과정을 생략하고 Mysql이 아닌 MongoDB에 저장을 1. 중고서적 판매사이트인 알라딘에서 API를 받아와 도서의 목록을 json파일의 형태로 받는다. 2. MongoDB에 적재시키는 작업을 airflow자동화 - airflow 컨테이너 실행 2023.05.31 - [데이터 엔지니어링/Airflow] - Airflow 컨테이너 띄우기 Airflow 컨테이너 띄우기 저번시간에 활용한 Crontab과 비슷한 역할을 하는 Airflow에 대해서 알아보고자 한다. Airflow란? - 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해주며, 최신 기술 oh-um.tistory.com - 설정한 경로의 dags파일에 파..

저번시간에 활용한 Crontab과 비슷한 역할을 하는 Airflow에 대해서 알아보고자 한다. Airflow란? - 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해주며, 최신 기술 환경에서 접하게 되는 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록을 제공하는 것이다. 직접적으로 데이터 처리 작업을 수행하진 않지만 데이터 처리를 위한 다양한 구성 요소들을 조정할 수 잇다. Airflow의 구성? 스케줄러 - DAG를 분석하고 현재 시점에서 DAG의 스케줄이 지난 경우 Airflow 워커에 DAG의 태스크를 예약 워커 - 예약된 태스크를 선택하고 실행 웹 서버 - 스케줄러에서 분석한 DAG를 시각화하고 DAG실행과 결과를 확인 할 수 있는 주요 인터페이스를 제공 태스크와..