일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- beautifulsoup
- FastAPI
- 정규표현식
- pickle #datetime
- enumerate #함수 # def
- HeidiSQL
- 빗썸api
- aiflow
- Docker
- datetime #zip
- requesthead
- 원하는 태그 찾기
- requests
- 가상환경 초기세팅
- K-ICT
- with open
- 리눅스 # 기초
- 자동화
- text.children
- 파일저장
- 모델서빙
- mariadb설치 #mysql설치
- celery
- Google Cloud Storage
- cron
- ssh operator
- 자연어처리 환경 컨테이너
- etl
- airflow
- JavaScripts
- Today
- Total
목록자동화 (3)
오음

크롤링을 통한 데이터들을 json형태로 get하기 때문에 전처리 과정을 생략하고 Mysql이 아닌 MongoDB에 저장을 1. 중고서적 판매사이트인 알라딘에서 API를 받아와 도서의 목록을 json파일의 형태로 받는다. 2. MongoDB에 적재시키는 작업을 airflow자동화 - airflow 컨테이너 실행 2023.05.31 - [데이터 엔지니어링/Airflow] - Airflow 컨테이너 띄우기 Airflow 컨테이너 띄우기 저번시간에 활용한 Crontab과 비슷한 역할을 하는 Airflow에 대해서 알아보고자 한다. Airflow란? - 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해주며, 최신 기술 oh-um.tistory.com - 설정한 경로의 dags파일에 파..

저번시간에 활용한 Crontab과 비슷한 역할을 하는 Airflow에 대해서 알아보고자 한다. Airflow란? - 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해주며, 최신 기술 환경에서 접하게 되는 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록을 제공하는 것이다. 직접적으로 데이터 처리 작업을 수행하진 않지만 데이터 처리를 위한 다양한 구성 요소들을 조정할 수 잇다. Airflow의 구성? 스케줄러 - DAG를 분석하고 현재 시점에서 DAG의 스케줄이 지난 경우 Airflow 워커에 DAG의 태스크를 예약 워커 - 예약된 태스크를 선택하고 실행 웹 서버 - 스케줄러에서 분석한 DAG를 시각화하고 DAG실행과 결과를 확인 할 수 있는 주요 인터페이스를 제공 태스크와..

Cron은 스케줄링 관리를 위한 리눅스 데몬이다. Crontab 명령은 리눅스에서 특정 작업을 주기적으로 실행하기 위해서 사용하는 작업리스트이다. Crontab으로 자동화 하기전에... 장고를이용하여 만들어 놓은 웹의 DB에서 사용자들이 게시한 text내용을 집계하여 워드클라우드로 보여주는 기능을 구현해 보았다. 실시간으로 웹에서 워드클라우드.png를 저장하고 바로 보여줄 수 있게 사용하려 하였다. 하지만 문제가 생긴 것이 자연어 처리기의 속도가 느려서 워드클라우드 생성속도가 느렸다. (DB와 연결 -> 파이썬함수(해당 사용자들의 text 조회하는 쿼리문 실행) -> 전처리 실행 -> 워드클라우드 -> 페이지 로드) 이 과정에서 페이지 로드 속도가 너무 느려 페이지 오류가 계속 발생했다. 이런 문제를 해..