일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 자연어처리 환경 컨테이너
- 자동화
- datetime #zip
- aiflow
- etl
- 정규표현식
- Google Cloud Storage
- requests
- mariadb설치 #mysql설치
- text.children
- celery
- 리눅스 # 기초
- JavaScripts
- Docker
- 모델서빙
- ssh operator
- HeidiSQL
- K-ICT
- 가상환경 초기세팅
- FastAPI
- cron
- 파일저장
- airflow
- with open
- beautifulsoup
- enumerate #함수 # def
- 빗썸api
- requesthead
- pickle #datetime
- 원하는 태그 찾기
- Today
- Total
목록전체 글 (36)
오음

E,T,L 이란? E/Extract(추출) : 원본 데이터베이스 또는 데이터 소스에서 데이터를 가져오는 것을 말한다. ETL을 사용하면 데이터가 임시 스테이징 영역으로 들어가고, ELT를 사용하면 즉시 데이터가 Lake 스토리지 시스템으로 이동한다. T/Transform(변환) : 데이터의 구조를 변경하는 프로세스를 의미한다. 용도에 맞는 필터링, Resahping, 정재 등의 단계를 통해 필요한 형태로 변환한다. L/Load(적재) : 데이터를 스토리지에 저장하는 프로세스를 의미한다. 데이터를 담고 있는 소스는 호환되는 형식으로 저장되어있지 않기 때문에 데이터를 분석 가능한 데이터로 통합하기 전에 Raw 데이터를 정리하고, 많은 정보를 담을 수 있도록 변환해야 한다. 이 때 데이터를 옮겨야하는 상황이 ..

TF-IDF 메모리 문제 해결 통계 기반의 방법 단점 대규모 말뭉치를 다룰 때 메모리상의 문제가 발생 높은 차원을 가짐, 매우 sparse한 형태의 데이터임 한번에 학습 데이터 전체를 진행함 큰 작업을 처리하기 어려움 GPU와 같은 병렬처리를 기대하기 힘듬 학습을 통해서 개선하기가 어려움 해결 방안이 Word2Vec임 추론 기반의 방법 주변 단어(맥락)이 주어졌을 때 “?”에 무슨 단어(중심 단어)가 들어가는지를 추측하는 작업 정의 Word2Vec은 단어간 유사도를 반영하여 단어를 벡터로 바꿔주는 임베딩 방법론 원-핫 벡터 형태의 sparse matrix가 가지는 단점을 해소하고자 저차원의 공간에 벡터로 매핑하는 것이 특징 비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다. 알고리즘 CBOW 주변에 ..

추천시스템 역사 연관 규칙 - 규칙 평가 지표 연관 분석 문제점: 아이템의 수가 늘어날 수록 너무 많은 규칙이 생김 Apriori 알고리즘 빈번한 아이디어 아이템 셋 또한 빈번할 것이다. → 아이템 셋의 증가를 줄이는 방법 항목 집단을 줄이면서 진행 희소 행렬 : 0이라는 무의미한 값이 많은 행렬을 의미 Implicit Feedback : 구매하고 만족했는지 만족 안 했는지 모르는 데이터를 표현한다. 단일 항목 집단 생성 p(우유) : 0.5 / p(양상추) : 0.75 / p(기저귀) : 0.75 / p(주스): 0.25 / p(맥주) : 0.75 단일항목집단에서 최소 지지도(support)이상의 항목만 선택 이제 2개 항목 집단 생성 최소 지지도 이상의 항목만 선택 위의 과정을 k개의 k-item f..
https://school.programmers.co.kr/learn/courses/30/lessons/42586 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 문제 설명 프로그래머스 팀에서는 기능 개선 작업을 수행 중입니다. 각 기능은 진도가 100%일 때 서비스에 반영할 수 있습니다. 또, 각 기능의 개발속도는 모두 다르기 때문에 뒤에 있는 기능이 앞에 있는 기능보다 먼저 개발될 수 있고, 이때 뒤에 있는 기능은 앞에 있는 기능이 배포될 때 함께 배포됩니다. 먼저 배포되어야 하는 순서대로 작업의 진도가 적힌 정수 배열 progresses와 각 작업의 ..

1. 힙(Heap)이란? 우선 순위 큐를 위해 만들어진 자료구조이며 여러 값 중 최대/최소 값을 빠르게 찾아내도록 만들어진 반정렬 상태이다. * 우선 순위 큐란 : 들어간 순서와 상관 없이 높은 우선순위를 가진 원소는 낮은 우선순위를 가진 원소보다 먼저 처리 / 만약 두 원소가 같은 우선순위를 가진다면 큐에서 그들의 순서에 의해 처리 2. 힙의 종류 최대 힙(max heap) 부모 노드의 키 값이 자식 노드의 키 값보다 크거나 같은 완전 이진 트리 key(부모노드 >= key(자식노드) 최소 힙(min heap) 부모노드의 키 값이 자식노드의 키 값보다 작거나 같은 완전 이진 트리 key(부모노드)