'DATA' 태그의 글 목록

1. 들어가며스마트폰 사진 용량이 꽉 차거나, 팀원들과 대용량 영상 파일을 공유해야 할 때 우리는 자연스럽게 구글 드라이브나 드롭박스 같은 클라우드 서비스를 찾습니다. 하지만 데이터가 테라바이트(TB) 단위로 늘어나면 매월 지불해야 하는 구독료가 눈덩이처럼 불어나고, 기업 입장에서는 사내 기밀문서가 외부 서버에 저장된다는 보안 우려도 무시할 수 없습니다.이러한 비용과 보안, 용량의 한계를 한 번에 해결해 주는 마법의 상자가 바로 NAS(Network Attached Storage)입니다. "네트워크에 연결된 나만의 하드디스크"인 NAS는 단순한 저장 공간을 넘어, 미디어 스트리밍, 가상화, 심지어 최신 AI 모델까지 구동할 수 있는 '초소형 개인 서버'로 진화했습니다.이번 포스팅에서는 NAS의 개념과 원..

1. 들어가며인공지능(AI)은 스스로 똑똑해지지 않습니다. 마치 어린아이에게 "이건 사과야", "이건 바나나야"라고 하나하나 가르쳐주어야 하듯, AI에게도 데이터의 의미를 알려주는 과정이 필요합니다."이 사진 속 물체는 '고양이'이고, 위치는 여기야."이렇게 원천 데이터(Raw Data)에 AI가 이해할 수 있는 정답(Tag/Label)을 달아주는 작업을 데이터 라벨링(Data Labeling)이라고 합니다. AI 프로젝트 전체 시간의 80%가 데이터 준비에 쓰인다는 말이 있을 정도로, 라벨링은 모델의 성능을 결정짓는 가장 핵심적인 단계입니다.이번 포스팅에서는 데이터 라벨링의 종류와 기법, 그리고 파이썬과 딥러닝 모델을 활용해 자동 라벨링(Auto-Labeling)을 수행하는 실전 코드까지 A to Z를..

1. 들어가며: "데이터에 대한 데이터"우리는 매일 수많은 디지털 파일을 다룹니다. 사진을 찍으면 사진 파일만 남는 것이 아니라, 언제(Date), 어디서(GPS), 어떤 카메라(Device)로 찍었는지에 대한 정보가 함께 저장됩니다. 도서관에서 책을 찾을 때도 책의 내용 전체를 읽는 것이 아니라, 제목, 저자, 출판사가 적힌 카드를 보고 찾습니다.이처럼 "데이터를 설명해 주는 데이터", 즉 메타데이터(Metadata)는 정보의 홍수 속에서 우리가 원하는 데이터를 빠르고 정확하게 찾을 수 있게 해주는 핵심 열쇠입니다.이번 포스팅에서는 빅데이터와 AI 시대의 필수 요소인 메타데이터의 정의와 유형, 그리고 파이썬을 이용해 직접 메타데이터 관리 시스템을 구축하는 방법까지 A to Z를 다뤄보겠습니다.2. 메타..

1. 들어가며: "왜 데이터베이스로는 검색이 느릴까?"우리가 흔히 쓰는 MySQL이나 Oracle 같은 관계형 데이터베이스(RDBMS)는 데이터를 정형화하여 저장하는 데 최적화되어 있습니다. 하지만 "특정 단어가 포함된 텍스트"를 찾으려면 어떻게 해야 할까요? 보통 LIKE %검색어% 쿼리를 사용합니다.하지만 데이터가 수억 건이 넘어가면 이 방식은 모든 행을 다 뒤져야 하므로(Full Scan), 속도가 급격히 느려집니다. 또한, "애플"을 검색했을 때 "Apple"이나 "사과"까지 찾고 싶다면 RDBMS로는 구현이 매우 복잡해집니다.이러한 문제를 해결하기 위해 등장한 것이 바로 Elastic Search(엘라스틱 서치)입니다. "검색을 위한 데이터베이스"로서, 압도적인 속도와 유연성을 자랑하는 이 기술..

1. 들어가며지난 1편에서는 데이터 전처리의 기초를 다졌습니다. 하지만 실제 현업 데이터는 수백 개의 불필요한 변수가 섞여 있거나, 특정 클래스(예: 불량품)가 극도로 적은 불균형 상태인 경우가 대부분입니다.이번 2편에서는 머신러닝 모델의 성능을 결정짓는 핵심 기술인 특징 엔지니어링(Feature Engineering)의 고급 기법들을 심층 분석합니다. 단순한 코드 나열이 아니라, "이 기법을 왜 써야 하며, 무엇을 조심해야 하는지"에 집중했습니다.2. 특징 엔지니어링(Feature Engineering)이란?특징 엔지니어링은 원시 데이터(Raw Data)를 머신러닝 모델이 학습하기 좋은 형태의 **특징(Feature)**으로 변환, 생성, 선택하는 모든 과정을 말합니다."데이터 과학 프로젝트 시간의 8..

1. 들어가며많은 분들이 머신러닝을 공부할 때 모델(알고리즘)부터 들여다보지만, 사실 현업에서 가장 중요한 것은 "데이터를 바라보는 관점"과 "데이터를 다루는 기술"입니다. 모델은 도구일 뿐, 그 도구에 들어가는 재료(데이터)가 상했다면 결과는 뻔하기 때문입니다.1편에서는 머신러닝의 정의와 이를 지탱하는 수학적 기초(통계, 선형대수), 그리고 모델 성능을 좌우하는 데이터 엔지니어링(특징 추출, 불균형 처리, 유출 방지)의 모든 것을 아주 상세하게 다룹니다.2. 머신러닝(Machine Learning)이란 무엇인가?머신러닝(기계 학습)은 인공지능(AI)의 하위 집합으로, 데이터의 패턴을 "학습"하여 새로운 데이터에 대해 정확한 "추론"을 할 수 있게 만드는 알고리즘 기술입니다.사람이 일일이 규칙을 입력하는..

티스토리툴바