---
type: WebPage
title: bigset - 세상의 모든 데이터를
description: ""
resource: https://news.hada.io/topic?id=30747
tags: []
timestamp: 2026-06-24T02:37:48.479308Z
---

[GeekNews](/)
[최신글](/new) [예전글](/past) [쓰레드](/threads) [댓글](/comments) [Ask](/ask) [Show](/show) [GN⁺](/plus) [Weekly](/weekly) [GeekBots](/geekbots) [GeekBadge](/geekbadge) [후원](/support) | [글등록](/write)

검색

[로그인](/login)

▲

[# bigset - 세상의 모든 데이터를 가지고 있다면?](https://github.com/tinyfish-io/bigset) (github.com/tinyfish-io)

16P by [xguru](/%40xguru) 1일전 | ★ favorite | [댓글과 토론](topic?id=30747)

* **자연어 한 문장**으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기마다 **자동 갱신**하는 오픈소스 도구
  + 예: "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"
* 입력 문장에서 **스키마를 자동 추론** - 컬럼명, 타입, 기본 키, 웹에서 찾을 위치까지 결정
* 자율 에이전트가 라이브 웹을 조사하고, 실제 출처와 **대조 검증** 후 중복 제거해 표로 반환
  + 오케스트레이터 에이전트가 엔티티를 발견하면, 서브 에이전트가 병렬로 분산되어 각 엔티티를 조사·검증
* 결과물은 **CSV / XLSX**로 다운로드, UI에서 탐색 가능
* **갱신 주기(30분, 6시간, 12시간, 일간, 주간)** 설정 시 에이전트가 일정대로 재실행되어 데이터셋을 계속 갱신
* 사람이든 AI 에이전트든 웹과의 모든 상호작용은 결국 데이터로 귀결됨 (가격, 기업, 채용, 연구, 가용성, 재고 등)
  + 이 데이터는 여러 페이지에 흩어져있고, 기존 스크래핑/검색 API/LeadGen 도구가 해주지 못하는 **카테고리 교차 데이터 수집** 을 처리해 줌
    — 검색/추출/스키마 설계/중복 제거/검증/크론 작업을 매번 직접하거나 통합 작업을 할 필요 없음
* 터미널 **CLI**로도 데이터셋 생성·내보내기 가능
  + `bigset create "..." --rows 30 --wait --csv`
* 단, 아직 실험단계로 스키마 추론이 항상 완벽하지는 않음. 공개 데이터에만 적합
* **기술 스택**
  + 프론트엔드: **Next.js 16**, React 19, Tailwind 4
  + 백엔드: **Fastify**, TypeScript (에이전트 러너)
  + 인증: 로컬 인증(개발), **Clerk**(클라우드)
  + 데이터베이스: **Convex**(self-hosted)
  + 데이터 수집: **TinyFish API**(Search, Fetch, Browser)
  + AI 오케스트레이션: **Mastra** 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet(스키마 추론 + populate 에이전트)
  + 테이블 뷰: TanStack Table + react-window 가상화
  + 내보내기: CSV(내장) + XLSX(SheetJS, 동적 임포트)
  + 분석: PostHog — 이벤트, 세션 리플레이, 오류 추적(선택)
* AGPL-3.0 라이선스

## 함께 보면 좋은 글 β

* [re\_gent - AI 코딩 에이전트를 위한 버전 관리](/topic?id=30496)
* [Triplit - 서버와 브라우저간에 실시간 동기화해주는 오픈소스 DB](/topic?id=12886)
* [AI 학습용 텍스트 데이터 모음](/topic?id=3087)
* [Scrapeghost - GPT를 이용한 웹 스크래핑 라이브러리](/topic?id=8817)
* [Datasette - 개인용 데이터 웨어하우스 오픈소스](/topic?id=6455)

**GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다.**
Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.

[Weekly 구독](/weekly?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer)
[GeekBots로 받기](/geekbots?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer)
[GeekNews 소개](/start?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer)
숨기기

## 댓글과 토론

인증 이메일 클릭후 다시 체크박스를 눌러주세요

GeekNews를 계속 받아보려면 Weekly 뉴스레터나 GeekBots를 이용해보세요.

[Weekly 구독](/weekly?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer_reminder)
·
[GeekBots](/geekbots?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer_reminder)
·
[GeekNews 소개](/start?utm_source=referrer_banner&utm_medium=site&utm_campaign=topic_footer_reminder)

[처음 오셨나요](/start)
[사이트 이용법](/guidelines)
[FAQ](/faq)
[About](/about)
[후원하기](/support)
[이용약관](/terms)
[개인정보 처리방침](/privacy)

  |
[Blog](/blog)
[Lists](/lists)
[RSS](https://news.hada.io/rss/news)
  |
[Bookmarklet](/bookmarklet)

[X (Twitter)](https://x.com/GeekNewsHada)
[Facebook](https://facebook.com/GeekNewsHada)
  |   [긱뉴스봇](/geekbots) :
[Slack](/slack)
[잔디](/jandibot)
[Discord](/discordbot)
[Teams](/teamsbot)
[Dooray!](/dooraybot)
[Google Chat](/googlechatbot)
[Mattermost](/mattermostbot)
[Swit](/switbot)

[시작하기](/start)
[이용법](/guidelines)
[FAQ](/faq)
[About](/about)
[후원](/support)
[약관](/terms)
[개인정보](/privacy)

[Lists](/lists)
[Blog](/blog)
[RSS](https://news.hada.io/rss/news)
[X](https://x.com/GeekNewsHada)
[긱뉴스봇](/geekbots)

검색

![]()