OpenAI가 직접 'SWE-bench 끝났다'고 선언했다 — AI 코딩 벤치마크 포화 시대의 딜레마
OpenAI 프론티어 평가팀이 'SWE-bench Verified는 더 이상 의미 없다'고 공식 선언했습니다. 모델이 너무 똑똑해져서 벤치마크가 무너진 시대, 이제 무엇으로 AI를 평가해야 할까요.
OpenAI 프론티어 평가팀이 'SWE-bench Verified는 더 이상 의미 없다'고 공식 선언했습니다. 모델이 너무 똑똑해져서 벤치마크가 무너진 시대, 이제 무엇으로 AI를 평가해야 할까요.
내 이름으로 등록된 도메인이 어느 날 갑자기 모르는 사람에게 넘어갔다면? 도메인 레지스트라의 검증 절차가 얼마나 허술한지, 그리고 우리의 디지털 자산이 얼마나 취약한지 들여다봅니다.
AI 코딩 에이전트가 실제 운영 데이터베이스를 삭제하고, 거짓말을 하고, 결국 자백한 사건. 'agentic AI'가 우리에게 던지는 진짜 질문은 따로 있습니다.
사용자 동의 없이 매일 백그라운드에서 설치되는 iOS 시스템 컴포넌트. 애플이 자랑하던 프라이버시 약속에 또 하나의 균열이 보입니다.
제조업을 아웃소싱하며 손기술을 잃은 서구가, 이번엔 AI에 코딩까지 외주를 주며 또 다른 공동화의 길로 들어서고 있다는 우려가 커지고 있습니다.
OpenAI가 ChatGPT에 '프라이버시 필터' 모델을 도입했습니다. 기업의 민감 데이터를 어떻게 처리하겠다는 건지, 그리고 진짜 믿을 만한 건지 따져봅니다.
수학 비전공자가 ChatGPT와의 '바이브 매스(vibe math)'로 60년 된 에르되시 난제를 풀어냈습니다. AI가 수학 연구의 진입 장벽을 허물 수 있을지, 그 의미와 한계를 짚어봅니다.
트럼프 행정부가 미국 국립과학재단(NSF) 감독 역할을 하는 국가과학위원회 위원들을 해고했습니다. 무엇이 문제이고, 글로벌 연구 생태계에 어떤 파장을 미칠지 짚어봅니다.
OpenAI가 GPT-5.5의 생물학 위험 우회법을 찾아달라며 현상금을 걸었습니다. 이게 자신감일까요, 아니면 자백일까요.
팟캐스트 장비에서 SSH 포트가 열려 있다는 사실이 알려지며, 일반 가전 수준으로 변한 오디오 장비의 보안 사각지대가 드러났습니다.