Daily Tech Update: 2025년 7월 24일의 주요 자료와 인사이트

in #kr-tech-news10 days ago

LLM기반 챗봇이 멋대로 50%할인을 약속 했고 법원은 그것을 인정 했습니다.

https://www.haebom.dev/7916x82r8eje124kpyg3
에어캐나다의 LLM 기반 상담 챗봇이 환각(hallucination)으로 인해 고객에게 50% 할인을 약속했고, 이 약속이 법정 다툼으로 이어졌습니다. 법원은 이를 유효한 것으로 인정하며, 이는 챗봇의 오류로 인한 약속도 법적 구속력이 있을 수 있음을 시사합니다.
#LLM #챗봇 #법적구속력 #할인약속 #AI_오류


robots.txt에 대해 내가 틀렸던 점

https://evgeniipendragon.com/posts/i-was-wrong-about-robots-txt/
작성자는 robots.txt 설정을 통해 웹사이트 크롤러를 차단하려 했으나, LinkedIn 포스트 미리보기가 사라지는 예상치 못한 부작용을 경험했다. 문제의 원인은 robots.txt가 LinkedInBot의 접근을 막아 Open Graph Protocol을 통한 메타 태그 수집을 방해했기 때문이었다. 이를 인지한 후, robots.txt를 부분 허용 방식으로 수정하여 문제를 해결하고, 기능 변경 시 충분한 테스트의 필요성을 깨달았다.
#robots.txt #LinkedIn #Open_Graph_Protocol #크롤러 #SEO_실수


FCC, 기가비트 속도 목표 폐지 및 초고속 인터넷 요금 분석 중단

https://arstechnica.com/civis/threads/fcc-to-eliminate-gigabit-speed-goal-and-scrap-analysis-of-broadband-prices.1508451/page-2
FCC가 기가비트 인터넷 속도 목표를 폐지하고 요금 분석도 중단하기로 결정했습니다. 이로 인해 인터넷 연결 격차는 줄었지만 가격 격차 문제는 여전히 남아 있으며, Amazon과 같은 신규 기업의 위성 인터넷 시장 진입으로 경쟁이 심화될 전망입니다. 최소 속도 목표보다 실질적 속도와 가격 접근성이 더 중요해지는 상황입니다.
#FCC #기가비트인터넷 #인터넷요금 #저소득층접근성 #가격격차


AI 기업의 실질적인 방어력 구축 전략

https://www.nfx.com/post/ai-defensibility?bhlid=d9571650054dedb1103403a36b3feca1b1241d09
AI 기업의 지속 가능한 성공을 위해 단기와 장기 방어 전략을 적절히 배치하는 것이 중요하다는 내용을 다룬다. 네트워크 효과, 데이터 장벽, 브랜드, 확장성, 워크플로우 임베딩 등 다양한 전략을 활용해야 하며, 구글과 Groupon의 사례를 통해 성공과 실패의 차이를 설명한다. 또한, AI 네이티브 네트워크 효과와 같은 새로운 방어 전략의 중요성을 강조한다.
#네트워크
효과 #데이터장벽 #브랜드전략 #AI_네이티브 #전환_비용


RAG에서 문서 파싱은 필요 없음: 이미지만 사용하세요

https://www.morphik.ai/blog/stop-parsing-docs
Morphik은 ColPali 모델 기반의 비주얼 문서 임베딩 방식을 통해 복잡한 문서에서 정보를 추출하는 새로운 방법을 제시합니다. 이 방법은 기존 OCR과 파싱 방식 대비 정확도와 정보 보존 면에서 월등하며, 벤치마크 테스트에서 최대 95.56%의 정확도를 달성했습니다. 또한, MUVERA와 Turbopuffer의 도입으로 대규모 문서 검색 속도도 크게 향상되었습니다. Morphik은 앞으로 멀티문서 추론, 워크플로우 통합, 전문가급 해석 등 문서 업무 자동화를 목표로 하고 있습니다.
#RAG #ColPali_모델 #비주얼문서임베딩 #문서자동화 #시각기반문서이해


[바쁜 개발자를 위한 Jujutsu]

https://maddie.wtf/posts/2025-07-21-jujutsu-for-busy-devs
Jujutsu(jj)는 Git보다 단순한 개념과 명령어를 제공하면서도 강력한 기능을 갖춘 버전 관리 시스템입니다. Git을 백엔드로 사용하며, 스택형 diff, 쉬운 rebase, 임시 리비전 등의 기능을 제공합니다. 또한, 분기 대신 북마크 개념을 활용하여 현업 작업 흐름에 더 직관적이고, 충돌 처리 방식이 유연합니다.
#Jujutsu #Git #버전관리 #개발자워크플로우 #명령줄_인터페이스


OpenAI Whisper에서 항상 완전한 무음이 아랍어로 "ترجمة نانسي قنقر"로 환각됨

https://github.com/openai/whisper/discussions/2608
OpenAI의 Whisper 모델, 특히 large-v3 버전에서 완전히 무음인 오디오 파일을 입력하면 항상 아랍어로 "ترجمة نانسي قنقر"(Translation by Nancy Qunqar)라는 텍스트를 출력하는 현상이 보고되었습니다. 이 문제는 모델이 무음 오디오를 특정 텍스트로 해석하도록 학습된 것으로 보이며, 이전 모델에서는 일부 조정이 가능했지만 large-v3에서는 효과가 제한적입니다. 우회 방법으로 VAD(Voice Activity Detection) 사용이나 무음 구간 필터링이 제안되었습니다.
#OpenAI_Whisper #무음오디오 #아랍어환각 #음성활동감지 #오디오_분석


24시간 만에 10억 웹페이지를 크롤링한 2025년형 대규모 크롤러 구축기

https://andrewkchan.dev/posts/crawler.html
이 글은 10억 개의 웹페이지를 24시간 만에 크롤링한 경험과 현대적인 웹 크롤링 시스템 설계 과정을 공유한다. 최신 하드웨어와 클라우드 인프라를 활용해 비용을 수백 달러 수준으로 유지하면서 대규모 크롤링을 실현한 방법과 주요 병목 현상인 파싱 문제를 해결한 과정을 설명한다. 또한, Redis 기반 노드 클러스터 아키텍처 설계와 도메인별 샤딩 및 프로세스 구조 최적화를 통해 효율을 극대화한 경험을 담고 있다.
#웹크롤링 #Redis #클라우드인프라 #병목현상 #도메인별샤딩


Qwen3-Coder: 세계를 향한 에이전트적 코딩

https://qwenlm.github.io/blog/qwen3-coder/
Qwen3-Coder는 4800억 파라미터 Mixture-of-Experts 구조와 256K 토큰 컨텍스트 지원을 통해 최첨단 오픈모델 성능을 달성한 AI 모델입니다. Qwen Code CLI 도구를 오픈소스화하여 사용자 중심의 에이전트적 코딩 태스크를 쉽게 수행할 수 있으며, 대규모 강화학습 및 연속 상호작용 환경 구축으로 코드 실행 성공률과 실사용 태스크 처리 능력을 극대화했습니다. 다양한 기존 개발 도구와의 호환성이 우수하며, API와 다양한 활용사례를 통해 코드 에이전트의 자가 개선 등 미래 방향을 모색하고 있습니다.
#Qwen3-Coder #에이전트적코딩 #강화학습 #코드생성_모델 #오픈소스_AI


TODO는 실제로 '처리하기 위한 것'이 아님

https://sophiebits.com/2025/07/21/todos-arent-for-doing
이 글은 코드 내 TODO 주석의 진정한 가치와 역할에 대해 논의한다. TODO 주석은 단순히 완수해야 할 작업 목록이 아니라, 코드 작성 시점의 맥락과 아이디어를 기록하는 '뇌의 스냅샷' 역할을 한다. 또한, 미래의 코드 리더가 저자의 의도를 이해하고 유지보수에 도움을 주는 중요한 도구로 설명된다.
#TODO_주석 #코드리팩터링 #협업 #코드이해도 #개발자_커뮤니케이션


KoDarkBench : 어떤 K-LLM이 가장 음침할까?

https://github.com/RiceBobb/KoDarkBench
KoDarkBench는 한국어 대규모 언어모델(K-LLM)의 다크 패턴을 평가하는 벤치마크 도구로, 영문 DarkBench를 한국어로 번역하고 한국 상황에 맞게 개선한 것입니다. 해로운 응답 생성, 의인화, 몰래 하기, 아부, 브랜드 편향 등 6가지 다크 패턴을 평가하며, LG 엑사원, SKT A.X, Upstage Solar, KT 믿음 등 9종의 한국 기업 오픈소스 LLM을 대상으로 테스트를 실시했습니다. 평가 결과 업스테이지 Solar Pro 2와 KT 믿음 2.0이 해로운 응답 생성에서 우수한 안전성을 보인 반면, LG 엑사원과 SKT A.X는 취약점을 드러냈습니다.
#한국어언어모델 #다크패턴 #AI_안전성 #벤치마크 #오픈소스_LLM


Qwen Code: Qwen3-Coder 모델을 위한 CLI 기반 AI Workflow 도구

https://github.com/QwenLM/qwen-code
Qwen Code는 Qwen3-Coder 모델과 연동된 CLI 기반 AI 워크플로우 도구로, 코드 이해 및 편집, 워크플로우 자동화, 고급 파서 기능을 제공합니다. Node.js 환경에서 작동하며, 복잡한 개발 작업을 간단한 CLI 명령어로 수행할 수 있습니다. 이 도구는 대규모 코드베이스 분석 및 반복 작업 자동화에 유용하며, Apache-2.0 라이선스로 공개되어 있습니다.
#Qwen3-Coder #CLI_도구 #워크플로우자동화 #Node.js #GitHub저장소


게임보이 카트리지 작동 방식에 대해 알기 싫을 만큼 자세하게

https://abc.decontextualize.com/more-than-you-wanted-to-know/
이 글은 커스텀 게임보이 카트리지 제작을 위한 기술적 정보를 초심자 관점에서 체계적으로 정리한 가이드입니다. 게임보이의 하드웨어 구조, 메모리 맵, 버스 시스템, 그리고 메모리 뱅크 컨트롤러(MBC)의 작동 원리를 상세히 설명하며, 카트리지가 게임보이 시스템에서 소프트웨어와 하드웨어의 경계 역할을 하는 핵심 구성 요소임을 강조합니다.
#Game_Boy #카트리지디자인 #하드웨어해킹 #회로설계 #메모리매핑


AI 엔지니어링과 머신러닝 엔지니어링, 풀스택 엔지니어링의 차이 [번역글]

https://blogbyash.com/translation/ai-engineering-stack/
이 글은 AI 엔지니어링, 머신러닝 엔지니어링, 풀스택 엔지니어링 간의 차이점을 설명하며, AI 엔지니어링 스택의 3계층 구조(애플리케이션 개발, 모델 개발, 인프라)를 분석합니다. 기존 ML 엔지니어링과 달리 현대 AI 엔지니어링은 사전 학습된 대형 모델을 활용하며, 프롬프트 엔지니어링과 파인튜닝을 통한 모델 맞춤화, 그리고 오픈형 결과 평가가 핵심입니다. 파운데이션 모델과 오픈소스 AI 생태계가 변화의 중심에 있으며, 데이터셋 엔지니어링과 사용자 인터페이스의 중요성이 증대되고 있습니다.
#AI_엔지니어링 #프롬프트엔지니어링 #파운데이션모델 #데이터셋엔지니어링 #AI애플리케이션_개발

Sort:  

Upvoted! Thank you for supporting witness @jswit.

H4LAB Delegation Status (2025/07/24)
https://www.steemit.com/@h4lab/2025-07-24-status

@h4lab님이 당신을 멘션하였습니다.
멘션을 받고 싶거나 받지 않으시려면 댓글을 남겨주세요. 빠른 시일내에 반영하도록 하겠습니다.