Skip to main content

Do South Korean people really like “SPICY”?

In my U.S. experience, every person asks me, "Oh, this is a little bit spicy, but you came from South Korea; I'm sure you are OK. " Sure, I like spicy food really much. However, we have yet to learn about every South Korean people's taste type. In Yummirific data, we collected 3,397 people's taste preference data with 40 survey questions. Fortunately, we covered that "SPICY." Our question number 8 aligns with "SPICY." "I like spicy food." So, I analyzed 3,397 people's responded data related to basic tasty preferences, Sour, Bitter, Salty, Sweety, and "SPICY. Here are some fun facts about it.

[통계학] 나름 데이터과학자 정군의 강의노트

시립대학교 대학원 시절 통계수업 내용과 약 5년에 걸친 데이터 분석 실무 지식을 나름 섞어서 써볼 예정입니다. (2017.02.17. 작성 시작 – 현재 작성중)


I. 과학적 방법과 통계


1. 과학적 연구의 종류


1. 1 양적 연구 (Extensive Research)


  • 연구 대상을 정의할 때 적은 속성(Property)을 부여 : 연구 대상이 광범위하고 수가 많음
  • 대표성/유사성을 찾는 연구
  • 묘사적 연구, 이론에 대한 증명적 연구
  • 연구방법은 Formal & Rigid

COMMENT

일반적으로 실무에서는 양적 연구와 가까운 데이터 처리가 많습니다.  정보통신 기술(IT)의 발달로 어마어마한 양의 정보를 수집할 수 있게 되면서, 과거의 실무 통계는 전통적 통계학과 비슷하게 “어떠한 표본을 대표성 있게 추출할 것인가?”와 이러한 표본을 통해 어떻게 하면 보다 정확하게 모집단을 추론할 수 있는지가 주된 관심사 였습니다. 하지만, 소위 Big Data 시대가 열린 후로는 정말 어마어마한 양의 데이터가 생성되기 시작합니다.
특히 실무적 관점에서 가장 먼저 접하게 되는 데이터는 결국 매출 정보라고 할 수 있습니다. 우리 회사 제품이 얼마나 팔렸는가? 라는 질문에 과거에는 이번달 매출은 얼마, 하루 매상은 얼마와 같이 관측의 기준이 기간과 같이 넓게 보는 것도 힘들었죠. 매출 전표의 매출액을 계산기로 합산하는 것도 힘들었으니까요. 하지만 이제는 그러한 매출이 누구로부터 어디서 언제 어떻게 나왔는지에 대한 정보를 비교적 쉽게 수집할 수 있습니다. POS 전산 등을 통해서 판매 제품에 대한 정보와 판매 시각, 금액 등을 관측 데이터(Row)화 할 수 있고 이러한 데이터를 통해 다양한 분석을 해볼 수 있게 되었습니다.

1.2 질적 연구(Intensive Research)

  • 연구대상을 정의할 때 많은 속성(Property)을 통해 상세하게 정의 : 연구 대상이 협소하고 수가 적음
  • 구체적인 대상들의 인과관계 혹은 Connection들에 대해 추정
  • 연구자는 연구대상과 친밀도가 높음 : Interview 방식이 많이 사용
    • 연구방법은 Informal & Flexible
구분Intensive ResearchExtensive Research
Research 
Question
Process가 어떻게 작용하는가?
(어떤 특별한 경우)
-> 적은 연구대상으로 일반화를 하려 함
(but 성급한 일반화의 오류 가능성)
어떠한 규칙이 있는가?
규칙성, 공통성, 패턴 등을 조사해 모집단을 추론함
Relations실질적인 관계
(Connection 등에 관심 大)
유사성의 Formal Relation
Type of group 
study
Causal Group
(인과적 집단)
Taxonomical Group
(분류된 집단)
Type of Account인과적 설명력 높음
대표성이 결여됨
대표성이 잘 기술됨
설명력이 부족함
Type of methodsInterview
문화인류학적 설명 
상호간의 Connection
대표성(설문)조사(Formal한 양식)
표준화된 인터뷰
통계적 연구
Limitation대표성이 결여되어 일반화가 어려움개인에 대한 설명력이 약함
Test확인 Corroboration
확증적
Replication 복제 가능성

1.3 연구 예시

EX) 빈곤문제 연구사례

  • Extensive Research : 표본에 대해 대규모 조사 by 고용, 소득, 부양가족 수, 점유유형, 방 수, 인종, 교육 수준 등
  • Intensive Research : 적은 가구수에 대해서 복지, 고용, 교육 등의 경험적 지식, 역사 등을 조사 또는 Storytelling 방식 등

Comments

Popular posts from this blog

[스타트업] 개인 도메인으로 이메일을 쓸 수 있게 해주는 메일건(Mail Gun) 서비스

메일건 서비스 (Mail Gun Service) 개인 도메인으로 이메일을 쓸 수 있게 해주는 서비스를 찾으세요? 많은 소규모 사업자들에게 도움이 되었던 네이버웍스(라인웍스) 서비스가 결국 유료화 되었습니다.  네. 뭐 좋은 서비스로 돈 벌겠다는데 어쩌겠습니까. 이제 개별 도메인으로 라인웍스를 통해 메일을 사용하려면 1인당 약 6,000원/월의 요금이 발생하는 그렇고 그런 기업 협업 서비스가 되었습니다. 그 동안 다른 소규모 사업자 분들에게 네이버 웍스를 많이 추천해 드리고 세팅을 도와드렸었는데, 이제 기존에 쓰시던 분들은 2018년 정도 까지만 무료로 유지가 되고 이 후 부터는 비용이 발생할 예정입니다.  뭐 그렇게 큰 비용은 아닙니다만, 그래도 가만히 뜯기는 비용이라 뭔가 억울한 기분이 들긴 듭니다.  결국 네이버웍스를 대체하기 위해 열심히 구글링을 하던 도중 국내에 잘 알려지지 않은 재미난 서비스를 찾았습니다.  김수빈이란 분의 블로그를 통해 알게 된 메일건 입니다. 출처 사이트 링크 ▼ http://subink.im/2829 아무튼 이 분의 사이트에서 메일건이란 서비스를 알게되고 위의 포스트 내용을 참고하여 메일건 서비스를 직접 적용해 보는 포스트를 공유해볼까 합니다.  거의 대부분의 내용이 김수빈 님의 블로그에서 해결이 됩니다만, 카페24 도메인을 쓰는 경우와 메일 수신을 위헌 주요 dns 세팅이 추가되었기에 정리해 봅니다 . 필요한 준비물(?)    (1) 개인 도메인(이 포스트는 cafe24 구입 도메인 기준)   (2) 메일을 받을 gmail 계정 1. Mail Gun Service 소개 먼저 메일 건 서비스를 알아야겠죠?  메일건 사이트 주소 ▼ https://www.mailgun.com/ 메일건 서비스는 email service for Develope...

[일상 & 맛집] 용산에 있는 기찻길 그리고 기찻길 주점 - '나의 아저씨' 촬영장소

드라마 나의 아저씨  에서 퇴근길로 유명한 그 장소. 드라마는 못봤지만, 친한 동생이 용산으로 이사하며 알게된 장소. 나중에 재개발 되면 어떻게 될지는 모르겠지만... 이런 장소가 운치 있고 멋있어 보이는 것은 어쩔 수 없는 듯... 아마도 이런 장소만 있던 시절을 살아보지 못해서가 아닐까? 그리고 그 기찻길 옆에 기찻길이란 작은 주점이 있다.  중앙선이 거진 3 ~ 5분 간격으로 계속 지나다니는... 그 진동과 요란한 소리를 고스란히 받아들이고 있는 집 말 그대로 기찻길 옆.. 사장님과 고양이 둘이서 꾸려나가는 작은 가게... 이 라면은 메뉴에 없다 ㅎㅎ 그냥 가만히 앉아서 술잔을 비우면 계속 지나가는 전철의 진동 소리가 느껴진다. 서울에 기찻길 지나가는 곳이 서울역 근처 서대문, 홍대거리 근처 (지금은 지하화 한걸로 알고 있지만),  이렇게 두 곳 밖에 남지 않았다고 알고 있었는데... 용산은 정말, 신구가 공존하는 공간으로 남아있는 듯 하다.

[에세이] 교육환경이 서울시 아파트가격에 미치는 영향 연구

교육환경이 서울시 아파트가격에 미치는 영향 연구 - 헤도닉가격모형과 공간계량경제모형의 비교를 통해  A study on the influence of Educational Environment on housing prices of Seoul - By comparison between Hedonic Price Model and Spatial Economatrix Model 서울시립대학교 일반대학원 도시행정학과 석사과정 정윤식 Choung, Yunsik I. 서 론   주택은 여러 특성의 집합으로 구성되어 있고 이러한 여러 특성은 주택 자체의 물리적 특성은 물론 다양한 환경적 특성에 의해 결정되어 진다. 여기에 주택은 일반 소비재와는 다르게 위치의 고정성(immobility)을 지니고 있어 주택 시장의 지역성(locality)을 발생시킨다. 이러한 위치의 고정성은 또한 공간적인 측면에서 살펴 볼 수 있는 특성이다. Rosen(1974)의 연구 이후 헤도닉가격함수(hedonic price function)는 주택과 같이 여러 가지 특성으로 구성된 재화의 잠재가격(imolicit price)을 측정하는데 자주 이용되어 왔으며, 주택가격의 형성 요인을 분석하는 강력한 도구로 사용되어 왔다. 여러 주택 가격 형성 요인 중에 교육환경이라는 환경적 특성은 서울 강남지역의 주택수요 증가에 직·간접적인 영향이 있었다는 점에 대해서 여러 연구자들이 연구 성과를 발표했다. 하지만 기존의 연구들은 헤도닉가격모형을 사용하여 자료의 공간적 특성을 고려하지 않고 있다. 횡단면(cross-section) 자료를 사용하여 주택가격을 추정할 때 이분산성(heteroskedasticity) 문제와 공간적 자기상관(spatial autocorrelation) 문제가 제기된다. Dubin(1998)은 주택가격의 횡단면 자료를 분석하는 경우 이분산성의 문제보다는 자기상관의 문제가 더 중요하다고 지적하고 있다. 주택가격의 공간적 자기상관은...