데이터 과학

통계학 전공자와 데이터 공유 방법 (구글번역)

학습 목표

  • 통계전문가와 데이터 공유 방법을 살펴본다.
  • 데이터 공유 방법과 효과에 대해서 이해한다.
  • 구글 번역기와 번역품질을 비교한다. (2016.11.21. 기준)

구글에서 구글번역기 기능을 한층 강화했다는 기사가 나와 직접 번역해 봤습니다. 1 직접 영어원문과 구글 번역본, 그리고 사람이 한땀한땀 번역한 번역의 차이를 확인해 보기시 바랍니다. 전체 문장이 README.md 파일이 구글 번역기에 한방에 들어가지 않아 여러번 나눠 번역한 결과를 웹에서 적절히 표현되도록 일부 편집하였으나, 번역의 핵심인 내용은 전혀 손을 대지 않고 번역 원본 그대로 실었습니다.

1. 통계 학자와 데이터를 공유하는 방법

이것은 통계 학자 또는 데이터 과학자와 데이터를 공유해야하는 모든 사람들을위한 안내서입니다. 내가 생각하는 대상 잠재 고객은 다음과 같습니다.

  • 통계 분석가 또는 데이터 과학자가 데이터를 분석해야하는 공동 작업자
  • 컨설팅을 원하는 다양한 분야의 학생 또는 박사후 과정
  • 직업을 가진 주니어 통계 학생들은 데이터 세트를 대조 / 정리 / 논쟁하는 것입니다.

이 가이드의 목표는 가장 일반적인 함정을 피하기 위해 데이터를 공유하는 가장 좋은 방법에 대한 지침을 제공하는 것입니다 데이터 수집에서 데이터 분석으로의 전환 지연의 원인. Leek group은 큰 공동 작업자 수 및 결과에 대한 속도의 가장 큰 변화 원인은 데이터의 상태입니다 그들이 Leek 그룹에 도착했을 때. 다른 통계 학자들과의 대화를 보면 거의 보편적으로 사실입니다.

내 강한 느낌은 통계학자가 그들이 도착한 어떤 상태에서도 데이터를 처리 할 수 ​​있어야한다는 것입니다. 중요하다. 원시 데이터를보고 처리 파이프 라인의 단계를 이해하고 숨겨진 소스를 통합 할 수 있어야합니다. 데이터 분석의 다양성. 반면에 많은 데이터 유형에서 처리 단계는 잘 설명되어 있습니다. 표준화되었습니다. 따라서 원시 형식에서 직접 분석 가능한 형식으로 데이터를 변환하는 작업을 수행 할 수 있습니다. 통계 학자를 부르기 전에. 이는 통계 전문가가 처리 시간을 단축하기 때문에 처리 시간을 크게 단축 할 수 있습니다. 먼저 모든 사전 처리 단계를 수행해야합니다.

2. 통계학 자에게 전달해야 할 사항

가장 효율적이고시기 적절한 분석을 용이하게하기 위해 이것은 통계학 자에게 전달해야하는 정보입니다.

  1. 원시 데이터.
  2. 정돈 된 데이터 세트
  3. 깔끔한 데이터 세트의 각 변수와 그 값을 설명하는 코드 북.
  4. 1에서 2,3까지 갔던 명쾌하고 정확한 레시피

전송할 데이터 패키지의 각 부분을 살펴 보겠습니다.

2.1. 원시 데이터

액세스 할 수있는 가장 원시 형식의 데이터를 포함시키는 것이 중요합니다. 이렇게하면 그 데이터 출처는 워크 플로우 전체에서 유지 될 수 있습니다. 다음은 원시 데이터 형식 :

  • 이상한 바이너리 파일 측정기가 뱉어 내림
  • 계약을 맺은 회사가 귀하에게 보낸 10 개의 워크 시트가 포함 된 서식없는 Excel 파일
  • Twitter API를 스크랩하여 얻은 복잡한 JSON
  • 현미경을 통해 수집 한 수작업으로 입력 한 숫자

다음과 같은 경우 원시 데이터가 올바른 형식임을 알고 있습니다.

  1. 데이터에 소프트웨어가 없습니다.
  2. 데이터 값을 수정하지 않았습니다.
  3. 데이터 세트에서 데이터를 제거하지 않았습니다.
  4. 어떤 방식 으로든 데이터를 요약하지 않았습니다.

원시 데이터를 수정 한 경우 원시 형식이 아닙니다. 수정 된 데이터보고 원시 데이터는 분석 프로세스의 속도를 늦추는 매우 일반적인 방법이므로 분석가는 종종 귀하의 데이터에 대한 법의학 연구를 통해 왜 원시 데이터가 이상하게 보이는지 파악합니다. (또한 새로운 데이터가 도착하면 어떻게 될지 상상해보십시오.)

2.2. 깔끔한 데이터 세트

깔끔한 데이터의 일반적인 원칙은 Hadley Wickham이 정리한 논문(tidy data)비디오에서 자세한 내용을 참조할 수 있습니다. 종이와 비디오 모두 R를 사용하여 깔끔한 데이터를 설명하지만, 원칙 더 일반적으로 적용 할 수 있습니다 :

  1. 측정하는 각 변수는 하나의 열에 있어야합니다
  2. 변수의 관찰 결과가 다른 행에 있어야합니다.
  3. 변수의 “종류”마다 하나의 테이블이 있어야합니다.
  4. 여러 테이블이있는 경우 테이블에 조인 또는 병합 할 수있는 열을 포함해야합니다

이러한 규칙은 쉽고 빠르지 만 데이터를 훨씬 쉽게 설정할 수있는 여러 가지 기능이 있습니다. 다루다. 첫 번째는 전체 행 이름을 포함하는 각 데이터 테이블 / 스프레드 시트의 맨 위에 행을 포함하는 것입니다. 따라서 환자 진단을 위해 나이를 측정한다면, 대신에 AgeAtDiagnosis라는 이름으로 그 칼럼을 쓸 것입니다. 다른 사람이 이해하기 어려울 수있는 ’ADx’또는 다른 약어와 같은 것입니다.

이것이 유전체학에서 어떻게 작동하는지 예가 있습니다. 20 명의 사람들을 위해 유전자 발현 측정을 RNA 시퀀싱. 또한 인구 통계 및 임상 정보를 수집했습니다. 나이, 치료 및 진단을 포함한 환자에 대해 임상 / 인구 통계가 포함 된 표 / 스프레드 시트가 하나 있습니다. 정보. 4 개의 열 (환자 ID, 나이, 치료, 진단)과 21 개의 행 (변수 이름이있는 행, 그리고 하나의 행 모든 환자에 대해). 또한 요약 된 게놈 데이터를위한 스프레드 시트가 하나 있습니다. 일반적으로이 유형의 데이터 엑손 당 카운트 수의 레벨로 요약됩니다. 100,000 개의 엑손이 있다고 가정하면, 표 / 스프레드 시트에 21 개의 행 (유전자 이름의 행과 각 환자의 행)과 100,001 개의 열 (환자의 경우 한 행 각 데이터 유형마다 하나의 행).

Excel의 공동 작업자와 데이터를 공유하는 경우 깔끔한 데이터는 테이블 당 하나의 Excel 파일에 있어야합니다. 그들 여러 워크 시트가 없어야하며 매크로에 데이터를 적용해서는 안되며 열 / 셀을 강조 표시하지 않아야합니다. 또는 CSV 또는 TAB 구분 텍스트에서 데이터를 공유하십시오. 파일. 그러나 Excel에 CSV 파일을 읽으면 날짜와 시간 변수를 재현 할 수없는 방식으로 처리 할 수 ​​있습니다.

2.3. 코드 북

거의 모든 데이터 세트의 경우, 계산 한 측정 값은 사용자가 할 수있는 것보다 자세하게 설명해야합니다 스프레드 시트에 넣습니다. 코드북에는이 정보가 들어 있습니다. 최소한 다음 내용을 포함해야합니다.

  1. 깔끔한 데이터에 포함되지 않은 데이터 세트의 변수 (단위 포함!)에 대한 정보
  2. 요약 선택 사항에 대한 정보
  3. 사용한 실험 연구 디자인에 대한 정보

우리의 genomics 예제에서 분석가는 각각의 측정 단위가 무엇인지 알고 싶어합니다. 임상 / 인구 통계 학적 변수는 (연령, 수혜자의 이름 / 용량, 진단 수준 및 이질적 성질). 그들 또한 게놈 데이터 (UCSC / Ensembl 등)를 요약하기 위해 사용한 엑손을 어떻게 골 랐는지 알고 싶어합니다. 그들 당신이 데이터 수집 / 연구 디자인을 어떻게했는지에 대한 다른 정보를 알고 싶을 것입니다. 예를 들어, 이들이 진료소에 들어간 첫 20 명의 환자입니까? 그들은 20 명의 고도로 선정 된 환자인가? 나이와 같은? 그들은 무작위로 치료를 받고 있습니까?

이 문서의 일반적인 형식은 Word 파일입니다. 철저한 시험 계획이 있어야합니다. 데이터 수집 방법에 대한 설명 각 변수와 변수를 설명하는 “코드북”이라는 섹션이 있습니다. 단위.

2.4. 변수 코딩 방법

변수를 스프레드 시트에 넣으면 데이터 유형에 따라 몇 가지 주 카테고리가 실행됩니다.

  1. 연속
  2. 서수
  3. 범주 형
  4. 누락
  5. 검열 된

연속 변수는 양수가 될 수있는 양적 척도로 측정되는 값입니다. 예제 kg 단위로 측정 한 무게와 같을 것입니다. 서수 데이터는 고정 된 작은 (<100) 레벨 수이지만 주문 된 데이터입니다. 예를 들어 설문 조사 응답 일 수 있습니다 (선택 사항은 가난하고 공정하며 좋음). 범주 데이터는 데이터입니다. 여러 카테고리가 있지만 주문되지 않았습니다. 한 가지 예가 성별입니다 : 남성 또는 여성. 이 코딩은 자체 문서화이기 때문에 매력적입니다. 누락 된 데이터는 데이터입니다. 관찰되지 않고 메커니즘을 알지 못합니다. 누락 된 값은 ‘NA’로 코딩해야합니다. 검열 된 데이터는 데이터입니다. 어떤면에서는 실종 메커니즘을 알고 있습니다. 일반적인 예는 측정 한계 이하입니다 또는 환자가 추적 관찰을 위해 분실 된 경우. 데이터가없는 경우에는 ’NA’로 코딩해야합니다. 하지만 너는해야한다. 또한 검열 된 경우 ’TRUE’값을 가져야하는 “VariableNameCensored”라는 깔끔한 데이터에 새 열을 추가하십시오. 그렇지 않다면 ’FALSE’. 코드 북에서 이러한 값이 누락 된 이유를 설명해야합니다. 보고하는 것이 절대적으로 중요합니다. 일부 데이터가 누락되었다는 것을 알고있는 이유가있는 경우 애널리스트에게 문의하십시오. 또한 impute / make up / 누락 된 관찰을 던지십시오.

일반적으로 범주 형 또는 서수 변수를 숫자로 코딩하지 않도록하십시오. 깔끔하게 섹스 값을 입력하면 데이터는 “남성”또는 “여성”이어야합니다. 데이터 세트의 서수 값은 1, 2, 3이 아닌 “poor”, “fair”및 “good”이어야합니다. 이렇게하면 방향 효과에 대한 잠재적 인 혼란을 피하고 코딩 오류를 식별하는 데 도움이됩니다.

항상 텍스트를 사용하여 관찰에 대한 모든 정보를 인코딩하십시오. 예를 들어 Excel에 데이터를 저장하고 관찰에 대한 정보를 나타 내기 위해 색이 지정된 텍스트 또는 셀 배경 형식을 사용하는 경우 ( “실험 1에서 빨간색 변수 항목이 관찰 됨”)이 정보는 내 보내지 않습니다. 잃어 버려!) 데이터가 원시 텍스트로 내보내집니다. 모든 데이터 조각은 내보낼 수있는 실제 텍스트로 인코딩되어야합니다.

2.5. 명령 목록 / 스크립트

전에는 이것을 들었을 지 모르지만 재현성은 계산 과학에서 큰 문제입니다. 즉, 논문을 제출할 때 리뷰어와 나머지 세계는 정확하게 복제 할 수 있어야합니다. 원시 데이터에서 최종 결과까지 분석합니다. 당신이 능률적 인 것을 시도하는 경우에, 당신은 확률이 높을 것이다 일부 요약 / 데이터 분석 단계는 데이터가 깔끔한 것으로 간주 될 수 있습니다.

요약 작업을 수행 할 때 가장 이상적인 일은 컴퓨터 스크립트 (R,Python 또는 다른 것)를 만드는 것입니다. 원시 데이터를 입력으로 사용하고 출력으로 공유하는 깔끔한 데이터를 생성합니다. 스크립트를 실행 해 볼 수 있습니다. 두 번 확인하고 코드가 동일한 출력을 생성하는지 확인하십시오.

많은 경우 데이터를 수집 한 사람은 통계 전문가가 프로세스 속도를 높이기 위해 깔끔한 인센티브를 제공합니다 협업의 스크립트 언어로 코딩하는 방법을 알지 못할 수도 있습니다. 이 경우 통계학 자에게 제공해야 할 사항은 무엇입니까? 의사 코드라고하는 것입니다. 모양은 다음과 같아야합니다.

  1. 1 단계 - 원시 파일을 가져 와서 매개 변수 a = 1, b = 2, c = 3을 사용하여 요약 소프트웨어 버전 3.1.2를 실행합니다.
  2. 2 단계 - 각 샘플에 대해 소프트웨어를 별도로 실행하십시오.
  3. 3 단계 - 각 샘플에 대해 outputfile.out의 3 열을 가져오고 이는 출력 데이터 세트에서 해당 행입니다

소프트웨어를 사용하는 시스템 (Mac / Windows / Linux)과 소프트웨어를 사용했는지 여부에 대한 정보도 포함해야합니다. 똑같은 결과를 냈는지 확인하기 위해 한 번 이상 시도했습니다. 이상적으로, 당신은 동료 학생 / labmate에 의해 이것을 실행합니다 자신이 한 것과 동일한 출력 파일을 얻을 수 있는지 확인하십시오.

3. 분석가가 기대해야 할 사항

제대로 정리 된 데이터 세트를 넘겨 주면 통계 학자의 작업량이 크게 줄어 듭니다. 그렇게 잘하면 그들은 훨씬 더 일찍 당신에게 돌아갈 것입니다. 하지만 가장 신중한 통계 학자가 귀하의 제조법을 점검하고 당신이 수행 한 단계들, 최소한 그들이했던 것과 똑같은 깔끔한 데이터를 얻을 수 있는지 확인하려고 노력하십시오. 체크 무늬.

그런 다음 통계학 자에게 기대해야합니다.

  1. 각 분석 (지침뿐만 아니라)을 수행하는 분석 스크립트
  2. 분석을 실행하는 데 사용 된 정확한 컴퓨터 코드
  3. 생성 된 모든 출력 파일 / 수치.

이것은 결과의 재현성과 정확성을 입증하기 위해 보완 자료에 사용할 정보입니다. 마다 분석 단계가 명확하게 설명되어야하며 이해하지 못할 때 질문해야합니다. 분석가가 한 일. 통계학을 이해하는 것은 통계 학자와 과학자 모두의 책임입니다. 분석. 통계학 자의 코드 없이는 정확한 분석을 수행하지 못할 수도 있지만, 왜 통계 학자가 각 단계를 실험실 / 수석 연구원에게 수행했는지 설명합니다.

기여자

  • Jeff Leek - 초기 버전을 썼습니다.
  • L. Collado-Torres - 오타가 수정되고 링크가 추가되었습니다.
  • Nick Reich - 데이터를 텍스트로 저장하는 팁을 추가했습니다.
  • Nick Horton - 사소한 말씨를 제안합니다.

  1. [J가 해봤습니다 - 내가 이러려고 영어 배웠나, AI가 번역 다 해주네(http://news.joins.com/article/20890227)