8) 집합

  set은 파이썬 2.3 부터 지원되기 시작한 자료형으로 보통 집합에 관련된 것들을 쉽게 처리하기 위해 만들어진 자료형이다.

set 자료형은 다음과 같이 set키워드를 이용하여 만들 수 있다.

>>> s1 = set([1,2,3])
>>> s1
{1, 2, 3}

  위와 같이 리스트를 입력으로 만들 수 있다.

>>> s2 = set("Hello")
>>> s2
{'e', 'l', 'o', 'H'}

또는 위와 같이 문자열을 입력으로 만들 수도 있다.

set의 특징

  자, 그런데 위에서 살펴 본 "Hello" set의 결과가 좀 이상하지 않은가?

분명 "Hello"라는 문자열로 set 자료형을 만들었는데 생성된 자료형에는 l 문자가 하나 빠져 있고 순서도 뒤죽박죽이다.

  그 이유는 set에는 다음과 같은 두가지 큰 특징이 있기 때문이다.

  1. 중복을 허용하지 않는다.
  2. 순서가 없다. (unordered)

※ set의 이러한 중복을 허용하지 않는 특징은 자료형의 중복을 제거하기 위한 필터 역할로 종종 사용되기도 한다.

  리스트나 튜플은 순서가 있기(ordered) 때문에 인덱싱을 통해서 자료형의 값을 얻을 수 있지만

set 자료형은 순서가 없기(unordered) 때문에 인덱싱으로 값을 얻을 수 없다.

  이것은 우리가 이전에 살펴 본 딕셔너리와 비슷하다. 딕셔너리 역시 순서가 없는 자료형이라 인덱싱을 지원하지 않는다.

set 자료형에 저장된 값을 인덱싱으로 접근하려면 다음과 같이 리스트나 터플로 변환한 후 가능하다.

>>> s1 = set([1,2,3])
>>> l1 = list(s1)
[1, 2, 3]
>>> l1[0]
1

교집합, 합집합, 차집합

  set 자료형이 정말 유용하게 사용되는 경우는 다음과 같이 교집합, 합집합, 차집합을 구하려 할 때이다.

우선 다음과 같이 두개의 set 자료형을 만들어보자.

>>> s1 = set([1,2,3,4,5,6])
>>> s2 = set([4,5,6,7,8,9])

  s1은 1부터 6까지의 값을 가지게 되었고 s2는 4부터 9까지의 값을 가지게 되었다. 자 이제 이 두개의 자료형의 교집합을 구해 보도록 하자.

>>> s1 & s2
{4, 5, 6}
>>>

  & 기호를 이용하면 교집합을 간단히 구할 수 있다.

또는 다음과 같이 intersection 함수를 사용해도 동일한 결과를 리턴한다.

>>> s1.intersection(s2)
{4, 5, 6}

합집합은 다음과 같이 만들 수 있다.

>>> s1 | s2
{1, 2, 3, 4, 5, 6, 7, 8, 9}

| 기호를 이용한 방법이다.

>>> s1.union(s2)
{1, 2, 3, 4, 5, 6, 7, 8, 9}

  또는 union 함수를 이용하면 된다.

차집합은 다음과 같이 만들 수 있다.

>>> s1 - s2
{1, 2, 3}

- 기호를 이용하는 방법이다.

>>> s1.difference(s2)
{1, 2, 3}

  또는 difference 함수를 이용하면 된다.

추가와 삭제

  한번 만들어진 set 자료형에 값을 추가할 수 있다.

>>> s1 = set([1,2,3])
>>> s1.add(4)
>>> s1
{1, 2, 3, 4}

  한개의 값만 추가(add)할 경우에는 위와 같이 한다.

>>> s1 = set([1,2,3])
>>> s1.update([4,5,6])
>>> s1
{1, 2, 3, 4, 5, 6}

여러개의 값을 한꺼번에 추가(update)할 경우에는 위와 같이 하면 된다.

>>> s1 = set([1,2,3])
>>> s1.remove(2)
>>> s1
{1, 3}

  특정 값을 제거(remove)하고 싶을 때에는 위와 같이 하면 된다.

이상과 같이 파이썬에서 사용되는 가장 기본이 되는 자료형인 숫자, 문자열, 리스트, 튜플, 딕셔너리, 집합에 대해서 알아 보았다.

  여기까지 잘 따라온 독자라면 파이썬에 대해서 대략 50% 정도 습득했다고 보아도 된다.

그만큼 위에서 언급한 자료형들은 중요하기 때문이다.

  책에 있는 예제들만 따라하지 말고 직접 여러 가지 예들을 만들어 보고 테스트해 가며 반복해서 위의 자료형들에 익숙해지기를 당부한다.

왜냐하면 자료형은 프로그램의 근간이 되기 때문에 확실하게 해 놓지 않으면 좋은 프로그램을 만들 수 없기 때문이다.

 

예제를 연습해 봅시다