RL 이론에 의해 인도된 연구는 모델 기반 신경 기질을 식별했습니다.
계산 RL 이론을 기반으로 일련의 신경 이미징 연구가 성능을 평가했습니다.
습관에 근거한(모델이 없는) 학습과 장래성을 모두 끌어내는 연속적인 의사결정 태스크입니다.
결과에 관한 계획(모델베이스)을 작성합니다. 결과는 의 매핑과 거의 일치합니다.
어소시에이트 및 센서 모터의 코르티코-BG 루프에 대한 습관적이고 목표 지향적인 제어를 실시합니다. 위해서요
예, Wunderlich et al. (2012) 캐시된 액션값과 관련된 활동입니다.
(생물학) 광범위한 훈련과 전미부 핵에서의 활동에 의해 획득된 것입니다.
는 모델 기반 계획에 사용되는 값과 관련이 있었습니다. 마찬가지로, Lee et al.(2014)은 다음과 같이 보고했습니다.
후방 푸탐, SMA, 후방 내측 PFC 및 후방 외측 PFC 인코딩 모델이 없는 액션입니다.
모델 베이스의 값은 전두엽 피질(OFC) 궤도에서의 활동과 관련지어졌습니다.
ACC 뿐만 아니라 미디어용 PFC도 갖추고 있습니다(deWitetal도 참조하십시오. 2009년 Valentin et al. 2007)입니다.
최근 듀얼 시스템 RL 모델에서는 응답 선택은 모델 프리에 의해 공동으로 결정되는 VMPFC(Invromedial Prefrontal Cortex)로 표현되는 액션 값을 기반으로 한다고 제안되었습니다.
(습관) 및 잠재적인 계획 컨트롤러(Daw 등 2011)입니다. 이 모델 기반 값 신호와 모델 프리 값 신호의 통합은 다음과 관련된 조정자에 의해 이루어질 것으로 생각됩니다.
하측 외측 PFC, 전두엽 피질 및 ACC에서의 액티비티(Lee et al. 2014)입니다. 얼마나 정확한가요?
그러한 중재자는 각 시스템의 기여를 규제한다는 것은 아직 거의 알려져 있지 않습니다.에 따르면
한 분석에 따르면 응답 전략의 변화는 주로 강화 또는 억제를 통해 달성됩니다.
모델이 없는 습관 시스템의 영향입니다(Lee et al. 2014). 기타 조사 결과는 동적임을 시사합니다.
습관 시스템과 목표 시스템의 양쪽 변화(Gremel & Costa 2013)입니다.
최근 증거에 따르면 사람들이 목표를 추구함에 따라 습관이 발달한다는 생각과 일치합니다.
여러 뇌 영역이 목표 지향과 습관 제어에 모두 관여하고 있다는 것입니다. 예를 들어, Lee et al.(2014)은 SMA라는 두 지역이 멀티스텝 의사결정 태스크라는 것을 발견했습니다.
dmPFC는 모델 프리와 모델 베이스의 양쪽 값을 나타냅니다. 마찬가지로, Gremel&Costa(2013)입니다.
습관적 또는 목표 지향 전략을 사용하여 스크로스를 레버로 누르도록 훈련된 쥐들입니다. 그들입니다
DLS, DMS 및 OFC의 많은 뉴런이 습관적인 응답과 목표 지향적인 응답에 모두 참여하고 있으며, 이러한 영역에서 뉴런의 상대적인 관여가 보고되고 있습니다.
현재 응답 전략에 의존합니다.
요약하자면, RL 이론에 의해 인도된 연구는 모델 기반 신경 기질을 식별했습니다.
(목표지향) 및 모델 프리(목표지향)의 제어가 가능합니다. 이 신경계들은 부분적으로 중복되어 있습니다.
그리고 그 계산은 뇌 영역에 의해 통합되어 뇌의 상대적인 영향을 제어합니다.
두 가지 행동 제어 모드가 있습니다.